TTS 다운로드 - TTS 소스 코드 다운로드

TTS

기타 소스코드

v0.22.0

다운로드

?Coqui.ai 뉴스

ⓍTTSv2는 16개 언어를 지원하며 전반적으로 더 나은 성능을 제공합니다.
ⓍTTS 미세조정 코드가 나왔습니다. 예시 레시피를 확인해보세요.
ⓍTTS는 이제 200ms 미만의 지연 시간으로 스트리밍할 수 있습니다.
Ⓧ13개 언어를 지원하는 TTS 양산 모델 TTS 출시 Blog Post, Demo, Docs
?Bark는 이제 무제한 음성 복제를 통해 추론에 사용할 수 있습니다. 문서
?TTS와 함께 ~1100 Fairseq 모델을 사용할 수 있습니다.
?TTS는 이제 더 빠른 추론으로 ?Tortoise를 지원합니다. 문서

질문하는 곳

질문과 토론은 전용 채널을 이용해 주세요. 더 많은 사람들이 혜택을 누릴 수 있도록 공개적으로 공유하면 도움이 훨씬 더 가치가 있습니다.

유형	플랫폼
버그 보고서	GitHub 문제 추적기
? 기능 요청 및 아이디어	GitHub 문제 추적기
? ‍ 사용법 질문	GitHub 토론
? 일반 토론	GitHub 토론 또는 불일치

? 링크 및 리소스

유형	모래밭
선적 서류 비치	ReadTheDocs
? 설치	TTS/README.md
? ‍ 기여하는 중	기여 중.md
? 로드맵	주요 개발 계획
출시 모델	TTS 릴리스 및 실험 모델
? 서류	TTS 논문

? TTS 성능

밑줄 친 "TTS*" 및 "Judy*"는 오픈 소스로 출시되지 않은 내부 ?TTS 모델입니다. 그들은 잠재력을 보여주기 위해 여기에 있습니다. 점이 앞에 붙은 모델(.Jofish .Abe 및 .Janice)은 실제 사람의 목소리입니다.

특징

Text2Speech 작업을 위한 고성능 딥 러닝 모델입니다.
- Text2Spec 모델(Tacotron, Tacotron2, Glow-TTS, SpeedySpeech).
- 스피커 임베딩을 효율적으로 계산하는 스피커 인코더.
- 보코더 모델(MelGAN, Multiband-MelGAN, GAN-TTS, ParallelWaveGAN, WaveGrad, WaveRNN)
빠르고 효율적인 모델 훈련.
터미널과 Tensorboard에 대한 자세한 교육 로그입니다.
다중 스피커 TTS를 지원합니다.
효율적이고 유연하며 가볍지만 완전한 Trainer API 기능을 갖추고 있습니다.
출시되어 바로 사용할 수 있는 모델.
dataset_analysis 아래에서 Text2Speech 데이터 세트를 관리하는 도구입니다.
모델을 사용하고 테스트하는 유틸리티입니다.
새로운 아이디어를 쉽게 구현할 수 있는 모듈식(그러나 너무 많지는 않음) 코드 기반입니다.

모델 구현

스펙트로그램 모델

타코트론: 종이
Tacotron2: 종이
글로우-TTS: 종이
빠른 연설: 종이
Align-TTS: 종이
FastPitch: 종이
FastSpeech: 종이
FastSpeech2: 종이
SC-GlowTTS: 종이
커패시터: 종이
오버플로우: 종이
신경망 HMM TTS: 종이
즐거운 TTS: 종이

엔드투엔드 모델

ⓍTTS: 블로그
VITS: 종이
? YourTTS: 종이
? 거북이: 원본. 레포
? 나무껍질: 원본. 레포

주의 방법

주의 집중: 종이
순방향 역방향 디코딩: 종이
그레이브스 주의: 종이
이중 디코더 일관성: 블로그
동적 컨벌루션 어텐션: 종이
정렬 네트워크: 종이

스피커 인코더

GE2E: 종이
각도 손실: 종이

보코더

MelGAN: 종이
MultiBandMelGAN: 종이
ParallelWaveGAN: 종이
GAN-TTS 판별자: 종이
WaveRNN: 원점
WaveGrad: 종이
HiFiGAN: 종이
UnivNet: 종이

음성변환

FreeVC: 종이

더 많은 모델을 구현하는 데 도움을 주실 수도 있습니다.

설치

?TTS는 Python >= 3.9, < 3.12를 사용하는 Ubuntu 18.04에서 테스트되었습니다. .

출시된 ?TTS 모델로 음성을 합성하는 데에만 관심이 있다면 PyPI에서 설치하는 것이 가장 쉬운 옵션입니다.

pip install TTS

모델을 코딩하거나 학습시키려는 경우 ?TTS를 복제하고 로컬에 설치하세요.

git clone https://github.com/coqui-ai/TTS
pip install -e .[all,dev,notebooks]  # Select the relevant extras

Ubuntu(Debian)를 사용하는 경우 다음 명령을 실행하여 설치할 수도 있습니다.

$ make system-deps  # intended to be used on Ubuntu (Debian). Let us know if you have a different OS.
$ make install

Windows를 사용하는 경우 ?@GuyPaddock이 여기에 설치 지침을 작성했습니다.

도커 이미지

Docker 이미지를 사용하여 설치하지 않고 TTS를 사용해 볼 수도 있습니다. 다음 명령을 실행하기만 하면 TTS를 설치하지 않고도 실행할 수 있습니다.

docker run --rm -it -p 5002:5002 --entrypoint /bin/bash ghcr.io/coqui-ai/tts-cpu
python3 TTS/server/server.py --list_models # To get the list of available models
python3 TTS/server/server.py --model_name tts_models/en/vctk/vits # To start a server

그런 다음 여기에서 TTS 서버를 즐길 수 있습니다. GPU 지원과 같은 도커 이미지에 대한 자세한 내용은 여기에서 확인할 수 있습니다.

?TTS로 음성 합성

? 파이썬 API

다중 화자 및 다국어 모델 실행

 import torch
from TTS . api import TTS

# Get device
device = "cuda" if torch . cuda . is_available () else "cpu"

# List available ?TTS models
print ( TTS (). list_models ())

# Init TTS
tts = TTS ( "tts_models/multilingual/multi-dataset/xtts_v2" ). to ( device )

# Run TTS
# ❗ Since this model is multi-lingual voice cloning model, we must set the target speaker_wav and language
# Text to speech list of amplitude values as output
wav = tts . tts ( text = "Hello world!" , speaker_wav = "my/cloning/audio.wav" , language = "en" )
# Text to speech to a file
tts . tts_to_file ( text = "Hello world!" , speaker_wav = "my/cloning/audio.wav" , language = "en" , file_path = "output.wav" )

단일 스피커 모델 실행

 # Init TTS with the target model name
tts = TTS ( model_name = "tts_models/de/thorsten/tacotron2-DDC" , progress_bar = False ). to ( device )

# Run TTS
tts . tts_to_file ( text = "Ich bin eine Testnachricht." , file_path = OUTPUT_PATH )

# Example voice cloning with YourTTS in English, French and Portuguese
tts = TTS ( model_name = "tts_models/multilingual/multi-dataset/your_tts" , progress_bar = False ). to ( device )
tts . tts_to_file ( "This is voice cloning." , speaker_wav = "my/cloning/audio.wav" , language = "en" , file_path = "output.wav" )
tts . tts_to_file ( "C'est le clonage de la voix." , speaker_wav = "my/cloning/audio.wav" , language = "fr-fr" , file_path = "output.wav" )
tts . tts_to_file ( "Isso é clonagem de voz." , speaker_wav = "my/cloning/audio.wav" , language = "pt-br" , file_path = "output.wav" )

음성 변환 예시

source_wav 의 음성을 target_wav 의 음성으로 변환

 tts = TTS ( model_name = "voice_conversion_models/multilingual/vctk/freevc24" , progress_bar = False ). to ( "cuda" )
tts . voice_conversion_to_file ( source_wav = "my/source.wav" , target_wav = "my/target.wav" , file_path = "output.wav" )

음성 변환 모델과 함께 음성 복제의 예.

이렇게 하면 ?TTS의 모든 모델을 사용하여 음성을 복제할 수 있습니다.

 tts = TTS ( "tts_models/de/thorsten/tacotron2-DDC" )
tts . tts_with_vc_to_file (
    "Wie sage ich auf Italienisch, dass ich dich liebe?" ,
    speaker_wav = "target/speaker.wav" ,
    file_path = "output.wav"
)

~1100개 언어로 Fairseq 모델을 사용한 텍스트 음성 변환의 예 ?.

Fairseq 모델의 경우 tts_models/<lang-iso_code>/fairseq/vits 이름 형식을 사용합니다. 여기에서 언어 ISO 코드를 찾고 여기에서 Fairseq 모델에 대해 알아볼 수 있습니다.

 # TTS with on the fly voice conversion
api = TTS ( "tts_models/deu/fairseq/vits" )
api . tts_with_vc_to_file (
    "Wie sage ich auf Italienisch, dass ich dich liebe?" ,
    speaker_wav = "target/speaker.wav" ,
    file_path = "output.wav"
)

명령줄 `tts`

명령줄에서 음성을 합성합니다.

학습된 모델을 사용하거나 제공된 목록에서 모델을 선택할 수 있습니다.

모델을 지정하지 않으면 LJSpeech 기반 영어 모델을 사용합니다.

단일 스피커 모델

제공된 모델 목록:
```
 $ tts --list_models
```

모델 정보 가져오기(tts_models 및 vocoder_models 모두에 대해):

유형/이름별 쿼리: model_info_by_name은 --list_models의 이름을 그대로 사용합니다.

 $ tts --model_info_by_name "<model_type>/<language>/<dataset>/<model_name>"

예를 들어:

 $ tts --model_info_by_name tts_models/tr/common-voice/glow-tts
$ tts --model_info_by_name vocoder_models/en/ljspeech/hifigan_v2

유형/idx별 쿼리: model_query_idx는 --list_models의 해당 idx를 사용합니다.

 $ tts --model_info_by_idx "<model_type>/<model_query_idx>"

예를 들어:

 $ tts --model_info_by_idx tts_models/3

이름으로 모델 정보 쿼리 정보:

 $ tts --model_info_by_name "<model_type>/<language>/<dataset>/<model_name>"

기본 모델로 TTS를 실행합니다.

 $ tts --text "Text for TTS" --out_path output/path/speech.wav

TTS를 실행하고 생성된 TTS wav 파일 데이터를 파이프아웃합니다.

 $ tts --text "Text for TTS" --pipe_out --out_path output/path/speech.wav | aplay

기본 보코더 모델을 사용하여 TTS 모델을 실행합니다.

 $ tts --text "Text for TTS" --model_name "<model_type>/<language>/<dataset>/<model_name>" --out_path output/path/speech.wav

예를 들어:

 $ tts --text "Text for TTS" --model_name "tts_models/en/ljspeech/glow-tts" --out_path output/path/speech.wav

목록에서 특정 TTS 및 보코더 모델로 실행:

 $ tts --text "Text for TTS" --model_name "<model_type>/<language>/<dataset>/<model_name>" --vocoder_name "<model_type>/<language>/<dataset>/<model_name>" --out_path output/path/speech.wav

예를 들어:

 $ tts --text "Text for TTS" --model_name "tts_models/en/ljspeech/glow-tts" --vocoder_name "vocoder_models/en/ljspeech/univnet" --out_path output/path/speech.wav

자신만의 TTS 모델 실행(Griffin-Lim Vocoder 사용):

 $ tts --text "Text for TTS" --model_path path/to/model.pth --config_path path/to/config.json --out_path output/path/speech.wav

자신만의 TTS 및 Vocoder 모델을 실행해 보세요.

 $ tts --text "Text for TTS" --model_path path/to/model.pth --config_path path/to/config.json --out_path output/path/speech.wav
    --vocoder_path path/to/vocoder.pth --vocoder_config_path path/to/vocoder_config.json

다중 스피커 모델

사용 가능한 스피커를 나열하고 그 중에서 <speaker_id>를 선택합니다.
```
 $ tts --model_name "<language>/<dataset>/<model_name>"  --list_speaker_idxs
```

대상 스피커 ID를 사용하여 다중 스피커 TTS 모델을 실행합니다.

 $ tts --text "Text for TTS." --out_path output/path/speech.wav --model_name "<language>/<dataset>/<model_name>"  --speaker_idx <speaker_id>

자신만의 다중 스피커 TTS 모델을 실행해 보세요.

 $ tts --text "Text for TTS" --out_path output/path/speech.wav --model_path path/to/model.pth --config_path path/to/config.json --speakers_file_path path/to/speaker.json --speaker_idx <speaker_id>

음성 변환 모델

 $ tts --out_path output/path/speech.wav --model_name "<language>/<dataset>/<model_name>" --source_wav <path/to/speaker/wav> --target_wav <path/to/reference/wav>

디렉토리 구조

 |- notebooks/       (Jupyter Notebooks for model evaluation, parameter selection and data analysis.)
|- utils/           (common utilities.)
|- TTS
    |- bin/             (folder for all the executables.)
      |- train*.py                  (train your target model.)
      |- ...
    |- tts/             (text to speech models)
        |- layers/          (model layer definitions)
        |- models/          (model definitions)
        |- utils/           (model specific utilities.)
    |- speaker_encoder/ (Speaker Encoder models.)
        |- (same)
    |- vocoder/         (Vocoder models.)
        |- (same)

확장하다

추가 정보

버전 v0.22.0
유형 기타 소스코드
업데이트 시간 2025-01-02
크기 50MB
출처 Github

TTS

?Coqui.ai 뉴스

질문하는 곳

? 링크 및 리소스

? TTS 성능

특징

모델 구현

스펙트로그램 모델

엔드투엔드 모델

주의 방법

스피커 인코더

보코더

음성변환

설치

도커 이미지

?TTS로 음성 합성

? 파이썬 API

다중 화자 및 다국어 모델 실행

단일 스피커 모델 실행

음성 변환 예시

음성 변환 모델과 함께 음성 복제의 예.

~1100개 언어로 Fairseq 모델을 사용한 텍스트 음성 변환의 예 ?.

명령줄 `tts`

단일 스피커 모델

다중 스피커 모델

음성 변환 모델

디렉토리 구조

F5 TTS ComfyUI

음성 개발에 대한 영어 정보(TTS 사용자 가이드 Delphi 버전)

chat.petals.dev

GPT Prompt Templates

GPTyped

waymo open dataset

Sunamu

MySchedule.py

waymo open dataset

termwind

wp functions

TTS

?Coqui.ai 뉴스

질문하는 곳

? 링크 및 리소스

? TTS 성능

특징

모델 구현

스펙트로그램 모델

엔드투엔드 모델

주의 방법

스피커 인코더

보코더

음성변환

설치

도커 이미지

?TTS로 음성 합성

? 파이썬 API

다중 화자 및 다국어 모델 실행

단일 스피커 모델 실행

음성 변환 예시

음성 변환 모델과 함께 음성 복제의 예.

~1100개 언어로 Fairseq 모델을 사용한 텍스트 음성 변환의 예 ?.

명령줄 tts

단일 스피커 모델

다중 스피커 모델

음성 변환 모델

디렉토리 구조

명령줄 `tts`