Silakan gunakan saluran khusus kami untuk pertanyaan dan diskusi. Bantuan akan jauh lebih berharga jika dibagikan secara publik sehingga lebih banyak orang dapat memperoleh manfaatnya.
Jenis | Platform |
---|---|
Laporan Bug | Pelacak Masalah GitHub |
? Permintaan & Ide Fitur | Pelacak Masalah GitHub |
? Pertanyaan Penggunaan | Diskusi GitHub |
? Diskusi Umum | Diskusi atau Perselisihan GitHub |
Jenis | Tautan |
---|---|
Dokumentasi | BacaTheDocs |
? Instalasi | TTS/README.md |
? Berkontribusi | KONTRIBUSI.md |
? Peta Jalan | Rencana Pembangunan Utama |
Model yang Dirilis | Rilis TTS dan Model Eksperimental |
? Dokumen | Makalah TTS |
"TTS*" dan "Judy*" yang digarisbawahi adalah model ?TTS internal yang tidak dirilis sebagai sumber terbuka. Mereka di sini untuk menunjukkan potensinya. Model yang diawali dengan titik (.Jofish .Abe dan .Janice) adalah suara manusia sungguhan.
Trainer API
yang lengkap.dataset_analysis
.Anda juga dapat membantu kami menerapkan lebih banyak model.
?TTS diuji di Ubuntu 18.04 dengan python >= 3.9, <3.12. .
Jika Anda hanya tertarik untuk mensintesis ucapan dengan model ?TTS yang dirilis, menginstal dari PyPI adalah opsi termudah.
pip install TTS
Jika Anda berencana membuat kode atau melatih model, kloning ?TTS dan instal secara lokal.
git clone https://github.com/coqui-ai/TTS
pip install -e .[all,dev,notebooks] # Select the relevant extras
Jika Anda menggunakan Ubuntu (Debian), Anda juga dapat menjalankan perintah berikut untuk instalasi.
$ make system-deps # intended to be used on Ubuntu (Debian). Let us know if you have a different OS.
$ make install
Jika Anda menggunakan Windows, ?@GuyPaddock menulis petunjuk instalasi di sini.
Anda juga dapat mencoba TTS tanpa menginstal dengan image buruh pelabuhan. Cukup jalankan perintah berikut dan Anda akan dapat menjalankan TTS tanpa menginstalnya.
docker run --rm -it -p 5002:5002 --entrypoint /bin/bash ghcr.io/coqui-ai/tts-cpu
python3 TTS/server/server.py --list_models # To get the list of available models
python3 TTS/server/server.py --model_name tts_models/en/vctk/vits # To start a server
Anda kemudian dapat menikmati server TTS di sini. Detail lebih lanjut tentang gambar buruh pelabuhan (seperti dukungan GPU) dapat ditemukan di sini
import torch
from TTS . api import TTS
# Get device
device = "cuda" if torch . cuda . is_available () else "cpu"
# List available ?TTS models
print ( TTS (). list_models ())
# Init TTS
tts = TTS ( "tts_models/multilingual/multi-dataset/xtts_v2" ). to ( device )
# Run TTS
# ❗ Since this model is multi-lingual voice cloning model, we must set the target speaker_wav and language
# Text to speech list of amplitude values as output
wav = tts . tts ( text = "Hello world!" , speaker_wav = "my/cloning/audio.wav" , language = "en" )
# Text to speech to a file
tts . tts_to_file ( text = "Hello world!" , speaker_wav = "my/cloning/audio.wav" , language = "en" , file_path = "output.wav" )
# Init TTS with the target model name
tts = TTS ( model_name = "tts_models/de/thorsten/tacotron2-DDC" , progress_bar = False ). to ( device )
# Run TTS
tts . tts_to_file ( text = "Ich bin eine Testnachricht." , file_path = OUTPUT_PATH )
# Example voice cloning with YourTTS in English, French and Portuguese
tts = TTS ( model_name = "tts_models/multilingual/multi-dataset/your_tts" , progress_bar = False ). to ( device )
tts . tts_to_file ( "This is voice cloning." , speaker_wav = "my/cloning/audio.wav" , language = "en" , file_path = "output.wav" )
tts . tts_to_file ( "C'est le clonage de la voix." , speaker_wav = "my/cloning/audio.wav" , language = "fr-fr" , file_path = "output.wav" )
tts . tts_to_file ( "Isso é clonagem de voz." , speaker_wav = "my/cloning/audio.wav" , language = "pt-br" , file_path = "output.wav" )
Mengubah suara di source_wav
menjadi suara target_wav
tts = TTS ( model_name = "voice_conversion_models/multilingual/vctk/freevc24" , progress_bar = False ). to ( "cuda" )
tts . voice_conversion_to_file ( source_wav = "my/source.wav" , target_wav = "my/target.wav" , file_path = "output.wav" )
Dengan cara ini, Anda dapat mengkloning suara dengan menggunakan model apa pun di ?TTS.
tts = TTS ( "tts_models/de/thorsten/tacotron2-DDC" )
tts . tts_with_vc_to_file (
"Wie sage ich auf Italienisch, dass ich dich liebe?" ,
speaker_wav = "target/speaker.wav" ,
file_path = "output.wav"
)
Untuk model Fairseq, gunakan format nama berikut: tts_models/<lang-iso_code>/fairseq/vits
. Anda dapat menemukan kode ISO bahasa di sini dan mempelajari model Fairseq di sini.
# TTS with on the fly voice conversion
api = TTS ( "tts_models/deu/fairseq/vits" )
api . tts_with_vc_to_file (
"Wie sage ich auf Italienisch, dass ich dich liebe?" ,
speaker_wav = "target/speaker.wav" ,
file_path = "output.wav"
)
tts
baris perintahSintesis ucapan pada baris perintah.
Anda dapat menggunakan model terlatih atau memilih model dari daftar yang disediakan.
Jika Anda tidak menentukan model apa pun, maka model tersebut menggunakan model bahasa Inggris berbasis LJSpeech.
Daftar model yang disediakan:
$ tts --list_models
Dapatkan info model (untuk tts_models dan vocoder_models):
Kueri berdasarkan jenis/nama: model_info_by_name menggunakan nama dari --list_models.
$ tts --model_info_by_name "<model_type>/<language>/<dataset>/<model_name>"
Misalnya:
$ tts --model_info_by_name tts_models/tr/common-voice/glow-tts
$ tts --model_info_by_name vocoder_models/en/ljspeech/hifigan_v2
Kueri berdasarkan jenis/idx: model_query_idx menggunakan idx yang sesuai dari --list_models.
$ tts --model_info_by_idx "<model_type>/<model_query_idx>"
Misalnya:
$ tts --model_info_by_idx tts_models/3
Info kueri untuk info model berdasarkan nama lengkap:
$ tts --model_info_by_name "<model_type>/<language>/<dataset>/<model_name>"
Jalankan TTS dengan model default:
$ tts --text "Text for TTS" --out_path output/path/speech.wav
Jalankan TTS dan keluarkan data file TTS wav yang dihasilkan:
$ tts --text "Text for TTS" --pipe_out --out_path output/path/speech.wav | aplay
Jalankan model TTS dengan model vocoder defaultnya:
$ tts --text "Text for TTS" --model_name "<model_type>/<language>/<dataset>/<model_name>" --out_path output/path/speech.wav
Misalnya:
$ tts --text "Text for TTS" --model_name "tts_models/en/ljspeech/glow-tts" --out_path output/path/speech.wav
Jalankan dengan model TTS dan vocoder tertentu dari daftar:
$ tts --text "Text for TTS" --model_name "<model_type>/<language>/<dataset>/<model_name>" --vocoder_name "<model_type>/<language>/<dataset>/<model_name>" --out_path output/path/speech.wav
Misalnya:
$ tts --text "Text for TTS" --model_name "tts_models/en/ljspeech/glow-tts" --vocoder_name "vocoder_models/en/ljspeech/univnet" --out_path output/path/speech.wav
Jalankan model TTS Anda sendiri (Menggunakan Griffin-Lim Vocoder):
$ tts --text "Text for TTS" --model_path path/to/model.pth --config_path path/to/config.json --out_path output/path/speech.wav
Jalankan model TTS dan Vocoder Anda sendiri:
$ tts --text "Text for TTS" --model_path path/to/model.pth --config_path path/to/config.json --out_path output/path/speech.wav
--vocoder_path path/to/vocoder.pth --vocoder_config_path path/to/vocoder_config.json
Cantumkan speaker yang tersedia dan pilih <speaker_id> di antaranya:
$ tts --model_name "<language>/<dataset>/<model_name>" --list_speaker_idxs
Jalankan model TTS multi-speaker dengan ID speaker target:
$ tts --text "Text for TTS." --out_path output/path/speech.wav --model_name "<language>/<dataset>/<model_name>" --speaker_idx <speaker_id>
Jalankan model TTS multi-speaker Anda sendiri:
$ tts --text "Text for TTS" --out_path output/path/speech.wav --model_path path/to/model.pth --config_path path/to/config.json --speakers_file_path path/to/speaker.json --speaker_idx <speaker_id>
$ tts --out_path output/path/speech.wav --model_name "<language>/<dataset>/<model_name>" --source_wav <path/to/speaker/wav> --target_wav <path/to/reference/wav>
|- notebooks/ (Jupyter Notebooks for model evaluation, parameter selection and data analysis.)
|- utils/ (common utilities.)
|- TTS
|- bin/ (folder for all the executables.)
|- train*.py (train your target model.)
|- ...
|- tts/ (text to speech models)
|- layers/ (model layer definitions)
|- models/ (model definitions)
|- utils/ (model specific utilities.)
|- speaker_encoder/ (Speaker Encoder models.)
|- (same)
|- vocoder/ (Vocoder models.)
|- (same)