TTSダウンロード - TTSソースコードのダウンロード

TTS

その他のソースコード

v0.22.0

ダウンロード

?Coqui.aiニュース

ⓍTTSv2 は 16 言語に対応し、全体的にパフォーマンスが向上しています。
ⓍTTS微調整コードが公開されました。レシピ例を確認してください。
ⓍTTS は 200ms 未満の遅延でストリーミングできるようになりました。
Ⓧ13 か国語を話すことができる TTS 製品モデルである TTS がリリースされましたブログ投稿、デモ、ドキュメント
?Bark は、制約のない音声クローンによる推論に使用できるようになりました。ドキュメント
?TTS では、最大 1100 の Fairseq モデルを使用できます。
?TTS は、より高速な推論を備えた ?Tortoise をサポートするようになりました。ドキュメント

質問する場所

質問やディスカッションには専用チャンネルをご利用ください。ヘルプが公的に共有され、より多くの人が恩恵を受けることができれば、ヘルプの価値はさらに高まります。

タイプ	プラットフォーム
バグレポート	GitHub 問題トラッカー
?機能のリクエストとアイデア	GitHub 問題トラッカー
? ‍ 使用上の質問	GitHub ディスカッション
?一般的な議論	GitHub ディスカッションまたは Discord

?リンクとリソース

タイプ	リンク
ドキュメント	ドキュメントを読む
?インストール	TTS/README.md
? ‍ 貢献しています	貢献.md
?ロードマップ	主な開発計画
発売済みモデル	TTS リリースと実験モデル
?論文	TTS論文

? TTSパフォーマンス

下線付きの「TTS*」および「Judy*」は、オープンソースではリリースされていない内部の?TTS モデルです。彼らは可能性を示すためにここにいます。先頭にドットが付いているモデル (.Jofish、.Abe、および .Janice) は実際の人間の声です。

特徴

Text2Speech タスク用の高性能深層学習モデル。
- Text2Spec モデル (Tacotron、Tacotron2、Glow-TTS、SpeedySpeech)。
- スピーカーのエンベディングを効率的に計算するスピーカーエンコーダー。
- ボコーダーモデル (MelGAN、Multiband-MelGAN、GAN-TTS、ParallelWaveGAN、WaveGrad、WaveRNN)
高速かつ効率的なモデルトレーニング。
ターミナルと Tensorboard 上の詳細なトレーニングログ。
マルチスピーカー TTS のサポート。
効率的、柔軟、軽量でありながら、完全な機能を備えたTrainer API 。
リリースされ、すぐに使用できるモデル。
dataset_analysisで Text2Speech データセットをキュレートするツール。
モデルを使用およびテストするためのユーティリティ。
新しいアイデアを簡単に実装できるモジュール式 (ただし多すぎない) コードベース。

モデルの実装

スペクトログラムモデル

タコトロン：紙
タコトロン2：紙
グローTTS：紙
Speedy-Speech: 紙
Align-TTS: 紙
ファストピッチ: 紙
早口スピーチ: 紙
FastSpeech2: 紙
SC-GlowTTS：紙
キャパシトロン：紙
オーバーフロー: 紙
ニューラル HMM TTS: 論文
楽しいTTS：紙

エンドツーエンドモデル

ⓍTTS：ブログ
VITS：紙
?あなたのTTS: 紙
?カメ：オリジナル。リポジトリ
?樹皮：オリジナル。リポジトリ

注意の方法

ガイド付きアテンション: 紙
前方後方デコーディング: 論文
墓の注意: 紙
ダブルデコーダーの一貫性: ブログ
動的畳み込みアテンション: 論文
アライメントネットワーク: 紙

スピーカーエンコーダー

GE2E: 紙
角度損失: 紙

ボコーダー

MelGAN: 紙
MultiBandMelGAN: 紙
ParallelWaveGAN: 紙
GAN-TTS 識別子: 論文
WaveRNN: 原点
WaveGrad: 紙
HiFiGAN: 紙
UnivNet: 論文

音声変換

FreeVC: 紙

より多くのモデルの実装にご協力いただくこともできます。

インストール

?TTS は、Python 3.9 以上、3.12 未満の Ubuntu 18.04 でテストされています。 。

リリースされた ?TTS モデルで音声を合成することだけに興味がある場合は、PyPI からインストールするのが最も簡単なオプションです。

pip install TTS

モデルのコーディングやトレーニングを計画している場合は、?TTS を複製してローカルにインストールします。

git clone https://github.com/coqui-ai/TTS
pip install -e .[all,dev,notebooks]  # Select the relevant extras

Ubuntu (Debian) を使用している場合は、次のコマンドを実行してインストールすることもできます。

$ make system-deps  # intended to be used on Ubuntu (Debian). Let us know if you have a different OS.
$ make install

Windows を使用している場合は、?@GuyPaddock がここにインストール手順を書きました。

ドッカーイメージ

docker イメージを使用して、インストールせずに TTS を試すこともできます。次のコマンドを実行するだけで、インストールせずに TTS を実行できるようになります。

docker run --rm -it -p 5002:5002 --entrypoint /bin/bash ghcr.io/coqui-ai/tts-cpu
python3 TTS/server/server.py --list_models # To get the list of available models
python3 TTS/server/server.py --model_name tts_models/en/vctk/vits # To start a server

ここで TTS サーバーをお楽しみいただけます。Docker イメージ (GPU サポートなど) の詳細については、こちらをご覧ください。

?TTSによる音声合成

? Python API

マルチスピーカーおよび多言語モデルの実行

 import torch
from TTS . api import TTS

# Get device
device = "cuda" if torch . cuda . is_available () else "cpu"

# List available ?TTS models
print ( TTS (). list_models ())

# Init TTS
tts = TTS ( "tts_models/multilingual/multi-dataset/xtts_v2" ). to ( device )

# Run TTS
# ❗ Since this model is multi-lingual voice cloning model, we must set the target speaker_wav and language
# Text to speech list of amplitude values as output
wav = tts . tts ( text = "Hello world!" , speaker_wav = "my/cloning/audio.wav" , language = "en" )
# Text to speech to a file
tts . tts_to_file ( text = "Hello world!" , speaker_wav = "my/cloning/audio.wav" , language = "en" , file_path = "output.wav" )

単一スピーカーモデルの実行

 # Init TTS with the target model name
tts = TTS ( model_name = "tts_models/de/thorsten/tacotron2-DDC" , progress_bar = False ). to ( device )

# Run TTS
tts . tts_to_file ( text = "Ich bin eine Testnachricht." , file_path = OUTPUT_PATH )

# Example voice cloning with YourTTS in English, French and Portuguese
tts = TTS ( model_name = "tts_models/multilingual/multi-dataset/your_tts" , progress_bar = False ). to ( device )
tts . tts_to_file ( "This is voice cloning." , speaker_wav = "my/cloning/audio.wav" , language = "en" , file_path = "output.wav" )
tts . tts_to_file ( "C'est le clonage de la voix." , speaker_wav = "my/cloning/audio.wav" , language = "fr-fr" , file_path = "output.wav" )
tts . tts_to_file ( "Isso é clonagem de voz." , speaker_wav = "my/cloning/audio.wav" , language = "pt-br" , file_path = "output.wav" )

音声変換の例

source_wavの音声をtarget_wavの音声に変換する

 tts = TTS ( model_name = "voice_conversion_models/multilingual/vctk/freevc24" , progress_bar = False ). to ( "cuda" )
tts . voice_conversion_to_file ( source_wav = "my/source.wav" , target_wav = "my/target.wav" , file_path = "output.wav" )

音声クローン作成と音声変換モデルの例。

このように、?TTS の任意のモデルを使用して音声のクローンを作成できます。

 tts = TTS ( "tts_models/de/thorsten/tacotron2-DDC" )
tts . tts_with_vc_to_file (
    "Wie sage ich auf Italienisch, dass ich dich liebe?" ,
    speaker_wav = "target/speaker.wav" ,
    file_path = "output.wav"
)

約 1100 の言語で Fairseq モデルを使用したテキスト読み上げの例。

Fairseq モデルの場合は、名前形式tts_models/<lang-iso_code>/fairseq/vitsを使用します。ここで言語 ISO コードを見つけ、Fairseq モデルについて学ぶことができます。

 # TTS with on the fly voice conversion
api = TTS ( "tts_models/deu/fairseq/vits" )
api . tts_with_vc_to_file (
    "Wie sage ich auf Italienisch, dass ich dich liebe?" ,
    speaker_wav = "target/speaker.wav" ,
    file_path = "output.wav"
)

コマンドライン`tts`

コマンドラインで音声を合成します。

トレーニング済みのモデルを使用することも、提供されたリストからモデルを選択することもできます。

モデルを指定しない場合は、LJSpeech ベースの英語モデルが使用されます。

シングルスピーカーモデル

提供されているモデルをリストします。
```
 $ tts --list_models
```

モデル情報を取得します (tts_models と vocoder_models の両方)。

タイプ/名前によるクエリ:model_info_by_name は、--list_models からの名前を使用します。

 $ tts --model_info_by_name "<model_type>/<language>/<dataset>/<model_name>"

例えば：

 $ tts --model_info_by_name tts_models/tr/common-voice/glow-tts
$ tts --model_info_by_name vocoder_models/en/ljspeech/hifigan_v2

タイプ/idx によるクエリ:model_query_idx は、--list_models の対応する idx を使用します。
```
 $ tts --model_info_by_idx "<model_type>/<model_query_idx>"
```
例えば：
```
 $ tts --model_info_by_idx tts_models/3
```

フルネームによるモデル情報のクエリ情報:

 $ tts --model_info_by_name "<model_type>/<language>/<dataset>/<model_name>"

デフォルトのモデルで TTS を実行します。

 $ tts --text "Text for TTS" --out_path output/path/speech.wav

TTS を実行し、生成された TTS wav ファイルデータをパイプ出力します。
```
 $ tts --text "Text for TTS" --pipe_out --out_path output/path/speech.wav | aplay
```

デフォルトのボコーダーモデルを使用して TTS モデルを実行します。

 $ tts --text "Text for TTS" --model_name "<model_type>/<language>/<dataset>/<model_name>" --out_path output/path/speech.wav

例えば：

 $ tts --text "Text for TTS" --model_name "tts_models/en/ljspeech/glow-tts" --out_path output/path/speech.wav

リストから特定の TTS およびボコーダーモデルを使用して実行します。

 $ tts --text "Text for TTS" --model_name "<model_type>/<language>/<dataset>/<model_name>" --vocoder_name "<model_type>/<language>/<dataset>/<model_name>" --out_path output/path/speech.wav

例えば：

 $ tts --text "Text for TTS" --model_name "tts_models/en/ljspeech/glow-tts" --vocoder_name "vocoder_models/en/ljspeech/univnet" --out_path output/path/speech.wav

独自の TTS モデルを実行します (Griffin-Lim Vocoder を使用)。

 $ tts --text "Text for TTS" --model_path path/to/model.pth --config_path path/to/config.json --out_path output/path/speech.wav

独自の TTS およびボコーダーモデルを実行します。

 $ tts --text "Text for TTS" --model_path path/to/model.pth --config_path path/to/config.json --out_path output/path/speech.wav
    --vocoder_path path/to/vocoder.pth --vocoder_config_path path/to/vocoder_config.json

マルチスピーカーモデル

利用可能なスピーカーをリストし、その中から <speaker_id> を選択します。
```
 $ tts --model_name "<language>/<dataset>/<model_name>"  --list_speaker_idxs
```

ターゲットスピーカー ID を使用してマルチスピーカー TTS モデルを実行します。

 $ tts --text "Text for TTS." --out_path output/path/speech.wav --model_name "<language>/<dataset>/<model_name>"  --speaker_idx <speaker_id>

独自のマルチスピーカー TTS モデルを実行します。

 $ tts --text "Text for TTS" --out_path output/path/speech.wav --model_path path/to/model.pth --config_path path/to/config.json --speakers_file_path path/to/speaker.json --speaker_idx <speaker_id>

音声変換モデル

 $ tts --out_path output/path/speech.wav --model_name "<language>/<dataset>/<model_name>" --source_wav <path/to/speaker/wav> --target_wav <path/to/reference/wav>

ディレクトリ構造

 |- notebooks/       (Jupyter Notebooks for model evaluation, parameter selection and data analysis.)
|- utils/           (common utilities.)
|- TTS
    |- bin/             (folder for all the executables.)
      |- train*.py                  (train your target model.)
      |- ...
    |- tts/             (text to speech models)
        |- layers/          (model layer definitions)
        |- models/          (model definitions)
        |- utils/           (model specific utilities.)
    |- speaker_encoder/ (Speaker Encoder models.)
        |- (same)
    |- vocoder/         (Vocoder models.)
        |- (same)

拡大する

追加情報

バージョン v0.22.0
タイプその他のソースコード
更新時間 2025-01-02
サイズ 50MB
から Github

TTS

?Coqui.aiニュース

質問する場所

?リンクとリソース

? TTSパフォーマンス

特徴

モデルの実装

スペクトログラムモデル

エンドツーエンドモデル

注意の方法

スピーカーエンコーダー

ボコーダー

音声変換

インストール

ドッカーイメージ

?TTSによる音声合成

? Python API

マルチスピーカーおよび多言語モデルの実行

単一スピーカーモデルの実行

音声変換の例

音声クローン作成と音声変換モデルの例。

約 1100 の言語で Fairseq モデルを使用したテキスト読み上げの例。

コマンドライン`tts`

シングルスピーカーモデル

マルチスピーカーモデル

音声変換モデル

ディレクトリ構造

F5 TTS ComfyUI

音声開発に関する英語情報 (TTS ユーザーガイド Delphi 版)

chat.petals.dev

GPT Prompt Templates

GPTyped

waymo open dataset

Sunamu

MySchedule.py

waymo open dataset

termwind

wp functions

TTS

?Coqui.aiニュース

質問する場所

?リンクとリソース

? TTSパフォーマンス

特徴

モデルの実装

スペクトログラムモデル

エンドツーエンドモデル

注意の方法

スピーカーエンコーダー

ボコーダー

音声変換

インストール

ドッカーイメージ

?TTSによる音声合成

? Python API

マルチスピーカーおよび多言語モデルの実行

単一スピーカー モデルの実行

音声変換の例

音声クローン作成と音声変換モデルの例。

約 1100 の言語で Fairseq モデルを使用したテキスト読み上げの例。

コマンドラインtts

シングルスピーカーモデル

マルチスピーカーモデル

音声変換モデル

ディレクトリ構造

単一スピーカーモデルの実行

コマンドライン`tts`