tts generation webuiダウンロードtts generation webuiソースコードダウンロード

tts generation webui

その他のソースコード

1.0.0

ダウンロード

TTS Generation WebUI / Harmonica

インストーラーをダウンロード||インストール|| Dockerセットアップ||フィードバック /バグレポート

バナー

ビデオ

モデル

テキストからスピーチ	オーディオ/音楽の生成	オーディオ変換/ツール
吠える	MusicGen	RVC
カメ	磁石	デムク
マハTTS	安定したオーディオ	ヴォコス
MMS	（拡張）リフュージョン	ささやきます
Vall-e x	（拡張）Audiocraft Mac
styletts2	（拡張）Audiocraft Plus
SeamlessM4T
（拡張）xttsv2
（拡張）MARS5
（拡張）f5-tts
（拡張）パーラーTTS

例

Bark.narration.mp4	Bark.Japanese.mp4	MusicGen.mp4

スクリーンショット

Changelog

11月23日：

Linux FairSeqホイールを追加して、PIPの互換性を向上させます。

11月22日：

ホイールに切り替え、ワンショットインストールプロンプトを追加します。

11月15日：

Gradio 5.5.0にアップグレードし、似たようなエンハンスを追加します（＃420）

11月14日：

実験的なウィンドウディープスピードホイールを追加します。
bark音声クローンにさらに言語を追加します。

11月11日：

Windowsのための固定FairSeqバージョンに切り替えて、インストールの競合を減らし、更新を高速化します。

2024年10月

10月28日：

トーチにインストーラーテスト、モデルダウンローダー、PIP CPUのみのオプションを追加しました。

10月24日：

バグのため、グラデーションを5.1.0に格下げしました。
テストワークフローとマイナーバグを固定しました。

10月22日：

スムーズな展開のためのDockerFileの問題を修正しました。

10月21日：

再設計されたREADME：ささやきの改善、8月、9月、10月に変更を加え、スクリーンショットを更新し、コンテンツを再編成しました。

10月19日：

拡張ログを固定し、新しい拡張機能を追加しました。

10月18日：

システムの改善：フォーマットされたプロジェクト、 xformers+cudaインストールを修正、ログシステムの追加、拡張ボタンのアンインストール、およびF5 TTS拡張機能。

10月16日：

最初にインストールすると、 uvの代わりにpipを使用します。
メジャーバージョンをぶつけて、Googleコラブを修正しました。
安定したオーディオにピップフォールバックを追加しました。
Demucsを修正し、Postgresポートを変更しました。
huggingface_hubインストールと樹皮モデルローダーを修正しました。
主要なアップグレード：グラデーション5に切り替え、タブのレイジーロード、Dockerの修正、最適化されたUI速度、追加の.Env.USER機能、ログの改善、React UI拡張機能のアップグレード。

10月3日：

[GPU情報]タブを修正し、 nvidia-ml-pyを追加しました。
Audiocraftインストールバグ用の回避策を作成しました。
自動MSVCインストールを修正し、サーバーを127.0.0.1に設定しました。
.git_versionパスを修正し、 iconvを削除して、 node-gyp要件を排除しました。
インストーラーのエラー処理の改善、アップグレードハッシュロギングが追加されました。
Node.jsを22.9.0にアップグレードし、PostgreSQLサポートを追加し、React UIのグループ化されたタブを追加しました。

2024年9月

クリックして展開します

9月23日：

MMSにCUDAを自動的に使用します。

9月22日：

FFMPEGメタデータ拡張を追加してUIを反応させました。
Maha TTSのモノのみの通知を追加しました。
ノード20.17.0のインストール障害を回避するためのhotfix。

9月21日：

uiを反応するために安定したオーディオデモを追加しました。
UIレイアウトが改善されました。

9月19日：

新しいスライダーとより良いレイアウトでアップグレードされたReact UI Visual Look。
最適化されたRVC UI、固定コラブ、および検索コマンドボックスを追加しました。
node.jsを20.17.0にアップグレードします。

9月2日：

dockerfileを修正し、docker-compose.ymlを更新しました。
NPZ負荷のバグを修正しました。

2024年8月

クリックして展開します

8月31日：

デコレータにモデル推論フレームワークをアップグレードします。
Pythonファイルをsrcからtts_webuiフォルダーに移動しました。
MusicGenタブと固定関連のバグを書き直します。

8月20日：

Gradio 4にアップグレードし、テーマを追加しました。
カメのモデルロードメッセージが追加されました。
ReactuiのRVCを修正しました。
リファクタリングされたハイパーパラメーター。
拡張機能リスト、XTTS-Simple Extensionに管理を追加しました。

8月5日：

React UIで樹皮を修正し、最大生成期間を追加します。
Audiocraft Plus Extensionモデルディレクトリを./data/models/audiocraft_plus/に変更する
MusicGenとAudiogenのモデルアンロードを改善します。 MusicGenとAudiogenにアンロードモデルボタンを追加します。
Huggingfaceキャッシュマネージャー拡張機能を追加します。

8月4日：

XTTS-RVC-UI拡張機能、XTTS微調整デモ拡張機能を追加します。

8月3日：

Riffusion Extension、Audiocraft Mac Extension、Bark Legacy Extensionを追加します。

8月2日：

古いインストーラーに非推奨警告を追加します。
エラー処理を統合し、タブの読み込みを簡素化します。

8月1日：

外部拡張機能に「更新を試みる」ボタンを追加します。
PIP_Packagesバージョンが変更されていない場合、パッケージの再インストールをスキップします。
GradioポートをReact UIと同期させます。
7860からデフォルトのグレードポートを7770に変更します。

2024年7月

クリックして展開します

7月31日：

グレードが変更された後、React UIのMusicGenを修正します。
アンロードボタンを追加して拡張機能をwhisperします。

7月29日：

Mac M1を含むより多くのプラットフォームをサポートするために、Conda-ForgeからFFMPEGを4.4.2に変更します。
カメCVVPを無効にします。

7月26日：

ささやき拡張機能
実験的なAMD ROCMインストールサポート。（Linuxのみ）

7月25日：

macOSとLinuxの診断スクリプトを追加します。
タブのより良いエラーの詳細を追加します。
LinuxおよびMacOSのインストーラーの.shスクリプト実行権限を修正します。

7月21日：

ギャラリー履歴拡張機能を追加します（古いギャラリービューから採用）
簡単なリミキサーを拡張機能に変換します
update.pyを修正して新しいトーチバージョンを使用します（update.pyはレガシー目的でのみ、おそらく破損します）
診断スクリプトを追加し、Windowsのスクリプトを強制再インストールします。

7月20日：

Discord結合リンクを修正します
樹皮をさらに簡素化し、コードの過度の複雑さを取り除きます。
UI/モジュラー拡張機能を追加します。これらの拡張機能により、UIに新しいモデルと機能をインストールできます。将来的には、モデルは拡張機能として開始され、その後パーマメンマンに追加されます。
出力でギャラリービューを無効にします
既知の問題：FirefoxはGradioで出力を表示することに失敗し、BackEndからそれらを取得することに失敗します。 React UI内では、これは正常に機能します。

7月15日：

コメント - React UIが長い間発売されているため、Gradio UIは、処理できない非常に複雑なUIなしで、ユーザーに機能のみを提供する役割を持つことになります。新しいモデルと機能を追加するための開発時間の実際の不足がありますが、古いスタイルの統合は実行可能ではありませんでした。新しいAPIと「モデルの役割」が定義されているため、モデル全体の拡張機能を持つことができ、より柔軟性と軽いインストールを可能にします。
スケーリングバックグラデーションUIの複雑さを開始 - RVC/Demucs/Voiceボタンへの送信を削除します。（内部コンポーネントJoutaiを削除します）。
将来のより良い更新のために、version.jsonを追加します。
グレードバークの最大出力数を1に減らします。
モデルボタンをカメにアンロードボタンを追加します。また、次のパラメーター/変更パラメーターをロードする前にモデルをアンロードします。したがって、カメは設定の変更中に2倍モデルメモリを使用しなくなります。

7月14日：

グループへのグレードグラデーションタブを再編成 - テキストから音声、オーディオ変換、音楽の生成、出力、設定
ヘッダーをクリーンアップし、フィードバックのリンクを追加します
安定したオーディオにシードコントロールを追加します
newlinesを使用した安定したオーディオファイル名のバグを修正します
「Simple Remixer」グラデーションタブを無効にします
樹皮音声クローンとRVCをもう一度修正します
デバッグ用に「インストールされたパッケージ」タブを追加します

7月13日：

Torch 2.3.1およびXformers 0.0.27への主要なアップグレード
- MACやCPUを含むすべてのユーザーが同じPytorchバージョンになります。
CUDAを11.8にアップグレードします
Pythonを3.10.11に強制します
インストーラーを変更して、再インストールせずにPythonとTorchのアップグレードを許可します（現在メジャーバージョン2）
より良い品質のために、マグネットのデフォルトパラメーションを修正します
バグを避けるために、インストーラースクリプトチェックを改善します
Styletts2を更新します

7月11日：

安定したオーディオ生成ファイル名を改善します
トーチ修理にフォース再インストールを追加します
実行する前にインストーラーを自動更新します

7月9日：

https://github.com/xerasterのおかげで、新しいインストーラーとインストール手順を修正してください！

7月8日：

インストールプロセスを変更して、パッケージの衝突を減らし、トーチバージョンの柔軟性を有効にします。

7月6日：

新しいMambaベースのインストーラーの最初のリリース。
安定したオーディオ結果を出力-RVC/Stableaudioフォルダーに保存します。
安定したオーディオモデルの選択に免責事項を追加し、ファイルが欠落しているときにより良いエラーメッセージを表示します。

7月1日：

安定したオーディオメモリ使用量を世代後に最適化します。
Gradioも自動的に開く場合にのみ、自動的にReact UIを開きます。
不要なコンドラgit再インストールを削除します。
MPSサポートを備えたLastest Stable Audioの更新（新しいトーチバージョンが必要です）。

2024年6月

クリックして展開します

6月22日： * Gradioに安定したオーディオを追加します。

6月21日：

Vall-Exデモを追加してUIを反応します。
ブラウザで自動的にReact UIを開き、リンクをもう一度修正します。
React/Tortoiseに長さごとに分割します。
UVR5デモフォルダーを修正します。
LinuxとMacのFairSeqバージョンを0.12.2に設定します。（＃323）
すべてのReact UIタブの生成履歴を改善します。

5月17日：

React UIでカメプリセットを修正します。

5月9日：

MMSを追加してUIを反応します。
React UIとコードベースを改善します。

5月4日：

月ごとにグループChangelog

2024年4月

クリックして展開します

4月28日： * Maha TTSを追加してUIを反応します。 * GPU情報を追加してUIを反応します。

4月6日：

Vall-ex Generationデモタブを追加します。
MMSデモタブを追加します。
Maha TTSデモタブを追加します。
Styletts2デモタブを追加します。

4月5日：

RVCインストールバグを修正します。
基本的なUVR5デモタブを追加します。

4月4日：

RVMPEとFCPEを含めるようにRVCをアップグレードします。ファイルの複製により、モデルとインデックスの直接ファイル入力を削除します。 RVCのReact UIインターフェイスを改善します。

2024年3月

クリックして展開します

3月28日：

[GPU情報]タブを追加します

3月27日：

[ボイスクローン]に関する情報をタブボイスクローンに追加します

3月26日：

Maha TTSデモノートブックを追加します

3月22日：

ノートブック経由のvall-e xデモ（＃292）
Docker画像にReact UIを追加します
インストール免責事項を追加します

3月16日：

Vocosを0.1.0にアップグレードします

3月14日：

styletts2デモノートブック

3月13日：

実験的なパイプライン（樹皮 /カメ /音楽 /オーディオゲン /マグネット - > RVC / Demucs / Vocos）を追加する（＃287）
各世代にモデルリロードを使用してRVCバグを修正します。目に見えるスピードアップをもたらす短い入力の場合。

3月11日：

演奏をオーディオとして追加し、声に声に保存する（＃286）
UXを変更して、ファイルがお気に入りから削除されていることを示します
樹皮の声が表示されない画像を修正します
お気に入りのオーディオ再生を修正します

3月10日：

バッチングを追加してUIマグネットを反応させる（＃283）
オーディオにオーディオを追加するSeamlessm4t（＃284）に

3月5日：

これを要求してフィードバックを提供してくれたhttps://github.com/aamir3dに感謝します。

3月3日：

ノートブックとしてMMSデモを追加します
MultiBandDiffusion High VRAM免責事項を追加します

2024年2月

クリックして展開します

2月21日：

docker-audiocraftを使用して、Dockerコンテナのビルドとバグを修正します

2月8日：

MusicGenのステレオモデルのMultiBandDiffusionを修正してください。https://github.com/mykeehuに感謝します
Google Colabのnode.jsのインストール手順を修正、https://github.com/miaohfによるコード

2月6日：

https://github.com/joachipでFLACファイル生成拡張機能を追加します

2024年1月

クリックして展開します

1月21日：

アップデートごとにCPU/M1トーチオートレパールスクリプトを追加します。無効にするには、check_cuda.pyを編集し、force_no_repair = trueを変更します

1月16日：

MusicGenをアップグレードし、ステレオモデルと大規模なメロディーモデルのサポートを追加します
磁石を追加します

1月15日：

グレードを3.48.0にアップグレードしました
- いくつかの視覚的なバグが表示されています。それらが重要であれば、それらを報告するか、グラデーションをダウングレードしてください。
- グレード：役に立たない警告を抑制します
Supress Triton警告
Gradio-Bark：「最終世代を歴史として使用する」動作を修正し、空の選択はもうエラーではありません
拡張機能ローダーディスプレイを改善します
4.31.0から変圧器を4.36.1にアップグレードします
SeamlessM4Tデモを追加します

1月14日：

React UI：欠落しているディレクトリエラーを修正します

1月13日：

ReactUI：自動インストールから欠落しているNPMビルドステップを修正

1月12日：

React UI：オーディオアクションの名前を修正します
グラデーション：複数のAPI警告を修正します
統合-ReactUIがグレードとともに発売され、それを開くためのリンクがあります

1月11日：

React UI：エラーなしでビルドを機能させます

1月9日：

uiを反応します
- WaveSurferの404ハンドラーを修正します
- グループの樹皮タブを一緒にします

1月8日：

React React UIをリリースします

2023

クリックして展開します

2023年10月

10月26日：

MusicGenのモデル選択UXを改善します

10月24日：

MusicGenとDemucsの初期ReactUIを追加する（＃202）
樹皮の長い世代の種子ドリフトを修正します（https://github.com/520pig520のおかげです）

2023年9月

9月21日：

樹皮：セマンティック履歴ボタンとして続行します
Github Docker画像ストレージ、新しいDocker画像に切り替えます：
- docker pull ghcr.io/rsxdalv/tts-generation-webui:main
https://github.com/dartvauderのおかげで、config＃168でserver_portオプションを修正します

9月9日：

https://github.com/jfronnyに感謝します
https://github.com/slack-tとhttps://github.com/bkutasiに感謝します
https://github.com/aamir3dが要求したように、アンロードモデルボタンを樹皮に追加する
https://github.com/maki9009が要求したように、barkの詳細をreadme_bark.mdに追加します
https://github.com/maki9009のおかげで、「オプション」をプロンプトで燃やします

9月5日：

樹皮に音声ミキシングを追加します
V1 Burnを樹皮に追加します（プロンプトのバーンは、オーディオの生成に時間を費やすことなくセマンティックモデルを指示するためです。V1はセマンティックトークンを生成し、セマンティックモデルのプロンプトとして使用することで機能します。）
生成長リミッターを樹皮に追加します

2023年8月

8月27日：

Melody＃153を無視してMusicGenを修正します

8月26日：

RVC、Demucs、VocosボタンにbarkとVocosに送信を追加します

8月24日：

RVC出力に日付を追加して、＃147を修正します
セーフテンサーの不足しているホイールを修正します
Demucsボタンに送信ボタンをMusicGenに追加します

8月21日：

MusicGen Issue Fixのために、ColabにTorchVisionインストールを追加します
RVC_TABファイルロギングを削除します

8月20日：

更新の最後にHydra-Coreを再インストールしてMBDを修正します

8月18日：

CI：GitHubアクションを追加して、Dockerイメージを自動的に公開します。

8月16日：

カメの生成パラメーターに「名前」を追加します

8月15日：

すべての要件でトーチを2.0.0にピンします。txtファイル
バンプオーディオクラフトと樹皮バージョン
colabからカメトランスの修正を取り外します
カメを2.8.0に更新します

8月13日：

GPUがサポートされていない問題を抱えていた新しいユーザーインストールのための潜在的に大きな修正

8月11日：

マンメイ・ナカシのおかげで、カメのhotfix
トークン剤を変更するには、カメオプションを追加します

8月8日：

Audiocraftを更新し、マルチバンドディフ症のパフォーマンスを改善します
「Ultra_fast」プリセットでカメパラメーター「cond_free」の不一致を修正します

8月7日：

colabにカメのディープスピード固定を追加します

8月6日：

audiogen + mbdエラーを修正し、colabのカメの修正を追加する

8月4日：

MusicGen＃109にMultiBandDiffusionオプションを追加します
MusicGen/Audiogen .NPZファイルとしての世代のトークンを保存します。

8月3日：

Audiogen＃105を追加します

8月2日：

再起動後に表示されないモデルの場所を修正します

2023年7月

7月26日：

ボイスギャラリー
音声クロップ
バグの名前を変更し、画像の名前を変更し、ハッシュテキストボックスを追加します
声の簡単なダウンロード（＃98）

7月24日：

樹皮ファイル形式を変更して履歴を含めるハッシュ：...継続_generation ... - > ... from_3ea0d063 ...

7月23日：

docker画像https://github.com/jonfairbanksに感謝します
RVC UIの命名改善

7月21日：

CPUのみで動作しないHubertを修正する（＃87）
Google Colabデモを追加（＃88）
[新しい設定]タブとモデルの場所（上級ユーザー向け）（＃90）

7月19日：

カメの最適化を追加してください、ありがとうhttps://github.com/manmay-nakhashi＃79（道具＃18）

7月16日：

音声写真のデモ
RVCモデル/インデックスを保存するディレクトリを追加し、ドロップダウン
CPU＃74のIS_HALFを尊重していない回避策RVC
カメモデルと音声選択の改善＃73

7月10日：

Demucsデモ＃67

7月9日：

RVCデモ +カメ、更新スクリプトと追加のモジュールをインストールする自動試行を備えたV6インストーラー＃66

7月5日：

改善されたV5インストーラー - より速く、より信頼性の高い＃63

7月2日：

樹皮の設定をアップグレード＃59

7月1日：

Studio-Tab＃58

2023年6月

6月29日：

カメの新しいパラメーション＃54

6月27日：

熱心な読み込みエラーを修正し、リファクタリング＃50

6月20日

カメ：適切な長いフォーム生成ファイル＃46

6月19日

Tortoise-Upgrade＃45

6月18日：

最新のオーディオクラフトを更新し、より長い世代を追加します

6月14日：

Vocos WAVタブ＃42を追加します

6月5日：

樹皮生成ページの「お気に入りへの保存」ボタンを修正し、コンソールをクリーンアップ（v4.1.1）
いくつかの異なるデータセットとより簡単な通貨を管理するための「コレクション」タブを追加します。

6月4日：

V4.1への更新 - ハッシュ機能の改善、コードの改善

6月3日：

V4への更新 - 新しい出力構造、改善された履歴ビュー、コードベースの再編成、メタデータの改善、出力拡張サポート

2023年5月

5月21日：

V3への更新 - 音声クローンデモ

5月17日：

V2に更新 - 表示された結果を生成し、長いプロンプトジェネレーションを少しずつプレビューし、最大9出力、UIの調整を有効にします

5月16日：

グレーディオ設定タブを追加し、コンソールのグラデーションエラーを修正し、ロギングを改善します。
「Voiceとして使用」と「Voice Save」ボタンで履歴とお気に入りを更新します
[Voices]タブを追加します
樹皮タブ：「削除するか、最後の世代を歴史として使用」
コード組織を改善します

5月13日：

決定論的生成を有効にし、生成されたログを強化します。 Suno-Ai/Bark＃175のクレジット。

5月10日：

古い世代からの歴史のプロンプトを再利用する可能性を有効にします。 NPZファイルとして世代を保存します。次のプロンプトのために、最後の3世代のいずれかを再利用する便利な方法を追加します。履歴プロンプトを保存および収集するためのボタンを追加 /ボイスの下に追加します。＃10

5月4日：

Long Form Generation（https://github.com/suno-ai/bark/blob/main/notebooks/long_form_generation.ipynbおよびsuno-ai/bark＃161のクレジット）））
固定varバグに適応します

5月3日：

カメUIの改善：音声、プリセット、CVVPの設定と3つの結果を生成する能力（＃6）

5月2日：

手動でより長いプロンプトを継続するために履歴の再現をサポートすること
V2プロンプトのサポートが追加されました

前に：

カメTTSのサポートを追加しました

アップグレード（古いインストール用）

問題の場合は、開発者にお気軽にお問い合わせください。

クリックして展開します

V6から新しいインストーラーへのアップグレード

推奨：新鮮なインストール

新しいバージョンをダウンロードして、start_tts_webui.bat（windows）またはstart_tts_webui.sh（macos、linux）を実行します
終了したら、サーバーを閉じます。
推奨：お気に入り/ outputs/ outputs-rvc/ models/ collectss/ config.jsonなど、古い世代を新しいディレクトリにコピーします。
注意してください：古いTTS-Generation-Webuiディレクトリを古いものにコピーできますが、失われた古いファイルがあるかもしれません。

インプレースアップグレードでは、一部のファイル、微調整を削除できます

update_プラットフォームスクリプトを使用して既存のインストールを更新します
更新後、TTS-Generation-Webuiディレクトリ内の新しいstart_tts_webui.bat（windows）またはstart_tts_webui.sh（macos、linux）を実行します
サーバーが起動したら、動作するかどうかを確認します。
注意してください：One-Click-Installersディレクトリ内で新しいサーバーが機能する場合、古いinstaller_filesを削除します。

これを行うための最適な方法はありますか？

正確ではありませんが、依存関係は、特にコンドラとPythonの間で衝突します（そして、依存関係はすでに重要な状態にあります。したがって、古いインストーラーを新しいものに置き換えてアップデートを実行するだけである可能性がありますが、問題は予測不可能で無関心です。インストーラーに更新するには、多くのテストが必要なため、軽く行われません。

インストール

最新バージョンをダウンロードして抽出します。
start_tts_webui.batまたはstart_tts_webui.shを実行してサーバーを開始します。使用しているGPU/チップを選択するように依頼します。すべてがインストールされると、http：// localhost：7770およびhttp：// localhost：3000のReact uiでグレードサーバーを起動します。
出力ログは、installer_scripts/output.logファイルで使用できます。

手動インストール（お勧めしません）

これらの命令は、最新の修正と調整のすべてを反映しているわけではありませんが、インストーラーが何をしているかをデバッグまたは理解するためのリファレンスとして役立つ可能性があります。うまくいけば、それらがAMD/Intelなどの新しいプラットフォームをサポートするための基礎となる可能性があります。
conda（https://docs.conda.io/projects/conda/en/latest/userguide/install/index.html）をインストールする
- （Windows）Visual Studioコンパイラ/ビジュアルスタジオビルドツールhttps://visualstudio.microsoft.com/visual-cpp-build-tools/をインストールする
環境を設定する： conda create -n venv
git、node.js conda install -y -c conda-forge git python=3.10.11 conda-forge::nodejs=22.9.0 conda pip==23.3.2 conda-forge::uv=0.4.17 conda-forge::vswhere
a）インストーラースクリプトを続行します
- 環境をアクティブにする： conda activate venv
- (venv) node installer_scriptsinit_app.js
- 次に、 (venv) python server.pyでサーバーを実行します
b）または要件を手動でインストールします
- CUDAまたはCPU（https://pytorch.org/audio/stable/build.windows.html#install-pytorch）でpytorchをセットアップします：
  - (venv) conda install -y -k conda-forge::uv=0.4.17 conda-forge::vswhere conda-forge::postgresql=16.4 conda-forge::nodejs=22.9.0 conda-forge::ffmpeg=4.4.2[build=lgpl*] pytorch=2.3.1 torchvision torchaudio cpuonly -c pytorch for CPU/MAC
  - (venv) conda install -y -k conda-forge::uv=0.4.17 conda-forge::vswhere conda-forge::postgresql=16.4 conda-forge::nodejs=22.9.0 conda-forge::ffmpeg=4.4.2[build=lgpl*] pytorch[version=2.3.1,build=py3.10_cuda11.8*] pytorch-cuda=11.8 torchvision torchaudio cuda-toolkit ninja -c pytorch -c nvidia/label/cuda-11.8.0 -c nvidia for cuda
- レポをクローンする： git clone https://github.com/rsxdalv/tts-generation-webui.git
- 要件をインストールします：
  - すべての要件をインストール*.txt（このリストは最新ではない場合があります。https：//github.com/rsxdalv/tts-generation-webui/blob/main/dockerfile#l39-l40を確認してください）：
    - (venv) pip install -r requirements.txt
    - (venv) pip install -r requirements_audiocraft.txt
    - (venv) pip install -r requirements_bark_hubert_quantizer.txt
    - (venv) pip install -r requirements_rvc.txt
    - (venv) pip install hydra-core==1.3.2
    - (venv) pip install -r requirements_styletts2.txt
    - (venv) pip install -r requirements_vall_e.txt
    - (venv) pip install -r requirements_maha_tts.txt
    - (venv) pip install -r requirements_stable_audio.txt
    - (venv) pip install soundfile==0.12.1
    - (venv) pip install nvidia-ml-py
  - 反応アプリをビルド： (venv) cd react-ui && npm install && npm run build
- （オプション）データベースのセットアップ： (venv) node installer_scripts/js/applyDatabaseConfig.js
- サーバーの実行：（ (venv) python server.py

uiを反応します

nodejsをインストールします（コンドラにまだインストールされていない場合）
インストールReact依存関係： npm install
Build React： npm run build
Run React： npm start
また、python server： python server.pyまたはstart_tts_webuiスクリプトを実行します

Dockerセットアップ

TTS-Generation-Webuiは、Dockerコンテナ内で実行することもできます。開始するには、GitHub Containerレジストリから画像を引き出します。

 docker pull ghcr.io/rsxdalv/tts-generation-webui:main

画像が引っ張られたら、Docker Composeで開始できます。

 docker compose up -d

コンテナは、モデルがバックグラウンドでダウンロードされている間、最初の出力を生成するのに時間がかかります。このダウンロードのステータスは、コンテナログをチェックすることで検証できます。

 docker logs tts-generation-webui

自分で画像を構築します

独自のDockerコンテナを構築する場合は、付属のDockerFileを使用できます。

 docker build -t tts-generation-webui .

作成したばかりの画像を使用するには、Docker-Composeを編集する必要があることに注意してください。

樹皮のための余分な声、迅速なサンプル

PrompteCho

樹皮スピーカーディレクトリ

Bark Readme

readme_bark.md

AIプロジェクトのモデル、キャッシュ、システムスペースの管理に関する情報

＃186（スレッドでの返信）

オープンソースライブラリ

このプロジェクトは、次のオープンソースライブラリを利用しています。

Suno -ai/Bark -MITライセンス
- 説明：樹皮モデルの推論コード。
- リポジトリ：Suno/Bark
Tortoise-TTS -Apache-2.0ライセンス
- 説明：さまざまなプラットフォーム用の柔軟なテキストからスピーチへの合成ライブラリ。
- リポジトリ：neonbjb/tortoise-tts
FFMPEG -LGPLライセンス
- 説明：ビデオおよびオーディオ処理用の完全でクロスプラットフォームソリューション。
- リポジトリ：ffmpeg
- 使用：Vorbis OGGファイルのエンコード
ffmpeg -python -apache 2.0ライセンス
- 説明：マルチメディアファイルを処理するためのFFMPEGライブラリ用のPythonバインディング。
- リポジトリ：kkroening/ffmpeg-python
Audiocraft -MITライセンス
- 説明：オーディオ生成と音楽のためのライブラリ。
- リポジトリ：FacebookResearch/Audiocraft
Vocos -MITライセンス
- 説明：Encodecサンプルの改良デコーダー
- リポジトリ：Chacutr-Platform/Vocos
RVC -MITライセンス
- 説明：VITに基づく使いやすい音声変換フレームワーク。
- リポジトリ：RVC-Project/取得ベースのVoice-Conversion-Webui

倫理的で責任ある使用

このテクノロジーは、害ではなく、有効化と創造性を目的としています。

このAIモデルに関与することにより、これらのガイドラインを順守し、AIモデルを責任ある倫理的、法的方法で採用することを認め、同意します。

非悪意のある意図：悪意、有害、または違法な活動のためにこのAIモデルを使用しないでください。積極的な関与、知識の共有、建設的な会話を促進する合法的かつ倫理的な目的にのみ使用する必要があります。
なりすましなし：このAIモデルを使用して、個人、組織、またはエンティティを含む他の誰かとして自分自身を偽装または誤って伝えないでください。他の人を欺き、詐欺し、操作するために使用しないでください。
詐欺的な活動はありません：このAIモデルは、金融詐欺、フィッシングの試み、または機密情報、金銭的利益、またはシステムへの不正アクセスを目的としたあらゆる形態の欺ceな慣行など、不正な目的に使用してはなりません。
法的コンプライアンス：このAIモデルの使用が、AIの使用、データ保護、プライバシー、知的財産、およびあなたの管轄区域におけるその他の関連する法的義務に関する該当する法律、規制、およびポリシーに準拠していることを確認してください。
謝辞：このAIモデルに関与することにより、責任ある、倫理的、および法的方法でAIモデルを使用して、これらのガイドラインを順守することを認め、同意します。

ライセンス

コードベースと依存関係

コードベースはMITの下でライセンスされています。ただし、依存関係をインストールする場合、それぞれのライセンスの対象となることに注意することが重要です。これらのライセンスのほとんどは寛容ですが、そうでないものがあるかもしれません。したがって、寛容なライセンスは、プロジェクト全体ではなく、コードベース自体にのみ適用されることを理解することが不可欠です。

そうは言っても、目標はプロジェクト全体でMIT互換性を維持することです。 MITライセンスと互換性がない依存関係に遭遇した場合は、お気軽に問題を開いて、私たちの注意を喚起してください。

既知の非永続的依存関係：

図書館	ライセンス	メモ
encodec	CC BY-NC 4.0	新しいバージョンはMITですが、手動でインストールする必要があります
diffq	CC BY-NC 4.0	将来オプションは、実行する必要はなく、アンインストールすることができ、Demucsで更新する必要があります
ラメン	GPLライセンス	将来のバージョンはLGPLになりますが、手動でインストールする必要があります
unidecode	GPLライセンス	ミッションクリティカルではなく、別のライブラリに置き換えることができます、問題：neonbjb/tortoise-tts＃494

モデルの重み

モデルの重みには異なるライセンスがあります。使用しているモデルのライセンスに注意してください。

最も注目すべき：

樹皮：MIT
カメ：不明（リポジトリによるとApache-2.0、しかしHuggingfaceにライセンスファイルはありません）
MusicGen：CC by-nc 4.0
オーディオゲン：CC BY-NC 4.0

互換性 /エラー

Audiocraftは現在、LinuxとWindowsとのみ互換性があります。 MacOSサポートはまだ到着していませんが、手動でインストールすることは可能かもしれません。

再インストールされているトーチ

Pythonパッケージマネージャー（PIP）の制限により、トーチは数回再インストールできます。これは、PIPとTorchの幅広い問題です。

コンソールの赤いメッセージ

これらのメッセージ：

 ---- requires ----, but you have ---- which is incompatible.

完全に正常です。これは、PIPの制限であり、このWeb UIが多くの異なるAIプロジェクトを組み合わせて組み合わせているためです。プロジェクトは常に互いに互換性があるとは限らないため、インストールされている他のプロジェクトについて不平を言うでしょう。これは正常で予想されます。そして最終的には、警告/エラーにもかかわらず、プロジェクトは一緒に機能します。この状況が解決できるかどうかは明らかではありませんが、それが希望です。

拡大する

追加情報

バージョン 1.0.0
タイプその他のソースコード
更新時間 2025-02-27
サイズ 4.13MB
から Github