AudioGPT
1.0.0
このリポジトリでは、実装と事前トレーニングされたモデルをオープンソースとして提供しています。
run.mdを参照してください。
ここでは、現時点での AudioGPT の機能をリストします。さらに多くのモデルとタスクがサポートされるようになる予定です。プロンプトの例については、アセットを参照してください。
現在、すべてのモデルにリポジトリがあるわけではありません。
タスク | サポートされている基盤モデル | 状態 |
---|---|---|
テキスト読み上げ | ファストスピーチ、シンタスピーチ、VITS | はい (WIP) |
スタイル転送 | 一般スピーチ | はい |
音声認識 | ささやき、適合者 | はい |
音声強化 | ConvTasNet | はい (WIP) |
音声の分離 | TF-グリッドネット | はい (WIP) |
音声翻訳 | マルチデコーダ | WIP |
モノラルからバイノーラルへ | ニューラルワープ | はい |
タスク | サポートされている基盤モデル | 状態 |
---|---|---|
テキストで歌う | ディフシンガー、VISinger | はい (WIP) |
タスク | サポートされている基盤モデル | 状態 |
---|---|---|
テキストからオーディオへ | オーディオの作成 | はい |
オーディオの修復 | オーディオの作成 | はい |
画像から音声へ | オーディオの作成 | はい |
音の検出 | オーディオトランスフォーマー | はい |
対象音の検出 | TSDネット | はい |
音声抽出 | ラスネット | はい |
タスク | サポートされている基盤モデル | 状態 |
---|---|---|
トーキングヘッド合成 | ジーンフェイス | はい (WIP) |
次のプロジェクトのオープンソースに感謝します。
ESPNet NATS音声ビジュアルチャットGPTハグフェイスLangChain安定拡散