AudioGPT
1.0.0
我們在此儲存庫中以開源方式提供我們的實作和預訓練模型。
請參考run.md
這裡我們列出了AudioGPT此時的能力。更多支援的模型和任務即將推出。有關提示範例,請參閱資產。
目前並非每個模型都有儲存庫。
任務 | 支援的基礎模型 | 地位 |
---|---|---|
文字轉語音 | FastSpeech、SyntaSpeech、VITS | 是(WIP) |
風格轉移 | 通用演講 | 是的 |
語音辨識 | 竊竊私語,順應者 | 是的 |
語音增強 | ConvTasNet | 是(WIP) |
語音分離 | TF-GridNet | 是(WIP) |
語音翻譯 | 多解碼器 | 在製品 |
單耳至雙耳 | 神經扭曲 | 是的 |
任務 | 支援的基礎模型 | 地位 |
---|---|---|
文字唱歌 | DiffSinger、VISinger | 是(WIP) |
任務 | 支援的基礎模型 | 地位 |
---|---|---|
文字轉音頻 | 製作音訊 | 是的 |
音訊修復 | 製作音訊 | 是的 |
影像轉音訊 | 製作音訊 | 是的 |
聲音偵測 | 音頻變壓器 | 是的 |
目標聲音偵測 | TSD網路 | 是的 |
聲音擷取 | 拉斯斯網 | 是的 |
任務 | 支援的基礎模型 | 地位 |
---|---|---|
說話頭合成 | 基因臉 | 是(WIP) |
我們很欣賞以下項目的開源:
ESPNet NATSpeech 視覺聊天GPT 抱臉 LangChain 穩定擴散