使用 Bark 探索文字轉音頻
文章連結:https://betterprogramming.pub/text-to-audio- Generation-with-bark-clearly-explained-4ee300a3713a
情境
- 在生成式人工智慧的變革浪潮中,文字到音訊模型正在成為最有前途的前沿領域之一。
- 這些進步不僅涉及將文字轉換為語音,還涉及打造與人類製作的內容無法區分的音訊體驗。
- 從以任何可以想像的聲音敘述的有聲讀物到僅由句子提示的動態音樂作品,潛在的應用是巨大且迷人的。
- 在本文中,我們深入研究了 Bark(Python 中的開源文字提示音訊生成模型)的功能和技術複雜性。
樹皮簡介
Bark 是一種基於 Transformer 的文字轉音訊模型,能夠產生逼真的多語言語音、音樂和聲音效果。它由 Suno 創建,Suno 是一家開發尖端音訊人工智慧的研究驅動型公司。由於 Bark 是為了研究目的而開發的,其預訓練模型檢查點已開源並可用於商業用途,這對產生 AI 社群來說是一個寶貴的貢獻。
參考
- https://github.com/suno-ai/bark
- https://audiocraft.metademolab.com/encodec.html
- https://www.streamingmedia.com/Articles/ReadArticle.aspx?ArticleID=74487
- https://towardsdatascience.com/optimizing-vector-quantization-methods-by-machine-learning-algorithms-77c436d0749d
- https://www.assembleai.com/blog/what-is-residual-vector-quantization/
- https://github.com/facebookresearch/encodec
- https://ai.meta.com/blog/ai-powered-audio-compression-technique/
- https://arxiv.org/abs/2210.13438
- https://github.com/facebookresearch/encodec#extracting-discrete-representations
- https://paperswithcode.com/paper/speaker-anonymization-using-neural-audio
- https://huggingface.co/suno/bark/tree/main/speaker_embeddings/v2