使用 Bark 探索文本转音频
文章链接:https://betterprogramming.pub/text-to-audio- Generation-with-bark-clearly-explained-4ee300a3713a
语境
- 在生成式人工智能的变革浪潮中,文本到音频模型正在成为最有前途的前沿领域之一。
- 这些进步不仅涉及将文本转换为语音,还涉及打造与人类制作的内容无法区分的音频体验。
- 从以任何可以想象的声音叙述的有声读物到仅由句子提示的动态音乐作品,潜在的应用是巨大且迷人的。
- 在本文中,我们深入研究了 Bark(Python 中的开源文本提示音频生成模型)的功能和技术复杂性。
树皮简介
Bark 是一种基于 Transformer 的文本到音频模型,能够生成逼真的多语言语音、音乐和声音效果。它由 Suno 创建,Suno 是一家开发尖端音频人工智能的研究驱动型公司。由于 Bark 是为了研究目的而开发的,其预训练模型检查点已开源并可用于商业用途,这对生成 AI 社区来说是一个宝贵的贡献。
参考
- https://github.com/suno-ai/bark
- https://audiocraft.metademolab.com/encodec.html
- https://www.streamingmedia.com/Articles/ReadArticle.aspx?ArticleID=74487
- https://towardsdatascience.com/optimizing-vector-quantization-methods-by-machine-learning-algorithms-77c436d0749d
- https://www.assembleai.com/blog/what-is-residual-vector-quantization/
- https://github.com/facebookresearch/encodec
- https://ai.meta.com/blog/ai-powered-audio-compression-technique/
- https://arxiv.org/abs/2210.13438
- https://github.com/facebookresearch/encodec#extracting-discrete-representations
- https://paperswithcode.com/paper/speaker-anonymization-using-neural-audio
- https://huggingface.co/suno/bark/tree/main/speaker_embeddings/v2