Explorer la synthèse texte-audio avec Bark
Lien vers l'article : https://betterprogramming.pub/text-to-audio-generation-with-bark-clearly-explained-4ee300a3713a
Contexte
- Au milieu de l’essor transformateur de l’IA générative, les modèles de conversion texte-audio apparaissent comme l’une des frontières les plus prometteuses.
- Ces avancées ne concernent pas seulement la conversion de texte en parole, mais également la création d’expériences audio impossibles à distinguer du contenu produit par l’homme.
- Des livres audio racontés avec n'importe quelle voix imaginable aux compositions musicales dynamiques suscitées par de simples phrases, les applications potentielles sont vastes et captivantes.
- Dans cet article, nous approfondissons les capacités et les subtilités techniques de Bark, un modèle de génération audio open source à invite de texte en Python.
Présentation de l'écorce
Bark est un modèle texte-audio basé sur un transformateur, capable de générer des effets vocaux, musicaux et sonores multilingues réalistes. Il est créé par Suno, une entreprise axée sur la recherche qui développe une IA audio de pointe. Comme Bark a été développé à des fins de recherche, ses points de contrôle de modèles pré-entraînés ont été rendus open source et disponibles pour un usage commercial, ce qui constitue une contribution précieuse à la communauté de l'IA générative.
Références
- https://github.com/suno-ai/bark
- https://audiocraft.metademolab.com/encodec.html
- https://www.streamingmedia.com/Articles/ReadArticle.aspx?ArticleID=74487
- https://towardsdatascience.com/optimizing-vector-quantization-methods-by-machine-learning-algorithms-77c436d0749d
- https://www.assemblyai.com/blog/what-is-residual-vector-quantization/
- https://github.com/facebookresearch/encodec
- https://ai.meta.com/blog/ai-powered-audio-compression-technique/
- https://arxiv.org/abs/2210.13438
- https://github.com/facebookresearch/encodec#extracting-discrete-representations
- https://paperswithcode.com/paper/speaker-anonymization-using-neural-audio
- https://huggingface.co/suno/bark/tree/main/speaker_embeddings/v2