Ces dernières années, la technologie de génération texte-audio s’est développée rapidement, insufflant une nouvelle vitalité au domaine de l’intelligence artificielle. Cet article se concentrera sur un nouveau modèle appelé TANGOFLUX, qui présente des avantages impressionnants en termes de vitesse et d'efficacité et apporte de nouvelles avancées dans la recherche et l'application de la technologie de génération audio de texte. Le modèle TANGOFLUX est non seulement rapide à générer, mais également performant en termes de qualité audio et de diversité des effets sonores. Sa fonctionnalité open source est plus propice au développement conjoint du monde universitaire et de l'industrie.
Dans le domaine de l’intelligence artificielle, la technologie de génération de texte audio devient progressivement un point chaud de la recherche. Récemment, des chercheurs ont lancé un nouveau modèle appelé TANGOFLUX, qui présente d'excellentes performances et efficacité.
TANGOFLUX est un modèle de génération texte-audio efficace avec 515 millions de paramètres pouvant générer un son à 44,1 kHz jusqu'à 30 secondes en seulement 3,7 secondes. Cette vitesse rend ses performances sur un seul GPU A40 très bonnes.
La principale caractéristique de TANGOFLUX est qu'il peut générer divers effets sonores, tels que des cris d'oiseaux, des sifflets, des explosions, etc. Il prend également en charge la génération de musique, mais l'effet n'est pas si idéal.
Un défi majeur dans les modèles génératifs texte-audio est de savoir comment créer des paires préférées. Contrairement aux grands modèles linguistiques (LLM), les modèles de génération texte-audio manquent de mécanismes de récompense vérifiables ou de réponses de référence. Pour résoudre ce problème, l’équipe de recherche a proposé un nouveau cadre appelé CLAP-Ranked Preference Optimization (CRPO). Le cadre améliore les performances d'alignement des modèles de génération texte-audio en générant et en optimisant de manière itérative les données de préférence. La recherche montre que les données de préférences audio générées à l’aide de CRPO surpassent les alternatives existantes.
Grâce à ce cadre, TANGOFLUX atteint des performances de premier plan dans de multiples benchmarks objectifs et subjectifs. En outre, l’équipe de recherche a également décidé d’ouvrir tous les codes et modèles pour soutenir davantage de recherches sur la génération de texte audio. Pour les scénarios d'application nécessitant une génération audio, TANGOFLUX constitue sans aucun doute une avancée technologique importante.
En termes d'effets pratiques, TANGOFLUX surpasse les autres modèles en termes de qualité de génération audio, présentant des sons d'événements plus clairs, une meilleure reproduction des séquences d'événements et une qualité audio supérieure. En comparant plusieurs exemples, les utilisateurs peuvent ressentir intuitivement les avantages de TANGOFLUX en matière de génération audio.
Mot rapide : Les sifflements humains mélodieux et le chant naturel des oiseaux coexistent harmonieusement, et l'effet qui en résulte est le suivant :
Avec l'avènement de cette nouvelle technologie, les perspectives d'application de la génération texte-audio deviennent de plus en plus larges et pourraient jouer un rôle important dans la production cinématographique et télévisuelle, dans les effets sonores de jeux et dans d'autres domaines à l'avenir.
Entrée du projet : https://tangoflux.github.io/
Points forts:
TANGOFLUX est un modèle de génération audio texte efficace qui peut générer 30 secondes d'audio de haute qualité en 3,7 secondes.
Le cadre CLAP-Ranked Preference Optimization (CRPO) est proposé pour optimiser les performances du modèle et les données de préférences audio.
Tous les codes et modèles ont été open source, dans le but de promouvoir la recherche et l'application de la génération audio texte.
Dans l'ensemble, l'émergence du modèle TANGOFLUX marque un progrès significatif dans la technologie de génération texte-audio. Son efficacité, sa haute qualité et ses fonctionnalités open source favoriseront le développement ultérieur dans ce domaine et apporteront des applications plus innovantes à diverses industries. Nous attendons avec impatience des applications plus larges ainsi qu’une optimisation et une mise à niveau continues de TANGOFLUX à l’avenir.