Rapports de l'éditeur de codes de téléchargement : l'Université Johns Hopkins et Tencent AI Lab ont développé conjointement un modèle révolutionnaire de génération de texte en audio appelé EzAudio. Ses capacités de conversion audio efficaces et de haute qualité marquent le domaine de l'intelligence artificielle et de la technologie audio. EzAudio utilise une technologie innovante d'espace latent de forme d'onde audio, combinée à des technologies avancées telles que AdaLN-SOLA, pour surpasser les modèles open source existants dans les évaluations objectives et subjectives. Le code open source, l’ensemble de données et les points de contrôle du modèle sont rendus publics pour encourager la poursuite des recherches et des applications.
EzAudio fonctionne en exploitant l'espace latent des formes d'onde audio plutôt que les spectrogrammes traditionnels, une innovation qui lui permet de fonctionner à haute résolution temporelle sans avoir besoin d'un vocodeur neuronal supplémentaire.
L'architecture d'EzAudio, appelée EzAudio-DiT (Diffusion Transformer), utilise un certain nombre d'innovations technologiques pour améliorer les performances et l'efficacité. Celles-ci incluent une nouvelle technologie adaptative de normalisation de couche AdaLN-SOLA, des connexions à long saut et des technologies avancées de codage de position telles que RoPE (rotated position embedding).
Les chercheurs affirment que les échantillons audio générés par EzAudio sont si réalistes que les évaluations objectives et subjectives surpassent les modèles open source existants.
Actuellement, le marché de la génération audio IA connaît une croissance rapide. Des sociétés bien connues comme ElevenLabs ont récemment lancé une application iOS pour la conversion de la synthèse vocale, démontrant le fort intérêt des consommateurs pour les outils audio d'IA. Dans le même temps, les géants de la technologie tels que Microsoft et Google augmentent également leurs investissements dans la technologie de simulation vocale IA.
Selon les prévisions de Gartner, d'ici 2027, 40 % des solutions d'IA générative seront multimodales, combinant les capacités du texte, des images et de l'audio, ce qui signifie que les modèles de génération audio de haute qualité comme EzAudio continueront probablement à évoluer. rôle dans le domaine de l’IA.
L'équipe EzAudio a rendu public son code, ses ensembles de données et ses points de contrôle de modèles, en mettant l'accent sur la transparence et en encourageant la poursuite des recherches dans ce domaine.
Les chercheurs pensent qu'EzAudio pourrait avoir des applications au-delà de la génération d'effets sonores, impliquant des domaines tels que la production vocale et musicale. À mesure que la technologie continue de progresser, elle devrait être largement utilisée dans des secteurs tels que le divertissement, les médias, les services auxiliaires et les assistants virtuels.
démo :https://huggingface.co/spaces/OpenSound/EzAudio
Entrée du projet : https://github.com/haidog-yaqub/EzAudio?tab=readme-ov-file
Souligner:
EzAudio est un nouveau modèle de génération texte-audio lancé par l'Université Johns Hopkins en collaboration avec Tencent, marquant une avancée majeure dans la technologie audio.
? Grâce à une architecture et une technologie innovantes, les échantillons audio générés par ce modèle sont de qualité supérieure aux modèles open source existants et ont un large potentiel d'application.
À mesure que la technologie se développe, les questions d’utilisation éthique et responsable apparaissent progressivement, et le code de recherche publique d’EzAudio offre également de nombreuses opportunités pour un examen futur des risques et des avantages.
L'open source et les hautes performances d'EzAudio lui confèrent des avantages significatifs dans le domaine de la génération audio IA, et ses perspectives d'application futures sont larges, mais il doit également prêter attention à ses impacts éthiques et sociaux. L'éditeur de Downcodes continuera à prêter attention aux progrès et à l'application de cette technologie.