Downcodes-Editorberichte: Die Johns Hopkins University und Tencent AI Lab haben gemeinsam ein bahnbrechendes Text-zu-Audio-Generierungsmodell namens EzAudio entwickelt. Seine effizienten und hochwertigen Audiokonvertierungsfunktionen markieren einen großen Fortschritt auf dem Gebiet der künstlichen Intelligenz. EzAudio nutzt innovative Audio-Wellenform-Latentraum-Technologie in Kombination mit fortschrittlichen Technologien wie AdaLN-SOLA, um bestehende Open-Source-Modelle sowohl bei objektiven als auch subjektiven Bewertungen zu übertreffen. Der Open-Source-Code, der Datensatz und die Modellkontrollpunkte des Modells werden öffentlich zugänglich gemacht, um weitere Forschung und Anwendung zu fördern.
EzAudio nutzt den latenten Raum von Audiowellenformen anstelle herkömmlicher Spektrogramme. Diese Innovation ermöglicht es, mit hoher zeitlicher Auflösung zu arbeiten, ohne dass ein zusätzlicher neuronaler Vocoder erforderlich ist.
Die Architektur von EzAudio mit dem Namen EzAudio-DiT (Diffusion Transformer) nutzt eine Reihe technologischer Innovationen, um Leistung und Effizienz zu verbessern. Dazu gehören eine neue Adaptive-Layer-Normalisierungstechnologie AdaLN-SOLA, Long-Hop-Verbindungen und fortschrittliche Positionskodierungstechnologien wie RoPE (Rotated Position Embedding).
Die Forscher sagen, dass die von EzAudio generierten Audioproben so realistisch sind, dass sowohl objektive als auch subjektive Bewertungen bestehende Open-Source-Modelle übertreffen.
Derzeit wächst der Markt für KI-Audioerzeugung rasant. Namhafte Unternehmen wie ElevenLabs haben kürzlich eine iOS-App zur Text-in-Sprache-Konvertierung auf den Markt gebracht und zeigen damit ein starkes Verbraucherinteresse an KI-Audiotools. Gleichzeitig erhöhen auch Technologiegiganten wie Microsoft und Google ihre Investitionen in KI-Sprachsimulationstechnologie.
Laut Prognosen von Gartner werden bis 2027 40 % der generativen KI-Lösungen multimodal sein und die Fähigkeiten von Text, Bildern und Audio kombinieren, was bedeutet, dass hochwertige Audiogenerierungsmodelle wie EzAudio wahrscheinlich weiterhin eine wichtige Rolle spielen werden Rolle im Bereich KI.
Das EzAudio-Team hat seinen Code, seine Datensätze und Modellkontrollpunkte öffentlich zugänglich gemacht, um Transparenz zu betonen und weitere Forschung in diesem Bereich zu fördern.
Forscher gehen davon aus, dass EzAudio möglicherweise über die Erzeugung von Soundeffekten hinaus Anwendungsmöglichkeiten hat und Bereiche wie die Sprach- und Musikproduktion umfasst. Da die Technologie weiter voranschreitet, wird erwartet, dass sie in Branchen wie Unterhaltung, Medien, Zusatzdiensten und virtuellen Assistenten weit verbreitet sein wird.
Demo:https://huggingface.co/spaces/OpenSound/EzAudio
Projekteingang: https://github.com/haidog-yaqub/EzAudio?tab=readme-ov-file
Highlight:
EzAudio ist ein neues Text-zu-Audio-Generierungsmodell, das von der Johns Hopkins University in Zusammenarbeit mit Tencent eingeführt wurde und einen großen Fortschritt in der Audiotechnologie darstellt.
?Durch innovative Architektur und Technologie sind die von diesem Modell generierten Audio-Samples qualitativ besser als bestehende Open-Source-Modelle und verfügen über ein breites Anwendungspotenzial.
Mit der Weiterentwicklung der Technologie rücken nach und nach Fragen der ethischen und verantwortungsvollen Nutzung in den Vordergrund, und der öffentliche Forschungskodex von EzAudio bietet auch umfangreiche Möglichkeiten für die zukünftige Prüfung von Risiken und Vorteilen.
Die Open Source und hohe Leistung von EzAudio verschaffen ihm erhebliche Vorteile im Bereich der KI-Audioerzeugung und seine zukünftigen Anwendungsaussichten sind breit gefächert, es muss jedoch auch auf seine ethischen und sozialen Auswirkungen geachtet werden. Der Herausgeber von Downcodes wird weiterhin auf den Fortschritt und die Anwendung dieser Technologie achten.