Metas neuestes Audio Big Model Spirit LM, damit KI nicht nur über den Weg, sondern auch "laut" sprechen kann! -AI -Artikel

Autor：Eve Cole Aktualisierungszeit：2025-01-29 07:16:02

Meta AI hat kürzlich ein Multi -Mode -Sprachmodell namens Spirit LM eröffnet. zu einem Sprachmodalzustand Spirit LM kann nicht nur Text und Stimme verstehen und generieren, sondern was noch wichtiger ist, es kann die beiden mischen, um verschiedene Funktionen wie Spracherkennung, Sprachsynthese und Sprachklassifizierung zu erzielen. Versionen seiner "Grundversion" und "Ausdrucksversion".

Meta AI hat kürzlich das grundlegende multi -modale Sprachmodell namens Spirit LM eröffnet.

Der Spirit LM basiert auf einem Vorbildungsmodell mit 7 Milliarden Parametern. Es kann Text wie ein großes Textmodell verstehen und generieren und auch Voice verstehen und generieren und sogar den Text und die Sprache mischen, um eine Vielzahl von magischen Effekten zu erzeugen! Um es zu nehmen, wird die Stimme in Text konvertiert.

Noch mächtiger ist, dass Spirit LM auch besonders gut in "emotionalem Ausdruck" ist! Sie können sich vorstellen, dass die von Spirit LM erzeugte Stimme nicht mehr die Art von kalter Maschine ist, sondern wie eine echte Person, voller Freude und Trauer!

Um KI besser "laut" zu machen, haben Forscher von Meta auch zwei Versionen von Spirit LM entwickelt:

"Basic Edition": Diese Version konzentriert sich hauptsächlich auf die phonetischen Klanginformationen, dh die "Grundkomposition" der Stimme.

"Expressiv": Zusätzlich zu phonetischen Informationen fügt diese Version auch Ton- und Stilinformationen hinzu, wodurch die Stimme von AI lebendiger und ausdrucksstarker werden kann.

Wie macht Spirit LM das alles?

In einfachen Worten wird Spirit LM von LLAMA2 basierend auf dem von Meta zuvor veröffentlichten Super -Strong -Textmodell trainiert. Die Forscher "fütterten" eine große Menge an Text- und Sprachdaten an LLAMA2 und verwendeten eine spezielle "gestaffelte Trainingsmethode", damit Llama2 gleichzeitig die Gesetze von Text und Stimme erlernen kann.

Um die Fähigkeit "emotionaler Ausdruck" von Spirit LM zu testen, entwickelten Forscher von Meta auch speziell einen neuen Test-Benchmark- "Voice-Text-emotionaler Reservierungsbenchmark" (STSP). Dieser Test -Benchmark enthält verschiedene Sprach- und Textaufforderungen, die unterschiedliche Emotionen ausdrücken, um zu testen, ob das KI -Modell die entsprechende emotionale Stimme und Text genau identifizieren und generieren kann. Die Ergebnisse zeigen, dass die "Ausdrucksversion" von Spirit LM in Bezug auf emotionale Aufbewahrung gut abschneidet.

Natürlich gaben Forscher von Meta auch zu, dass Spirit LM noch viele Orte hat, die verbessert werden müssen. Zum Beispiel unterstützt der Spirit LM derzeit nur Englisch und muss in Zukunft auf andere Sprachen ausgedehnt werden. Verbesserung der Modellleistung.

Spirit LM ist ein großer Durchbruch in Meta im KI -Feld. Ich glaube, dass wir in naher Zukunft interessantere Anwendungen auf der Grundlage von Spirit LM -Entwicklung sehen werden, damit AI nicht nur sagen kann, dass sie Emotionen wie echte Menschen ausdrücken und natürlicher und freundlicher mit uns kommunizieren können!

Projektadresse: https://speechbot.github.io/spiritlm/

Diplomadresse: https: //arxiv.org/pdf/2402.057555

Insgesamt bietet die Open Source of Spirit LM neue Möglichkeiten für die Entwicklung von Multi -Mode -KI. Ich freue mich auf die Implementierung von Spirit LM in mehr Sprach- und Anwendungsszenarien in der Zukunft.