Geely Automobile hat bahnbrechende Fortschritte auf dem Gebiet der Sprachsynthese erzielt. Sein unabhängig entwickeltes HAM-TTS-Großmodell „Xingrui“ übertraf den Branchenmaßstab VALL-E in der Leistung und erregte breite Aufmerksamkeit. Der Herausgeber von Downcodes wird die Kernvorteile und zukünftigen Auswirkungen dieser Technologie ausführlich erläutern.
Geely Automobile hat kürzlich einen großen Durchbruch auf dem Gebiet der Sprachsynthese erzielt. Die Leistung seines unabhängig entwickelten Großmodells HAM-TTS hat den Branchenmaßstab VALL-E übertroffen und in der Branche große Aufmerksamkeit erregt. Dieses große KI-Modell namens Xingrui hat erhebliche Verbesserungen bei Schlüsselindikatoren wie Aussprachegenauigkeit, Natürlichkeit und Sprecherähnlichkeit erzielt.
Das HAM-TTS-Modell verwendet eine tokenbasierte hierarchische akustische Modellierungstechnologie für Text-to-Speech ohne Stichprobe, die das Benutzerinteraktionserlebnis im Smart Cockpit erheblich verbessert. Unter den gleichen 400 Millionen Parameterbedingungen sank die Zeichenfehlerrate des HAM-TTS-Modells im Vergleich zu VALL-E um 1,5 % und beim vollständigen Modell mit 800 Millionen Parametern sank die Zeichenfehlerrate um 2,3 %. Bezüglich Stilkonsistenz, Tonhöhenkonsistenz und Gesamtpunktzahl erreichte das HAM-TTS-Modell eine deutliche Verbesserung von 10 %.
Die Vorteile des Xingrui-Modells spiegeln sich nicht nur in seinen Leistungsindikatoren wider, auch seine Praxistauglichkeit überzeugt. Es kann die Stabilität der Stimme des Sprechers in einer Vielzahl von Szenarien wie Avatar-Verknüpfung, Sprachnavigation und Nachrichtensendungen aufrechterhalten und den Ton, die Betonung, die Pausen und die Emotionen intelligent an die Situation anpassen. Erwähnenswert ist auch, dass dieses Modell nahtlos zwischen verschiedenen Sprachen, einschließlich Dialekten und Fremdsprachen, wechseln kann und die Tonwiedergabe mit nur 3 Sekunden Sample-Eingabe abschließen kann, was weitaus besser ist als die in der Branche üblicherweise benötigten mehr als 10 Sekunden.
Das Geely-Team verbesserte die Modellleistung auf innovative Weise durch die Einführung einer mehrschichtigen akustischen Modellierung. Sie lösten das Problem der ungenauen Aussprache und führten Latentraum-Variablensequenz-Prädiktoren und Text-Aligner ein, um die Übereinstimmung von Text und Lauten genauer zu machen und die synthetisierte Sprache natürlicher und flüssiger zu machen.
Dieser Durchbruch zeigt nicht nur die Forschungs- und Entwicklungsstärke von Geely im Bereich intelligenter Technologie, sondern spiegelt auch seine Ambitionen im Bereich KI wider. Das Xingrui AI-Großmodellsystem von Geely wurde in mehrere Richtungen erweitert, beispielsweise auf multimodale Großmodelle und Sprachgroßmodelle, und legte damit den Grundstein für die Smart-Car-Technologie. Gleichzeitig ist auch die gesamte Cloud-Computing-Leistung von Geely von 81 Petaflops/Sekunde im letzten Jahr auf 102 Petaflops/Sekunde gestiegen, was die kontinuierlichen Investitionen des Unternehmens in Technologie unterstreicht.
Mit dem anfänglichen Erfolg der Elektrifizierung hat Geelys Durchbruch auf dem Gebiet der Intelligenz neue Ideen und Möglichkeiten für die zukünftige Entwicklung der Automobilindustrie geschaffen. Dies definiert nicht nur unser Verständnis traditioneller Automobilhersteller neu, sondern weist auch darauf hin, dass Intelligenz zu einem zentralen Wettbewerbsbereich in der Automobilindustrie der Zukunft werden wird.
Papieradresse: https://arxiv.org/pdf/2403.05989
Der Erfolg von Geelys „Xing Rui“ markiert den Aufstieg der chinesischen Automobilindustrie im Bereich der künstlichen Intelligenz, und seine technologischen Durchbrüche werden die Richtung der intelligenten Entwicklung zukünftiger Automobile tiefgreifend beeinflussen. Wir freuen uns auf weitere Innovationen von Geely im Bereich Künstliche Intelligenz!