Was wird an dem Tag passieren, an dem KI-Simultandolmetschen es Ihnen ermöglicht, 60 Sprachen sofort zu beherrschen?

Autor：Eve Cole Aktualisierungszeit：2024-11-14 11:36:02

Mit der rasanten Entwicklung der KI-Technologie stellt die Sprache kein Kommunikationshindernis mehr dar. Der neueste Durchbruch in der KI-Simultandolmetschertechnologie ermöglicht es jedem, nahtlos in verschiedenen Sprachumgebungen zu kommunizieren, ohne sich über die durch Sprachunterschiede verursachten Unannehmlichkeiten Gedanken machen zu müssen. Diese Technologie ermöglicht es jedem gewöhnlichen Menschen, jederzeit einen eigenen Simultandolmetscher „bei sich zu haben“, wenn er ausgeht. Welche Anwendungsszenarien werden also mit zunehmender Reife der Technologie zuerst betroffen sein und Teil unseres täglichen Lebens werden?

Heutzutage sind viele Menschen mit KI-Übersetzungssoftware nicht mehr vertraut. Die meisten dieser Softwareprogramme basieren auf Textübersetzungstechnologie und integrieren nach und nach KI-Sprachsynthesefunktionen, um das Erlebnis des Simultandolmetschens zu simulieren. Beispielsweise sind Produkte wie iFlytek Simultaneous Interpretation, Youdao Translator und Tencent Translator allesamt Vertreter dieses Bereichs. Das Arbeitsprinzip dieser Art von Software besteht im Allgemeinen darin, zunächst die Stimme des Sprechers schnell zu identifizieren und in Text umzuwandeln, den Text dann durch leistungsstarke Algorithmen zur Verarbeitung natürlicher Sprache zu übersetzen und schließlich jeden übersetzten Satz einzeln in Sprache umzuwandeln und abzuspielen. um den Effekt einer „Echtzeitübersetzung“ zu erzielen.

Allerdings führt diese Reihe von Prozessen unweigerlich zu Übersetzungsverzögerungen. Um Verzögerungen zu reduzieren, verzichten viele Übersetzungsprogramme auf die Sprachwiedergabefunktion und zeigen nur den übersetzten Text an. Diese Methode kann Sprache in Echtzeit übersetzen und kontinuierlich in Form von „Untertiteln“ aktualisieren. Auch wenn die Übersetzungsergebnisse aufgrund von Eingabeänderungen häufig angepasst und neu gestartet werden, wird das Leseerlebnis des Benutzers nicht beeinträchtigt. Durch das Abbrechen der Sprachwiedergabe können die aktualisierten Übersetzungsinhalte den Benutzern schneller und kontinuierlicher präsentiert werden, wodurch das Benutzererlebnis insgesamt verbessert wird.

Das KI-Simultandolmetschermodell nutzt ein völlig anderes Prinzip.

Dank der explosionsartigen Fortschritte bei KI-Modellen in den letzten Jahren werden im Jahr 2024 nach und nach Simultandolmetschermodelle auf den Markt kommen, die eine extrem niedrige Latenz anstreben und Sprache direkt in Sprache übersetzen. Der Zweck dieses Modelltyps besteht darin, Sprache direkt oder indirekt in Sprache in der Zielsprache zu übersetzen. Unter ihnen haben drei Modelle mit herausragender Leistung besondere Aufmerksamkeit erregt und sind die Lösungen, die dem Simultandolmetschen einer realen Person am nächsten kommen: Seamless-Streaming von Meta (ehemals Facebook), StreamSpeech vom Institute of Computing Technology, Chinese Academy of Sciences und Zhifu Simultandolmetschen v3-Modell. Diese Art von Modell unterscheidet sich von herkömmlicher KI-Übersetzungssoftware. Sie versucht, das Verhalten der menschlichen Übersetzung zu imitieren. Sie übersetzt die Sprache des Sprechers nicht sofort, sondern „hört“ zu und beurteilt, ob der aktuelle Sprachinhalt vollständig und vollständig ist Übersetzung. Brauchen Sie mehr zum Übersetzen?

Meta hat erheblichen Einfluss im KI-Bereich, insbesondere bei Open-Source-Beiträgen und Spitzentechnologieforschung. Seine KI-Forschungsabteilung Meta AI hat wichtige Durchbrüche in mehreren Bereichen der künstlichen Intelligenz erzielt, da sein Open-Source-Modell in der KI-Forschungsgemeinschaft weit verbreitet ist und sein Open-Source-Framework PyTorch zu einem geworden ist globale KI-Forschung und Mainstream-Tools in Anwendungen. Sein Simultandolmetschermodell Seamless-Streaming ist dieses Mal ebenfalls Open Source, sodass jeder auf seine Kernprinzipien zugreifen kann. Laut einschlägigen von ihm veröffentlichten Artikeln entscheidet sich Seamless-Streaming für die Verwendung der „EMMA“-Strategie, um zu bestimmen, ob der Übersetzer das sofort übersetzen soll Inhalt gehört. Ich warte immer noch auf weitere Eingaben. Im Testeinsatz erreichte das Seamless-Streaming-Modell eine genaue Übersetzung mit einer Verzögerung von etwa 3 Sekunden. Vereinfacht gesagt hinkt der übersetzte Inhalt der Originalsprache um etwa 3 Sekunden hinterher. Im Vergleich zur 15-Sekunden-Verzögerung der herkömmlichen KI-Übersetzungssoftware „Simultandolmetschen“ wurde eine bahnbrechende Optimierung erzielt und tatsächlich das Niveau der Verzögerung des Simultandolmetschens bei realen Personen erreicht. Leider ist die Genauigkeit im Vergleich zur herkömmlichen KI immer noch unzureichend Übersetzung. Insbesondere beim Übersetzungstest komplexer Sprachen wie Chinesisch kommt es zu Problemen wie Missverständnissen und der Unfähigkeit, den „Subtext“ zu verstehen.

Als höchste akademische Einrichtung und umfassendes wissenschaftliches Forschungszentrum in China hat die Chinesische Akademie der Wissenschaften ihre Forschung zum StreamSpeech-Modell ebenfalls als Open Source bereitgestellt. Laut seinem veröffentlichten Artikel verwendet StreamSpeech hauptsächlich die Methode der „Alignments“-Prüfung, um festzustellen, ob der Übersetzer wartet oder nicht. Erstaunlich ist, dass die Übersetzungsverzögerung dieses Übersetzungsmodells erstaunliche 0,3 Sekunden erreicht. Erwähnenswert ist, dass dies sogar der durchschnittlichen menschlichen Reaktionszeit entspricht. Diese Übersetzungsgeschwindigkeit liegt weit über dem Niveau, das echte Menschen erreichen können. Für echte Simultandolmetscher beträgt die Zeit vom Sprechen des Wortes durch den Sprecher bis zum Hören und Verstehen im Gehirn mehr als 0,3 Sekunden. Leider unterstützt das Modell im aktuellen Open-Source-Teil des Modells nur die Übersetzungen Englisch-Französisch, Englisch-Spanisch und Englisch-Deutsch und derzeit nicht Chinesisch. Und im Test des Low-Latency-Modells war die Glätte der Übersetzung etwas unbefriedigend und der übersetzte Inhalt ähnelte eher einer „Wort-für-Wort-Maschinenübersetzung“ als einer reibungslosen Übersetzung der Bedeutung des Satzes. Dieses Problem tritt eher auf, weil die Verzögerung zu gering ist, was dazu führt, dass die Übersetzungsmaschine „gezwungen“ wird, einige unvollständige Sätze zu übersetzen.

Im Gegensatz zu Meta und der Chinesischen Akademie der Wissenschaften ist Cicada Future ein kleines chinesisches Forschungs- und Entwicklungsteam mit Sitz in London. Das Team befindet sich derzeit im Finanzierungsprozess und hat sein Modell noch nicht als Open-Source-Version veröffentlicht. Die öffentlichen Informationen zu diesem Modell umfassen lediglich ein Testerfahrungsfenster und eine Papierzusammenfassung. Laut der Zusammenfassung seines öffentlichen Papiers besteht die Innovation des Simultandolmetschermodells v3 von Zhifu im Vergleich zu den beiden vorherigen Modellen darin, dass es die Funktion „ob auf weitere Eingaben gewartet werden soll“ direkt an das Übersetzungsmodell übergibt. Derzeit werden intern zwei Modelle getestet: Das Mini-Modell hat laut internen Tests eine Übersetzungsverzögerung von durchschnittlich 1–3 Sekunden. Wenn der Sprecher klar spricht, übertrifft die Übersetzungsgenauigkeit die der beiden oben genannten Modelle bei weitem . Das große Modell zeichnet sich durch eine hohe Genauigkeit aus. Die Genauigkeit und Fließfähigkeit der Übersetzung erreicht oder übertrifft sogar das Niveau echter Menschen. Es unterstützt sogar die genaue Übersetzung gemischter chinesischer und englischer Ausdrücke. Dialekte und beliebte Memes. Der Wermutstropfen ist, dass die Anzahl der Plätze für interne Tests dieses Modells derzeit begrenzt ist und der Test so beliebt ist, dass es oft Warteschlangen gibt, um ihn zu nutzen. Die Funktion zur Webseitenübersetzung ist noch weit davon entfernt, kommerziell genutzt zu werden Produkt und ähnelt derzeit eher einer „Modellanzeige“-Webseite.

Zusammenfassend lässt sich sagen, dass der technologische Durchbruch des KI-Simultandolmetschens mehr potenzielle Möglichkeiten in die Realität umgesetzt hat. Wir sind bereits weit von der Szene im Film „The Wandering Earth“ entfernt, in der „zwei Menschen, die verschiedene Sprachen sprechen, nach dem Anlegen normal kommunizieren können.“ Kopfhörer" Es nähert sich schnell und ist mit bloßem Auge sichtbar. Derzeit hat eine Software wie Zhifu Simultaneous Interpretation, die diesem Szenario am nächsten kommt, noch keine Produkteinführung gestartet. Wer wird der erste Benutzer sein? Der Markt.

Bevor wir über dieses Problem nachdenken, werfen wir einen Blick zurück auf die Kernfunktionen, die das Simultandolmetschen implementieren wird: die Verwendung der Stimme des Sprechers als Echtzeiteingabe und die Simulation der übersetzten Stimme, um den Ton des Sprechers als Echtzeitausgabe zu simulieren. Angesichts dieser Funktion haben wir uns einige sehr gute Beispiele ausgedacht, die wir hier mit Ihnen teilen möchten, in der Hoffnung, alle zu inspirieren:

1. Ankündigung des Flugbegleiters

Auf internationalen Flügen müssen Flugbegleiter in der Regel zwei oder sogar mehrere Sprachen sprechen. Wichtiger ist neben der besseren Betreuung der Passagiere die Übertragung von Reise- und anderen Informationen während des Fluges, wie z. B. „Einreiseanweisungen, Informationen zum Flugtransfer“ und anderen Inhalten, die von Passagieren aus verschiedenen Ländern verstanden werden müssen verschiedene Sprachen gleichzeitig sprechen. Mehrsprachigkeit ist in der Tat eine große Herausforderung für Flugbegleiter, und unklare mündliche Ausdrucksweise kann den Passagieren Probleme bereiten. KI-Simultandolmetschen kann zu diesem Zeitpunkt möglicherweise hilfreich sein. Es erfordert lediglich, dass der Flugbegleiter eine Sprache sprechen kann, und die KI ist dafür verantwortlich, den Inhalt im gleichen Ton an die Ohren der Passagiere zu übertragen, sodass Passagiere von allen Auf der ganzen Welt können Sie es im Flugzeug hören und Ihre Reise sicherer machen.

2. Online-Bildung

Da die Globalisierung der Online-Bildung immer schneller voranschreitet, hoffen immer mehr Bildungsplattformen und -institutionen, Studierende aus der ganzen Welt anzuziehen. Sprachunterschiede erschweren den Studierenden jedoch häufig den Zugang zu qualitativ hochwertigen Bildungsressourcen. Vor allem Studierende, deren Muttersprache eine Minderheitensprache ist, erschweren beim Erlernen nicht-muttersprachlicher Kurse nicht nur das Verständnis, sondern beeinträchtigen auch ihre Lernfähigkeit in Kernfächern wie Mathematik und Physik. Dadurch werden viele talentierte Studierende begraben . KI-Simultandolmetschertechnologie kann diese Barriere einfach überwinden und Echtzeit-Übersetzungsdienste für Dozenten bereitstellen, sodass Studierende unabhängig von der Sprache, die der Dozent zum Unterrichten verwendet, die übersetzten Inhalte gleichzeitig erhalten können, sodass sie nicht mehr durch die Sprache in einem eingeschränkt sind Globalisiertes Bildungsumfeld.

KI-Simultandolmetschertechnologie kann für diese Anlässe präzise Übersetzungsdienste in Echtzeit bereitstellen, Verzögerungen und Missverständnisse bei der Informationsübertragung vermeiden und so eine effizientere internationale Kommunikation und Zusammenarbeit fördern. Abgesehen davon: Welche weiteren möglichen Nutzungsszenarien gibt es in der Zukunft? Vielleicht liegt der nächste Durchbruch in einem Detail in unserem täglichen Leben. Da sich die Technologie weiter verbessert, wird das KI-Simultandolmetschen nach und nach Einzug in immer alltäglichere Anwendungsszenarien halten und zu einem unverzichtbaren Bestandteil der zukünftigen globalen Kommunikation werden.