Avec le développement rapide de la technologie de l’IA, la langue n’est plus un obstacle à la communication. La dernière avancée en matière de technologie d’interprétation simultanée par l’IA permet à chacun de communiquer de manière transparente dans différents environnements linguistiques sans se soucier des désagréments causés par les différences linguistiques. Cette technologie permet à toute personne ordinaire d'avoir à bord, à tout moment, un interprète simultané dédié lorsqu'elle sort. Alors, à mesure que la technologie évolue, quels scénarios d’application seront affectés en premier et feront partie de notre vie quotidienne ?
De nos jours, de nombreuses personnes ne sont plus étrangères aux logiciels de traduction IA. La plupart de ces logiciels s'appuient sur la technologie de traduction de texte et intègrent progressivement des fonctions de synthèse vocale IA pour simuler l'expérience d'interprétation simultanée. Par exemple, des produits tels que iFlytek Simultaneous Interpretation, Youdao Translator et Tencent Translator sont tous représentatifs de ce domaine. Le principe de fonctionnement de ce type de logiciel est généralement d'abord d'identifier rapidement la voix du locuteur et de la convertir en texte, puis de traduire le texte grâce à de puissants algorithmes de traitement du langage naturel, et enfin de convertir chaque phrase traduite en parole une par une et de la lire. pour obtenir l'effet de « traduction en temps réel ».
Cependant, cette série de processus entraînera inévitablement des retards de traduction. Afin de réduire les délais, de nombreux logiciels de traduction choisissent d'abandonner la fonction de lecture vocale et d'afficher uniquement le texte traduit. Cette méthode peut traduire la parole en temps réel et la mettre à jour en permanence sous forme de « sous-titres ». Même si les résultats de la traduction sont fréquemment ajustés et redémarrés en raison de changements de saisie, l'expérience de lecture de l'utilisateur ne sera pas affectée. En annulant la lecture vocale, le contenu de traduction mis à jour peut être présenté aux utilisateurs plus rapidement et plus continuellement, améliorant ainsi l'expérience utilisateur globale.
Le modèle d’interprétation simultanée de l’IA utilise un principe complètement différent.
Grâce aux progrès explosifs des modèles d’IA ces dernières années, des modèles d’interprétation simultanée qui recherchent une latence extrêmement faible et traduisent directement la parole en parole commenceront progressivement à apparaître en 2024. Le but de ce type de modèle est de traduire directement ou indirectement la parole en parole dans la langue cible. Parmi eux, trois modèles aux performances exceptionnelles ont attiré une attention particulière et sont les solutions les plus proches de l'interprétation simultanée en personne réelle : le streaming transparent de Meta (anciennement Facebook), StreamSpeech de l'Institut de technologie informatique de l'Académie chinoise des sciences et celui de Zhifu. modèle d'interprétation simultanée v3. Ce type de modèle est différent des logiciels de traduction d'IA traditionnels. Il tentera d'imiter le comportement de la traduction humaine. Il ne traduira pas immédiatement le discours de l'orateur, mais « écoutera » tout en jugeant si le contenu actuel du discours est adapté à un usage complet et complet. traduction Avez-vous besoin d’entendre davantage pour traduire.
Meta a une influence significative dans le domaine de l'IA, en particulier dans les contributions open source et la recherche technologique de pointe. Son département de recherche en IA, Meta AI, a réalisé des percées importantes dans plusieurs domaines de l'intelligence artificielle. LLaMA (Large Language Model), en tant que modèle open source, a été largement utilisé dans la communauté de recherche en IA et son framework open source PyTorch est devenu un incontournable ; recherche mondiale sur l’IA et outils d’intégration dans les applications. Son modèle d'interprétation simultanée Seamless-Streaming est également open source cette fois-ci, permettant à chacun d'accéder à ses principes fondamentaux. Selon les articles pertinents publiés par celui-ci, Seamless-Streaming choisit d'utiliser la stratégie « EMMA » pour déterminer si le traducteur doit traduire immédiatement le texte. contenu entendu. J'attends toujours plus de commentaires. Lors d'une utilisation test, le modèle Seamless-Streaming a obtenu une traduction précise avec un délai d'environ 3 secondes. En termes simples, le contenu traduit est en retard d'environ 3 secondes par rapport au discours original. Par rapport au délai de 15 secondes du logiciel de traduction d'IA traditionnel « interprétation simultanée », il a atteint une optimisation révolutionnaire et a véritablement atteint le niveau de délai d'interprétation simultanée en personne réelle. Cependant, malheureusement, la précision est encore insuffisante par rapport à l'IA traditionnelle. traduction. Surtout dans le test de traduction de langues complexes telles que le chinois, il existe des problèmes tels que des malentendus et l'incapacité de comprendre le « sous-texte ».
En tant qu'institution universitaire la plus élevée et centre de recherche scientifique complet de Chine, l'Académie chinoise des sciences a également ouvert ses recherches sur le modèle StreamSpeech. Selon son article publié, StreamSpeech utilise principalement la méthode de vérification des « alignements » pour déterminer si le traducteur attend ou non. Ce qui est choquant, c'est que le délai de traduction de ce modèle de traduction atteint le chiffre étonnant de 0,3 seconde. Il convient de mentionner que cela équivaut même au temps de réaction humain moyen. Cette vitesse de traduction a largement dépassé le niveau que de vraies personnes peuvent atteindre pour de vrais interprètes simultanés, le temps écoulé entre l'orateur prononçant le mot et son entendement et sa compréhension dans le cerveau est supérieur à 0,3 seconde. Malheureusement, dans la partie open source actuelle du modèle, le modèle ne prend en charge que la traduction anglais-français, anglais-espagnol et anglais-allemand, et ne prend actuellement pas en charge le chinois. Et lors du test du modèle à faible latence, la fluidité de la traduction était quelque peu insatisfaisante, et le contenu traduit ressemblait davantage à une « traduction automatique mot à mot » qu'à une traduction fluide du sens de la phrase. Ce problème se produit davantage parce que le délai est trop faible, ce qui oblige la machine de traduction à traduire certaines phrases inachevées.
Contrairement à Meta et à l’Académie chinoise des sciences, Cicada Future est une petite équipe chinoise de R&D située à Londres. L'équipe est actuellement en cours de financement et n'a pas encore open source son modèle ; ses informations publiques sur ce modèle ne disposent que d'une fenêtre d'expérience de test et d'un résumé papier. Selon le résumé de son article public, par rapport aux deux modèles précédents, l'innovation du modèle d'interprétation simultanée v3 de Zhifu est qu'il confie directement la fonction de « s'il faut attendre plus d'entrées » au modèle de traduction. Il teste actuellement deux modèles en interne : le mini modèle a pour objectif principal une faible latence. Selon les tests internes, son délai de traduction est de 1 à 3 secondes en moyenne. Lorsque l'orateur parle clairement, la précision de la traduction dépasse de loin les deux modèles ci-dessus. . Le grand modèle se caractérise par une grande précision. Le délai de traduction moyen est de 2 à 5 secondes. La précision et la fluidité de la traduction atteignent ou dépassent même le niveau des personnes réelles. Il prend même en charge la traduction précise d'expressions mixtes chinoises et anglaises, de poèmes anciens. dialectes et mèmes populaires. Le problème est que le nombre de places pour les tests internes de ce modèle est actuellement limité, et le test est si populaire qu'il y a souvent des files d'attente pour l'utiliser. Sa fonction de traduction de pages Web est encore loin d'être commerciale ; produit, et ressemble actuellement davantage à une page Web « d'affichage du modèle ».
En résumé, la percée technologique de l'interprétation simultanée par l'IA a concrétisé davantage de possibilités potentielles. Nous sommes déjà loin de la scène du film "The Wandering Earth" où "deux personnes parlant des langues différentes peuvent communiquer normalement après avoir joué". écouteurs" Il approche rapidement, visible à l'œil nu. À l'heure actuelle, un logiciel tel que Zhifu Simultaneous Interpretation, qui est le plus proche de ce scénario, n'a pas encore lancé de produit ; dans quel scénario sera-t-il utilisé en premier ? Qui sera le premier groupe d'utilisateurs ? le marché. Une question.
Avant de réfléchir à ce problème, revenons sur les fonctions principales que l'interprétation simultanée mettra en œuvre : utiliser la voix du locuteur comme entrée en temps réel et simuler la voix traduite pour simuler le ton du locuteur comme sortie en temps réel. Alors étant donné cette fonction, nous avons pensé à quelques très bons exemples à partager avec vous ici, en espérant inspirer tout le monde :
1. Annonce de l’agent de bord
Sur les vols internationaux, les agents de bord doivent généralement parler deux, voire plusieurs langues. En plus de mieux servir les passagers, ce qui est plus important est la diffusion du voyage et d'autres informations pendant le vol, telles que « les instructions d'entrée, les informations de transfert de vol » et d'autres contenus qui doivent être compris par les passagers de différents pays, ils ont donc besoin parler différentes langues en même temps. Le multilinguisme constitue en effet un défi de taille pour les agents de bord, et une expression orale peu claire causera des problèmes aux passagers. L'interprétation simultanée de l'IA peut être utile à ce moment-là. Elle nécessite seulement que l'agent de bord puisse parler une langue, et l'IA est chargée de transmettre son contenu aux oreilles des passagers avec le même ton, afin que les passagers de tous. partout dans le monde, vous pouvez l'écouter dans l'avion. Écoutez clairement et rendez votre voyage plus sécurisé.
2. Éducation en ligne
À mesure que la mondialisation de l’éducation en ligne s’accélère, de plus en plus de plateformes et d’institutions éducatives espèrent attirer des étudiants du monde entier. Cependant, les différences linguistiques deviennent souvent des obstacles pour les étudiants qui souhaitent accéder à des ressources pédagogiques de haute qualité. En particulier pour les étudiants dont la langue maternelle est une langue minoritaire, lorsqu'ils suivent des cours de langue non maternelle, cela est non seulement difficile à comprendre, mais cela affecte également leur capacité d'apprentissage dans des matières de base telles que les mathématiques et la physique. En conséquence, de nombreux étudiants talentueux sont enterrés. . La technologie d'interprétation simultanée de l'IA peut simplement briser cette barrière et fournir des services de traduction en temps réel aux professeurs, de sorte que quelle que soit la langue utilisée par le professeur pour enseigner, les étudiants peuvent obtenir le contenu traduit simultanément, de sorte qu'ils ne soient plus limités par la langue dans un environnement éducatif mondialisé.
La technologie d’interprétation simultanée par l’IA peut fournir des services de traduction précis et en temps réel pour ces occasions, évitant ainsi les retards et les malentendus dans la transmission des informations, favorisant ainsi une communication et une coopération internationales plus efficaces. En dehors de cela, quels autres scénarios d’utilisation possibles existe-t-il à l’avenir ? Peut-être que le prochain point décisif se cache dans un détail de notre vie quotidienne. À mesure que la technologie continue de s’améliorer, l’interprétation simultanée par l’IA entrera progressivement dans des scénarios d’application plus quotidiens et deviendra un élément indispensable de la future communication mondiale.