Con el rápido desarrollo de la tecnología de inteligencia artificial, el idioma ya no es una barrera para la comunicación. El último avance en tecnología de interpretación simultánea de IA permite que todos se comuniquen sin problemas en diferentes entornos lingüísticos sin preocuparse por los inconvenientes causados por las diferencias lingüísticas. Esta tecnología hace posible que cualquier persona común y corriente pueda "llevar" un intérprete simultáneo dedicado cuando salga en cualquier momento. Entonces, a medida que la tecnología madure, ¿qué escenarios de aplicación se verán afectados primero y pasarán a formar parte de nuestra vida diaria?
Hoy en día, muchas personas ya no están familiarizadas con el software de traducción de IA. La mayoría de estos software se basan en tecnología de traducción de texto y gradualmente incorporan funciones de síntesis de voz de IA para simular la experiencia de la interpretación simultánea. Por ejemplo, productos como iFlytek Simultaneous Interpretation, Youdao Translator y Tencent Translator son todos representantes de este campo. El principio de funcionamiento de este tipo de software generalmente es primero identificar rápidamente la voz del hablante y convertirla en texto, luego traducir el texto mediante potentes algoritmos de procesamiento del lenguaje natural y, finalmente, convertir cada oración traducida en voz una por una y reproducirla. para lograr el efecto de “traducción en tiempo real”.
Sin embargo, esta serie de procesos inevitablemente provocará retrasos en la traducción. Para reducir los retrasos, muchos programas de traducción optan por abandonar la función de reproducción de voz y solo mostrar el texto traducido. Este método puede traducir la voz en tiempo real y actualizarla continuamente en forma de "subtítulos". Incluso si los resultados de la traducción se ajustan y reinician con frecuencia debido a cambios en la entrada, la experiencia de lectura del usuario no se verá afectada. Al cancelar la reproducción de voz, el contenido de traducción actualizado se puede presentar a los usuarios de forma más rápida y continua, mejorando así la experiencia general del usuario.
El modelo de interpretación simultánea de IA utiliza un principio completamente diferente.
Gracias al progreso explosivo de los modelos de IA en los últimos años, en 2024 comenzarán a aparecer gradualmente modelos de interpretación simultánea que persiguen una latencia extremadamente baja y traducen directamente el habla en voz. El propósito de este tipo de modelo es traducir directa o indirectamente un discurso en otro en el idioma de destino. Entre ellos, tres modelos con un rendimiento sobresaliente han llamado especialmente la atención y son las soluciones más cercanas a la interpretación simultánea en persona real: el streaming sin fisuras de Meta (anteriormente Facebook), el StreamSpeech del Instituto de Tecnología Informática de la Academia de Ciencias de China y el de Zhifu. Modelo de interpretación simultánea v3. Este tipo de modelo es diferente del software de traducción de IA tradicional. Intentará imitar el comportamiento de la traducción humana. No traducirá el discurso del orador inmediatamente, sino que "escuchará" mientras juzga si el contenido del discurso actual es adecuado y completo. traducción. ¿Necesitas escuchar más para traducir?
Meta tiene una influencia significativa en el campo de la IA, especialmente en contribuciones de código abierto e investigación de tecnología de punta. Su departamento de investigación de IA, Meta AI, ha logrado avances importantes en múltiples campos de la inteligencia artificial. LLaMA (Large Language Model), como modelo de código abierto, se ha utilizado ampliamente en la comunidad de investigación de IA y su marco de código abierto PyTorch se ha convertido en un modelo de código abierto. investigación global de IA y herramientas de integración en aplicaciones. Su modelo de interpretación simultánea Seamless-Streaming también es de código abierto esta vez, lo que permite que cualquiera acceda a sus principios básicos. Según artículos relevantes publicados por él, Seamless-Streaming elige utilizar la estrategia "EMMA" para determinar si el traductor debe traducir inmediatamente el texto. contenido escuchado. Todavía esperando más comentarios. En el uso de prueba, el modelo Seamless-Streaming logró una traducción precisa con un retraso de aproximadamente 3 segundos. En pocas palabras, el contenido traducido va por detrás del discurso original en aproximadamente 3 segundos. En comparación con el retraso de 15 segundos de la "interpretación simultánea" del software de traducción de IA tradicional, ha logrado una optimización revolucionaria y realmente ha alcanzado el nivel de retraso de la interpretación simultánea en persona real. Sin embargo, desafortunadamente, la precisión aún es insuficiente en comparación con la IA tradicional. traducción. Especialmente en las pruebas de traducción de idiomas complejos como el chino, surgen problemas como malentendidos e incapacidad para comprender el "subtexto".
Como la institución académica más importante y el centro integral de investigación científica de China, la Academia de Ciencias de China también ha abierto su investigación sobre el modelo StreamSpeech. Según su artículo publicado, StreamSpeech utiliza principalmente el método de verificar "Alineaciones" para determinar si el traductor está esperando o no. Lo sorprendente es que el retraso de traducción de este modelo de traducción alcanza la asombrosa cifra de 0,3 segundos. Vale la pena mencionar que esto es incluso equivalente al tiempo de reacción humano promedio. Esta velocidad de traducción ha superado con creces el nivel que pueden alcanzar las personas reales. Para los intérpretes simultáneos reales, el tiempo desde que el hablante pronuncia la palabra hasta que la escucha y la comprende en el cerebro es de más de 0,3 segundos. Desafortunadamente, en la parte actual de código abierto del modelo, el modelo solo admite traducción inglés-francés, inglés-español e inglés-alemán, y actualmente no admite chino. Y en la prueba del modelo de baja latencia, la fluidez de la traducción fue algo insatisfactoria y el contenido traducido se parecía más a una "traducción automática palabra por palabra" que a una traducción fluida del significado de la oración. Este problema se produce principalmente porque el retraso es demasiado bajo, lo que hace que la máquina de traducción se vea "obligada" a traducir algunas frases sin terminar.
A diferencia de Meta y la Academia China de Ciencias, Cicada Future es un pequeño equipo chino de I+D ubicado en Londres. El equipo se encuentra actualmente en el proceso de financiación y aún no ha abierto el código fuente de su modelo; su información pública sobre este modelo solo tiene una ventana de experiencia de prueba y un resumen del artículo. Según el resumen de su artículo público, en comparación con los dos modelos anteriores, la innovación del modelo de interpretación simultánea v3 de Zhifu es que transfiere directamente la función de "si esperar más entradas" al modelo de traducción. Actualmente está probando dos modelos internamente: el modelo mini tiene una baja latencia como objetivo principal. Según las pruebas internas, su retraso de traducción es de 1 a 3 segundos en promedio. Cuando el hablante habla con claridad, la precisión de la traducción supera con creces a los dos modelos anteriores. . El modelo grande se caracteriza por una alta precisión. El retraso promedio en la traducción es de 2 a 5 segundos. La precisión y fluidez de la traducción alcanzan o incluso superan el nivel de personas reales. Incluso admite traducciones precisas de expresiones mixtas en chino e inglés, poemas antiguos. dialectos y memes populares. El problema es que el número de lugares para pruebas internas de este modelo es actualmente limitado, y la prueba es tan popular que a menudo hay colas para usarla, su función de traducción de páginas web aún está lejos de ser comercial; producto, y actualmente se parece más a una página web de "exhibición de modelos".
En resumen, el avance tecnológico de la interpretación simultánea de IA ha hecho realidad más posibilidades potenciales. Ya estamos muy lejos de la escena de la película "The Wandering Earth" en la que "dos personas que hablan diferentes idiomas pueden comunicarse normalmente después de ponerse el traje". auriculares" Se acerca rápidamente, visible a simple vista. En la actualidad, el software como Zhifu Simultaneous Interpretation, que se acerca más a este escenario, aún no ha iniciado el lanzamiento de ningún producto; ¿en qué escenario se utilizará primero? ¿Quién será el primer grupo de usuarios? El mercado. Una pregunta.
Antes de pensar en este problema, echemos un vistazo a las funciones principales que implementará la interpretación simultánea: usar la voz del orador como entrada en tiempo real y simular la voz traducida para simular el tono del orador como salida en tiempo real. Entonces, dada esta función, pensamos en algunos muy buenos ejemplos para compartir con ustedes aquí, con la esperanza de inspirar a todos:
1. Anuncio de la azafata
En los vuelos internacionales, los asistentes de vuelo generalmente deben hablar dos o incluso varios idiomas. Además de servir mejor a los pasajeros, lo que es más importante es la transmisión del viaje y otra información durante el vuelo, como "instrucciones de entrada, información de transferencia de vuelo" y otros contenidos que deben ser comprendidos por los pasajeros de diferentes países, por lo que necesitan hablar diferentes idiomas al mismo tiempo. De hecho, el multilingüismo es un gran desafío para los asistentes de vuelo y una expresión oral poco clara causará problemas a los pasajeros. La interpretación simultánea con IA puede ayudar en este momento. Solo requiere que la azafata sepa hablar un idioma, y la IA se encarga de transmitir su contenido a los oídos de los pasajeros con el mismo tono, para que todos los pasajeros. todo el mundo puede escucharlo en el avión. Escuche con claridad y haga su viaje más seguro.
2. Educación en línea
A medida que se acelera la globalización de la educación en línea, cada vez más plataformas e instituciones educativas esperan atraer a estudiantes de todo el mundo. Sin embargo, las diferencias lingüísticas a menudo se convierten en obstáculos para que los estudiantes obtengan recursos educativos de alta calidad. Especialmente los estudiantes cuya lengua materna es una lengua minoritaria, cuando aprenden cursos de idiomas no nativos, no solo es difícil de entender, sino que también afecta su capacidad de aprendizaje en materias básicas como matemáticas y física. Como resultado, muchos estudiantes talentosos quedan enterrados. . La tecnología de interpretación simultánea de IA puede simplemente romper esta barrera y proporcionar servicios de traducción en tiempo real para los profesores, de modo que sin importar qué idioma utilice el profesor para enseñar, los estudiantes puedan obtener el contenido traducido simultáneamente, de modo que ya no estén limitados por el idioma en un entorno educativo globalizado.
La tecnología de interpretación simultánea de IA puede proporcionar servicios de traducción precisos y en tiempo real para estas ocasiones, evitando retrasos y malentendidos en la transmisión de información, promoviendo así una comunicación y cooperación internacionales más eficientes. Aparte de eso, ¿qué otros posibles escenarios de uso existen en el futuro? Quizás el próximo punto decisivo esté escondido en un detalle de nuestra vida diaria. A medida que la tecnología continúa mejorando, la interpretación simultánea de IA ingresará gradualmente a más escenarios de aplicación diarios y se convertirá en una parte indispensable de la comunicación global del futuro.