BodyTalk, la herramienta de traducción de vídeos con IA lanzada por Panjaya, está revolucionando el campo de la traducción de vídeos. Esta herramienta puede convertir con precisión las voces de los personajes del video a otros idiomas y, al mismo tiempo, ajustar las expresiones faciales y los movimientos corporales de los personajes para que coincidan naturalmente con los patrones de habla del nuevo idioma, logrando realmente el efecto de "fingir". como real". El editor de Downcodes le brindará una comprensión profunda de esta asombrosa tecnología y la historia detrás de ella.
Una startup llamada Panjaya está revolucionando el juego de traducción de vídeos. Después de tres años de investigación y desarrollo secretos, la compañía lanzó su innovador producto BodyTalk, una herramienta de inteligencia artificial que puede convertir con precisión las voces de las personas en videos a otros idiomas. A diferencia del doblaje tradicional, BodyTalk no sólo replica perfectamente las características de voz originales del hablante, sino que también ajusta automáticamente las expresiones faciales y los movimientos corporales de los personajes del vídeo para que coincidan naturalmente con los patrones de habla del nuevo idioma.
Panjaya fue fundada por Hilik Shani y Ariel Shalom, dos expertos en aprendizaje profundo del gobierno israelí. En 2021, los dos abandonaron el sector gubernamental para iniciar su propio negocio y luego dieron la bienvenida a Guy Piekarz, que tiene una rica experiencia en la industria, como director ejecutivo. Matcha, una plataforma de recomendación y descubrimiento de medios de transmisión fundada anteriormente por Pickez, fue adquirida por Apple en 2013.
Actualmente, BodyTalk admite traducción en 29 idiomas. Su flujo de trabajo comienza con la traducción de audio, luego genera una nueva voz que imita al hablante original y, finalmente, ajusta automáticamente la forma de la boca y los movimientos del hablante en el video para que coincida con la expresión del nuevo idioma. Si bien los tiempos de procesamiento se acercan al tiempo real, actualmente todavía se necesitan varios minutos para procesar un video.
A nivel técnico, Panjaya adopta una estrategia híbrida, utilizando grandes modelos de lenguaje de terceros y desarrollando tecnologías centrales de forma independiente. Según Pickez, el motor de sincronización de labios de la compañía fue desarrollado completamente por el equipo interno de investigación de IA porque no existe ninguna solución en el mercado que pueda satisfacer las necesidades de sus complejos escenarios comerciales, como múltiples ángulos y múltiples oradores.
Actualmente, la empresa se centra en el mercado B2B y ha cooperado con instituciones como JFrog y TED. TED dijo que las visualizaciones de videos de conferencias dobladas utilizando herramientas Panjaya aumentaron en un 115% y las tasas de finalización se duplicaron. La empresa planea ampliar aún más las aplicaciones en los campos del deporte, la educación, el marketing y la medicina.
Para evitar el uso indebido de la tecnología, Panjaya controla estrictamente el acceso a las herramientas y planea desarrollar funciones como marcas de agua para identificar contenido de vídeo sintetizado. Aunque los subtítulos se han convertido en una característica estándar del contenido de vídeo (según una encuesta de la CBS, más de la mitad de los espectadores estadounidenses los activan cuando miran), la demanda de contenido doblado en el mercado internacional sigue siendo enorme. Los datos de la organización de investigación CSA muestran que, especialmente en el ámbito B2B, el contenido en lengua nativa puede generar una mayor participación del usuario.
En esta ronda de financiación de 9,5 millones de dólares estadounidenses participaron varias instituciones de inversión e individuos, incluidos Viola Ventures, R-Squared Ventures y el cofundador y director ejecutivo de JFrog, Shlomi Ben Haim. En el futuro, Panjaya planea lanzar interfaces API y mejorar aún más la velocidad de procesamiento, avanzando hacia el objetivo del procesamiento en tiempo real.
El avance tecnológico de BodyTalk ha brindado nuevas posibilidades a la industria de la traducción de videos y vale la pena esperar su desarrollo futuro. El éxito de Panjaya también demuestra el enorme potencial de la tecnología de inteligencia artificial para resolver problemas prácticos. Creo que veremos surgir más aplicaciones innovadoras similares en el futuro cercano. El editor de Downcodes seguirá atento a su desarrollo posterior.