Meta AI recientemente abrió un modelo de lenguaje multimodal llamado SPIRIT LM. Esta es una herramienta poderosa que puede mezclar libremente texto y voz. Se basa en un modelo de lenguaje de texto previamente entrenado con 7 mil millones de parámetros y se extiende a la modalidad de voz. formación continua. SPIRIT LM no solo puede comprender y generar texto y voz, sino que, lo que es más importante, puede combinar los dos para lograr múltiples funciones como reconocimiento de voz, síntesis de voz, clasificación de voz, etc. Es especialmente bueno en la expresión emocional y puede generar mensajes más naturales. y emotiva voz, gracias al diseño de sus dos versiones: "Basic Edition" y "Expression Edition".
Meta AI ha abierto recientemente un modelo de lenguaje multimodal básico llamado SPIRIT LM, que puede mezclar libremente texto y voz, abriendo nuevas posibilidades para tareas multimodales de audio y texto.
SPIRIT LM se basa en un modelo de lenguaje de texto previamente entrenado con 7 mil millones de parámetros y se extiende a modalidades de voz a través de entrenamiento continuo en unidades de texto y voz. Puede comprender y generar texto como un modelo de texto grande, y también puede comprender y generar voz. Incluso puede mezclar texto y voz para crear varios efectos mágicos. Por ejemplo, puede usarlo para el reconocimiento de voz y convertir voz en. texto; también puede usarlo para síntesis de voz para convertir texto en voz; también puede usarlo para clasificación de voz para determinar qué emoción expresa un discurso;
Lo que es aún más poderoso es que SPIRIT LM también es particularmente bueno en la "expresión emocional". ¡Puede reconocer y generar una variedad de entonaciones y estilos de voz diferentes, haciendo que la voz de la IA suene más natural y emocional! ¡Puedes imaginar que la voz generada por SPIRIT LM ya no es la voz fría de una máquina, sino la de una persona real hablando, llena de alegría, ira, tristeza y alegría!
Para hacer que la IA sea más "emocional", los investigadores de Meta también han desarrollado especialmente dos versiones de SPIRIT LM:
"Edición básica" (BASE): esta versión se centra principalmente en la información de los fonemas del habla, que es la "composición básica" del habla.
"Versión expresiva" (EXPRESSIVE): Además de la información de los fonemas, esta versión también agrega información de tono y estilo, lo que puede hacer que la voz de la IA sea más vívida y expresiva.
Entonces, ¿cómo hace SPIRIT LM todo esto?
En pocas palabras, SPIRIT LM está entrenado en base a LLAMA2, un modelo de texto grande súper poderoso lanzado anteriormente por Meta. Los investigadores "alimentaron" una gran cantidad de datos de texto y voz a LLAMA2 y adoptaron un método especial de "entrenamiento intercalado" para que LLAMA2 pueda aprender las reglas del texto y del habla al mismo tiempo.
Para probar la capacidad de "expresión emocional" de SPIRIT LM, los investigadores de Meta también diseñaron una nueva prueba de referencia: la "Preservación de sentimientos de voz y texto" (STSP). Este punto de referencia de prueba contiene una variedad de indicaciones de voz y texto que expresan diferentes emociones para probar si el modelo de IA puede reconocer y generar con precisión voz y texto con las emociones correspondientes. Los resultados muestran que la "versión de expresión" de SPIRIT LM funciona bien en la retención de emociones y actualmente es el primer modelo de IA que puede retener información emocional en todas las modalidades.
Por supuesto, los investigadores de Meta también admitieron que SPIRIT LM todavía tiene muchas áreas de mejora. Por ejemplo, SPIRIT LM actualmente solo admite inglés y debe expandirse a otros idiomas en el futuro. La escala del modelo de SPIRIT LM no es lo suficientemente grande y es necesario continuar expandiendo la escala del modelo y mejorar el rendimiento del modelo; el futuro.
SPIRIT LM es el mayor avance de Meta en el campo de la IA. Nos abre la puerta al mundo de la IA "sonoro y emocional". Creo que en un futuro próximo veremos más aplicaciones interesantes desarrolladas basadas en SPIRIT LM, para que la IA no solo pueda hablar con elocuencia, sino también expresar emociones como personas reales y comunicarse con nosotros de forma más natural y cordial.
Dirección del proyecto: https://speechbot.github.io/spiritlm/
Dirección del artículo: https://arxiv.org/pdf/2402.05755
Con todo, el código abierto de SPIRIT LM brinda nuevas oportunidades para el desarrollo de la IA multimodal. Sus poderosas capacidades de expresión emocional y capacidades de procesamiento de información intermodal presagian futuras innovaciones en la forma en que la IA interactúa con los humanos. Esperamos que SPIRIT LM se implemente en más idiomas y escenarios de aplicación en el futuro.