Alibaba lanza el nuevo modelo de voz Qwen2-Audio, superando a OpenAI Whisper

Autor：Eve Cole Fecha de actualización：2024-12-16 10:00:01

Alibaba ha lanzado un nuevo modelo de voz de código abierto, Qwen2-Audio, que ha mejorado significativamente el reconocimiento de voz, la traducción y el análisis de audio. Sus funciones y rendimiento superan al producto de la generación anterior Qwen-Audio, e incluso lo superan en múltiples pruebas comparativas. grande-v3. Qwen2-Audio admite varios idiomas y proporciona una versión básica y una versión mejorada con instrucciones. Los usuarios pueden hacer preguntas a través de la voz y realizar reconocimiento y análisis de contenido de audio, como determinar la edad y las emociones del hablante o analizar varios sonidos. componentes del audio. El modelo utiliza indicaciones de lenguaje más natural para el entrenamiento previo, lo que mejora significativamente las capacidades de comprensión y respuesta, e introduce dos modos de chat de voz y análisis de audio para mejorar la naturalidad de la interacción del usuario.

Recientemente, Alibaba lanzó un nuevo modelo de voz de código abierto, Qwen2-Audio, basado en su Qwen-Audio. Este modelo no sólo funciona bien en reconocimiento de voz, traducción y análisis de audio, sino que también logra mejoras significativas en funcionalidad y rendimiento. Qwen2-Audio proporciona una versión básica y una versión mejorada de instrucciones. Los usuarios pueden hacer preguntas al modelo de audio a través de la voz y reconocer y analizar el contenido.

Por ejemplo, el usuario puede pedirle a una mujer que hable y Qwen2-Audio puede determinar su edad o analizar sus emociones; si se introduce un sonido ruidoso, el modelo puede analizar los distintos componentes del sonido; Qwen2-Audio admite varios idiomas, incluidos chino, cantonés, francés, inglés y japonés, lo que proporciona una gran comodidad para el desarrollo de aplicaciones de traducción y análisis de sentimientos.

Entrada del producto: https://top.aibase.com/tool/qwen2-audio

En comparación con Qwen-Audio de primera generación, Qwen2-Audio ha sido completamente optimizado en arquitectura y rendimiento. En la etapa previa al entrenamiento, este nuevo modelo utiliza señales de lenguaje más natural para reemplazar las complejas etiquetas jerárquicas anteriores. Esta mejora hace que el modelo sea más fácil de entender y responder a diversas tareas, y su capacidad de generalización también se ha mejorado significativamente.

La capacidad de seguimiento de comandos de Qwen2-Audio también se ha mejorado enormemente y puede comprender los comandos del usuario con mayor precisión. Por ejemplo, cuando el usuario emite el comando "analizar la tendencia emocional en este audio", Qwen2-Audio puede determinar con precisión la emoción contenida en el audio. Además, el modelo introduce dos modos: chat de voz y análisis de audio, lo que hace que la interacción de voz de los usuarios sea más natural. En el modo de análisis de audio, Qwen2-Audio puede analizar en profundidad varios tipos de audio y proporcionar resultados de análisis detallados y precisos.

Para garantizar que el resultado del modelo cumpla con las expectativas humanas, Qwen2-Audio también introduce tecnologías avanzadas como el ajuste fino supervisado y la optimización directa de preferencias. Los modelos parecen más naturales y precisos cuando interactúan con los humanos.

En términos de pruebas de rendimiento, Qwen2-Audio tuvo un buen desempeño en múltiples pruebas comparativas convencionales, especialmente en la precisión del reconocimiento de voz y la traducción, superando a Whisper-large-v3 de OpenAI. El rendimiento de este nuevo modelo no sólo atrajo una amplia atención en la industria, sino que también anunció un nuevo futuro para la tecnología de voz.

Destacar:

Qwen2-Audio es el último modelo de voz de código abierto de Alibaba, que admite múltiples idiomas y tiene poderosas capacidades de reconocimiento y análisis.

En comparación con la generación anterior, Qwen2-Audio se ha optimizado enormemente en rendimiento y arquitectura, mejorando su capacidad de comprensión y respuesta.

? En múltiples pruebas de rendimiento, Qwen2-Audio superó a Whisper de OpenAI, mostrando una fuerte competitividad.

El código abierto de Qwen2-Audio promoverá el desarrollo del campo de la tecnología de voz, proporcionará a los desarrolladores herramientas poderosas y promoverá el nacimiento de aplicaciones más innovadoras. Sus ventajas en cuanto a compatibilidad y rendimiento en varios idiomas lo convierten en una dirección importante para el futuro desarrollo de la tecnología de voz. Esperamos con ansias la aplicación de Qwen2-Audio en más escenarios.