Alibaba lança novo modelo de voz Qwen2-Audio, superando OpenAI Whisper

Autor：Eve Cole Data da Última Atualização：2024-12-16 10:00:01

Alibaba lançou um novo modelo de fala de código aberto Qwen2-Audio, que melhorou significativamente o reconhecimento de fala, a tradução e a análise de áudio. Suas funções e desempenho superam o produto da geração anterior Qwen-Audio, e até mesmo o superaram em vários testes de benchmark. grande-v3. Qwen2-Audio oferece suporte a vários idiomas e fornece uma versão básica e uma versão aprimorada com instruções. Os usuários podem fazer perguntas por voz e realizar reconhecimento e análise de conteúdo de áudio, como determinar a idade e a emoção do locutor ou analisar vários sons. componentes do áudio. O modelo usa instruções de linguagem mais natural para pré-treinamento, melhorando significativamente a compreensão e as capacidades de resposta, e introduz dois modos de chat de voz e análise de áudio para melhorar a naturalidade da interação do usuário.

Recentemente, o Alibaba lançou um novo modelo de fala de código aberto Qwen2-Audio baseado em seu Qwen-Audio. Este modelo não só tem um bom desempenho em reconhecimento de fala, tradução e análise de áudio, mas também alcança melhorias significativas em funcionalidade e desempenho. Qwen2-Audio fornece uma versão básica e uma versão aprimorada de instruções. Os usuários podem fazer perguntas ao modelo de áudio por meio de voz e reconhecer e analisar o conteúdo.

Por exemplo, o usuário pode pedir a uma mulher para falar, e o Qwen2-Audio pode determinar sua idade ou analisar suas emoções. Se um som barulhento for recebido, o modelo pode analisar os vários componentes sonoros; Qwen2-Audio oferece suporte a vários idiomas, incluindo chinês, cantonês, francês, inglês e japonês, o que oferece grande comodidade para o desenvolvimento de aplicativos de análise e tradução de sentimentos.

Entrada do produto: https://top.aibase.com/tool/qwen2-audio

Comparado com o Qwen-Audio de primeira geração, o Qwen2-Audio foi totalmente otimizado em arquitetura e desempenho. Na fase de pré-treinamento, este novo modelo utiliza mais dicas de linguagem natural para substituir os rótulos hierárquicos complexos anteriores. Esta melhoria torna o modelo mais fácil de compreender e responder a diversas tarefas, e a sua capacidade de generalização também foi significativamente melhorada.

A capacidade de seguir comandos do Qwen2-Audio também foi bastante aprimorada e pode entender os comandos do usuário com mais precisão. Por exemplo, quando o usuário emite o comando “analisar a tendência emocional neste áudio”, o Qwen2-Audio pode determinar com precisão a emoção contida no áudio. Além disso, o modelo introduz dois modos: chat de voz e análise de áudio, tornando a interação de voz dos usuários mais natural. No modo de análise de áudio, o Qwen2-Audio pode analisar profundamente vários tipos de áudio e fornecer resultados de análise detalhados e precisos.

Para garantir que o resultado do modelo atenda às expectativas humanas, o Qwen2-Audio também introduz tecnologias avançadas, como ajuste fino supervisionado e otimização direta de preferências. Os modelos parecem mais naturais e precisos ao interagir com humanos.

Em termos de testes de desempenho, o Qwen2-Audio teve um bom desempenho em vários testes de benchmark convencionais, especialmente na precisão do reconhecimento e tradução de fala, superando o Whisper-large-v3 da OpenAI. O desempenho deste novo modelo não só atraiu a atenção generalizada da indústria, mas também anunciou um novo futuro para a tecnologia de voz.

Destaque:

Qwen2-Audio é o mais recente modelo de fala de código aberto do Alibaba, que suporta vários idiomas e possui poderosos recursos de reconhecimento e análise.

Comparado com a geração anterior, o Qwen2-Audio foi bastante otimizado em desempenho e arquitetura, melhorando sua capacidade de compreensão e resposta.

?Em vários testes de desempenho, o Qwen2-Audio superou o Whisper da OpenAI, mostrando forte competitividade.

O código aberto do Qwen2-Audio promoverá o desenvolvimento do campo da tecnologia de voz, fornecerá aos desenvolvedores ferramentas poderosas e promoverá o nascimento de aplicativos mais inovadores. Suas vantagens em suporte e desempenho multilíngue fazem dele uma direção importante para o desenvolvimento futuro da tecnologia de voz. Ansioso pela aplicação do Qwen2-Audio em mais cenários.