Meta lança novo modelo de tradução de fala que suporta imitação de tom e velocidade de fala

Autor：Eve Cole Data da Última Atualização：2025-01-17 08:48:02

A última série de modelos de tradução de fala Seamless Communication lançada pela Meta pode ser considerada um grande avanço no campo da tradução de fala. Esta série inclui quatro modelos que suportam tradução de fala em tempo real em quase cem idiomas, com um atraso de apenas cerca de 2 segundos, e podem restaurar altamente o tom, a velocidade e outros detalhes da fala de origem, tornando o efeito de tradução realista e natural . A decisão da Meta não só demonstra a sua posição de liderança no campo da inteligência artificial, mas também traz uma conveniência sem precedentes à comunicação global.

A Meta lançou recentemente um novo modelo de tradução de fala, a série Seamless Communication, que inclui 4 modelos e suporta tradução de fala em tempo real entre quase 100 idiomas, com controle de atraso de cerca de 2 segundos. O modelo pode reproduzir recursos complexos como pausas, tom e velocidade de fala da fala original, tornando a tradução mais realista. Uma arquitetura não autorregressiva é adotada para suportar tradução de sequências longas. Além disso, a Meta abriu o código-fonte do modelo e do maior corpus de fala de 585.000 horas, e adicionou funções como marca d’água de áudio e mitigação de toxicidade de tradução para evitar abuso de modelo.

O modelo de código aberto e o corpus massivo da Meta promoverão enormemente o desenvolvimento da tecnologia de tradução de fala e promoverão o intercâmbio global de informações. Ao mesmo tempo, suas medidas antiabuso também refletem o senso de responsabilidade na aplicação da tecnologia. Estamos ansiosos para que a série Seamless Communication traga mais surpresas no futuro.