Hertz-dev, o primeiro modelo de áudio conversacional de código aberto, surpreende toda a rede com latência ultrabaixa de 120 milissegundos

Autor：Eve Cole Data da Última Atualização：2024-11-29 13:47:15

O editor de Downcodes apresentará o Hertz-dev, um revolucionário modelo de áudio de código aberto! Ele possui 8,5 bilhões de parâmetros e é treinado em 20 milhões de horas de dados de áudio de alta qualidade para obter impressionantes conversas full-duplex em tempo real. Sua latência ultrabaixa de 120 milissegundos é o dobro dos modelos públicos existentes, proporcionando uma experiência de conversação suave e natural, como a comunicação face a face. O principal avanço da Hertz-dev reside na sua inovadora tecnologia full-duplex, excelente tecnologia de compressão de áudio, capacidades de conversação ultralongas e baixa latência revolucionária. Isso revolucionará a maneira como interagimos com a IA.

Um revolucionário modelo de áudio de código aberto - nasceu o Hertz-dev, chocando desenvolvedores em todo o mundo com seus incríveis indicadores de desempenho. Este gigante da voz de IA com 8,5 bilhões de parâmetros alcançou com sucesso a conversa full-duplex em tempo real com que os humanos sonham, por meio de treinamento com 20 milhões de horas de dados de áudio de alta qualidade.

O mais surpreendente é o desempenho de latência ultrabaixa de 120 milissegundos, que é totalmente duplicado em comparação com o modelo público existente, levando a experiência de conversação homem-máquina a um nível totalmente novo. Imagine que quando você está conversando com uma IA, você não precisa mais esperar que a outra pessoa termine de falar antes de poder interromper naturalmente, assim como uma conversa humana real, tão suave e natural.

As principais inovações da Hertz-dev incluem:

Tecnologia full-duplex inovadora: subvertendo completamente o modelo tradicional de tomada de turnos e alcançando uma verdadeira comunicação bidirecional em tempo real

Excelente compressão de áudio: garantindo alta qualidade de som, reduzindo significativamente o uso de largura de banda

Capacidade de diálogo ultralongo: entenda e gere facilmente conteúdo de diálogo contínuo

Baixa latência revolucionária: velocidade de resposta de 120 milissegundos, criando uma nova era de interação em tempo real

Como modelo básico do Transformer com foco em áudio, o Hertz-dev faz uso total dos dados de diálogo do mundo real durante o processo de treinamento e captura com sucesso recursos sutis da fala humana, incluindo ritmos de pausa naturais e ricas mudanças de entonação emocional.

Para os desenvolvedores, este é um tesouro de código aberto extremamente valioso. Eles podem baixar gratuitamente o modelo, ajustá-lo de acordo com cenários de aplicação específicos e criar vários aplicativos de voz inovadores. Isto significa que tudo, desde robôs de atendimento ao cliente até assistentes de voz, desde educação e orientação até interação de entretenimento, dará início a um salto qualitativo.

Endereço do projeto: https://github.com/Standard-Intelligence/hertz-dev

O código aberto da Hertz-dev promoverá o desenvolvimento da tecnologia de interação por voz e fornecerá possibilidades ilimitadas para os desenvolvedores. Ansiosos por aplicações mais inovadoras baseadas no surgimento da Hertz-dev!