O primeiro modelo de código aberto do áudio conversacional Hertz-Dev 120ms Latência Ultra-Low Amazing toda a rede-AI Artigos

Autor：Eve Cole Data da Última Atualização：2025-02-12 19:00:03

Hertz-Dev, um revolucionário modelo de áudio de código aberto, fez enormes ondas no campo da voz da IA com seus 8,5 bilhões de parâmetros e 20 milhões de horas de dados de áudio de alta qualidade. Ele realiza diálogo em tempo real com duplex completo e a latência ultra baixa de 120 milissegundos é uma inovação, melhorando a interação humano-computador para um nível sem precedentes de suavidade e natureza, mudando completamente a experiência interativa de modelos de voz anteriores. Seu principal avanço está na tecnologia de duplex completa inovadora, excelente compressão de áudio, recursos de diálogo ultra longo e baixa latência revolucionária, que fornece aos desenvolvedores possibilidades ilimitadas.

Um revolucionário modelo de áudio de código aberto, Hertz-Dev, emergiu e chocou desenvolvedores em todo o mundo com seus incríveis indicadores de desempenho. Este monstro de voz da IA com 8,5 bilhões de parâmetros alcançou com sucesso o diálogo em tempo real de duplex completo que os humanos sonham em 20 milhões de horas de treinamento de dados de áudio de alta qualidade.

O mais incrível é o desempenho de latência ultra-baixo de 120 milissegundos, que dobra o modelo público existente, permitindo a experiência de diálogo do computador em um nível totalmente novo. Imagine que, quando você está conversando com a IA, não precisa esperar a outra pessoa terminar de falar e pode interromper naturalmente, assim como uma conversa humana real.

Os principais avanços de Hertz-Dev incluem:

Tecnologia Full-Duplex de Full-Duplex: subverte completamente o modelo de fala rotativo tradicional e realiza a verdadeira comunicação em tempo real bidirecional

Excelente compactação de áudio: ao garantir a alta qualidade do som, reduza significativamente o uso da largura de banda

Capacidade de diálogo extra-longa: entender e gerar facilmente conteúdo contínuo de diálogo

Latência baixa revolucionária: 120 milissegundos de velocidade de resposta, criando uma nova era de interação em tempo real

Como um modelo básico de transformador com foco no áudio, o Hertz-Dev faz pleno uso de dados de diálogo do mundo real durante o treinamento e captura com sucesso características sutis na fala humana, incluindo ritmos naturais de pausa e mudanças de tom emocional ricas.

Para os desenvolvedores, este é um valioso tesouro de código aberto. Eles podem baixar livremente o modelo, ajustá-lo de acordo com os cenários de aplicativos específicos e criar vários aplicativos de voz inovadores. Isso significa que, de robôs de atendimento ao cliente a assistentes de voz, desde aulas educacionais à interação entretenimento, inauguraremos um salto qualitativo.

Endereço do projeto: https://github.com/standard-intelligence/hertz-dev

O recurso de código aberto da Hertz-Dev oferece um enorme potencial de desenvolvimento e será aplicado em mais campos no futuro, trazendo desenvolvedores e usuários uma experiência de interação de voz mais conveniente e mais inteligente. Estamos ansiosos pelo desenvolvimento contínuo de Hertz-Dev no futuro e trazendo mais inovação ao campo da voz da IA.