Hertz-dev, el primer modelo de audio conversacional de código abierto, sorprende a toda la red con una latencia ultrabaja de 120 milisegundos

Autor：Eve Cole Fecha de actualización：2024-11-29 13:47:15

¡El editor de Downcodes le presentará Hertz-dev, un revolucionario modelo de audio de código abierto! Tiene 8.500 millones de parámetros y está entrenado en 20 millones de horas de datos de audio de alta calidad para lograr impresionantes conversaciones full-duplex en tiempo real. Su latencia ultrabaja de 120 milisegundos es el doble que la de los modelos públicos existentes, lo que brinda una experiencia de conversación fluida y natural, como la comunicación cara a cara. El principal avance de Hertz-dev radica en su innovadora tecnología full-duplex, excelente tecnología de compresión de audio, capacidades de conversación ultralarga y revolucionaria baja latencia. Esto revolucionará la forma en que interactuamos con la IA.

Nació un revolucionario modelo de audio de código abierto: Hertz-dev, que sorprendió a los desarrolladores de todo el mundo con sus asombrosos indicadores de rendimiento. Este gigante de voz de IA con 8,5 mil millones de parámetros ha logrado con éxito la conversación en tiempo real full-duplex con la que sueñan los humanos a través del entrenamiento con 20 millones de horas de datos de audio de alta calidad.

Lo más sorprendente es su rendimiento de latencia ultrabaja de 120 milisegundos, que se duplica por completo en comparación con el modelo público existente, llevando la experiencia de conversación entre humanos y máquinas a un nivel completamente nuevo. Imagina que cuando estás hablando con una IA, ya no tienes que esperar a que la otra persona termine de hablar para poder interrumpirla de forma natural, como si fuera una conversación humana real, tan fluida y natural.

Los principales avances de Hertz-dev incluyen:

Tecnología innovadora full-duplex: subvirtiendo por completo el modelo tradicional de turnos y logrando una verdadera comunicación bidireccional en tiempo real.

Excelente compresión de audio: al mismo tiempo que garantiza una alta calidad de sonido, reduce significativamente el uso de ancho de banda

Capacidad de diálogo ultralargo: comprenda y genere fácilmente contenido de diálogo continuo

Baja latencia revolucionaria: velocidad de respuesta de 120 milisegundos, creando una nueva era de interacción en tiempo real

Como modelo básico de Transformer centrado en audio, Hertz-dev hace un uso completo de los datos de diálogo del mundo real durante el proceso de entrenamiento y captura con éxito características sutiles en el habla humana, incluidos ritmos de pausa naturales y ricos cambios de entonación emocional.

Para los desarrolladores, este es un tesoro de código abierto extremadamente valioso. Pueden descargar libremente el modelo, ajustarlo según escenarios de aplicación específicos y crear varias aplicaciones de voz innovadoras. Esto significa que todo, desde los robots de atención al cliente hasta los asistentes de voz, desde la educación y la orientación hasta la interacción de entretenimiento, marcará el comienzo de un salto cualitativo.

Dirección del proyecto: https://github.com/Standard-Intelligence/hertz-dev

El código abierto de Hertz-dev promoverá el desarrollo de la tecnología de interacción de voz y brindará posibilidades ilimitadas a los desarrolladores. ¡Esperamos que surjan más aplicaciones innovadoras basadas en Hertz-dev!