El primer modelo de código abierto de audio conversacional hertz-dev 120ms latencia ultra baja sorprendente toda la red-artículos de IA

Autor：Eve Cole Fecha de actualización：2025-02-12 19:00:03

Hertz-Dev, un revolucionario modelo de audio de código abierto, ha realizado grandes olas en el campo de la voz de IA con sus 8.5 mil millones de parámetros y 20 millones de horas de datos de audio de alta calidad. Se da cuenta de que el diálogo completo en tiempo real-dúplex, y la latencia ultra baja de 120 milisegundos es un gran avance, mejorando la interacción humana-computadora a un nivel de suavidad y naturaleza sin precedentes, cambiando por completo la experiencia interactiva de modelos de voz anteriores. Su avance central radica en la tecnología Full-Duplex, excelente compresión de audio, capacidades de diálogo ultra largo y baja latencia revolucionaria, que brinda a los desarrolladores posibilidades ilimitadas.

Una revolucionaria modelo de audio de código abierto, Hertz-Dev, emergió y sorprendió a los desarrolladores de todo el mundo con sus sorprendentes indicadores de rendimiento. Este monstruo de voz de IA con 8.5 mil millones de parámetros ha logrado con éxito el diálogo en tiempo real Full-Duplex con el que los humanos sueñan a través de 20 millones de horas de entrenamiento de datos de audio de alta calidad.

Lo más sorprendente es su rendimiento de latencia ultra bajo de 120 milisegundos, que duplica el modelo público existente, lo que permite que la experiencia de diálogo informático se vea a un nivel completamente nuevo. Imagine que cuando está hablando con IA, no tiene que esperar a que la otra persona termine de hablar y puede interrumpir naturalmente, al igual que una conversación humana real.

Los avances principales de Hertz-Dev incluyen:

Tecnología full-duplex innovadora: subvierte completamente el modelo de habla giratoria tradicional y realiza una verdadera comunicación en tiempo real en tiempo real

Excelente compresión de audio: aunque garantiza una alta calidad de sonido, reduzca significativamente el uso de ancho de banda

Capacidad de diálogo extra largo: comprender y generar fácilmente contenido de diálogo continuo

Latencia revolucionaria: velocidad de respuesta de 120 milisegundos, creando una nueva era de interacción en tiempo real

Como un modelo de transformador básico que se centra en el audio, Hertz-Dev hace un uso completo de los datos del diálogo del mundo real durante la capacitación y captura con éxito características sutiles en el habla humana, incluidos los ritmos de pausa natural y los ricos cambios de tono emocional.

Para los desarrolladores, este es un valioso tesoro de código abierto. Pueden descargar libremente el modelo, ajustarlo de acuerdo con los escenarios de aplicaciones específicos y crear varias aplicaciones de voz innovadoras. Esto significa que, desde los robots de servicio al cliente hasta los asistentes de voz, desde la tutoría educativa hasta la interacción del entretenimiento, marcaremos un salto cualitativo.

Dirección del proyecto: https://github.com/standard-intelligence/hertz-dev

La característica de código abierto de Hertz-Dev le brinda un gran potencial de desarrollo y se aplicará en más campos en el futuro, lo que brinda a los desarrolladores y usuarios una experiencia de interacción de voz más conveniente e inteligente. Esperamos con ansias el desarrollo continuo de Hertz-Dev en el futuro y aportando más innovación al campo de la voz de IA.