Le premier modèle open source de la latence ultra-lobe de la conversation de conversation Hertz-Dev 120 ms incroyable tout le réseau - AI Articles

Auteur：Eve Cole Date de mise à jour：2025-02-12 19:00:03

Hertz-Dev, un modèle audio open source révolutionnaire, a fait d'énormes vagues dans le domaine de la voix de l'IA avec ses 8,5 milliards de paramètres et 20 millions d'heures de données audio de haute qualité. Il réalise le dialogue en temps réel complet, et la latence ultra-faible de 120 millisecondes est une percée, améliorant l'interaction humaine-ordinateur à un niveau sans précédent de douceur et de nature, modifiant complètement l'expérience interactive des modèles vocaux précédents. Sa percée principale réside dans la technologie percée complète du duplex, une excellente compression audio, des capacités de dialogue ultra-longs et une faible latence révolutionnaire, qui offre aux développeurs des possibilités illimitées.

Un modèle audio open source révolutionnaire, Hertz-DEV, a émergé et a choqué les développeurs du monde entier avec ses incroyables indicateurs de performance. Ce monstre vocal AI avec 8,5 milliards de paramètres a réussi le dialogue complet en temps réel que les humains rêvent à travers 20 millions d'heures de formation de données audio de haute qualité.

La chose la plus étonnante est que ses performances de latence ultra-faible de 120 millisecondes, ce qui double le modèle public existant, permettant à l'expérience du dialogue informatique à un tout nouveau niveau. Imaginez que lorsque vous parlez à l'IA, vous n'avez pas à attendre que l'autre personne finisse de parler et que vous pouvez interrompre naturellement, tout comme une vraie conversation humaine.

Les percées principales de Hertz-DEV incluent:

Breakthrough Full-Duplex Technology: subvertit complètement le modèle de discours rotatif traditionnel et réalise la vraie communication en temps réel bidirectionnel

Excellente compression audio: tout en garantissant une qualité sonore élevée, réduisez considérablement l'utilisation de la bande passante

Capacité de dialogue extra-longue: comprendre et générer facilement un contenu de dialogue continu

La latence révolutionnaire faible: 120 millisecondes vitesse de réponse, créant une nouvelle ère d'interaction en temps réel

En tant que modèle de transformateur de base se concentrant sur l'audio, Hertz-DEV utilise pleinement les données de dialogue du monde réel pendant la formation et capture avec succès des caractéristiques subtiles dans la parole humaine, y compris les rythmes de pause naturels et les riches changements de ton émotionnel.

Pour les développeurs, il s'agit d'un précieux trésor open source. Ils peuvent télécharger librement le modèle, les affiner en fonction des scénarios d'application spécifiques et créer diverses applications vocales innovantes. Cela signifie que des robots du service client aux assistants vocaux, du tutorat pédagogique à l'interaction de divertissement, nous allons inaugurer un saut qualitatif.

Adresse du projet: https://github.com/standard-intelligence/hertz-dev

La fonctionnalité open source de Hertz-DEV lui donne un énorme potentiel de développement et sera appliqué dans plus de domaines à l'avenir, offrant aux développeurs et aux utilisateurs une expérience d'interaction vocale plus pratique et plus intelligente. Nous attendons avec impatience le développement continu de Hertz-DEV à l'avenir et apportant plus d'innovation sur le terrain de la voix de l'IA.