Hertz-dev, le premier modèle audio conversationnel open source, étourdit l'ensemble du réseau avec une latence ultra-faible de 120 millisecondes

Auteur：Eve Cole Date de mise à jour：2024-11-29 13:47:15

L'éditeur de Downcodes vous fera découvrir Hertz-dev, un modèle audio open source révolutionnaire ! Il possède 8,5 milliards de paramètres et s'appuie sur 20 millions d'heures de données audio de haute qualité pour réaliser de superbes conversations en temps réel en duplex intégral. Sa latence ultra-faible de 120 millisecondes est deux fois supérieure à celle des modèles publics existants, offrant une expérience de conversation fluide et naturelle comme la communication en face à face. La principale avancée de Hertz-dev réside dans sa technologie révolutionnaire full-duplex, son excellente technologie de compression audio, ses capacités de conversation ultra-longues et sa faible latence révolutionnaire. Cela révolutionnera la façon dont nous interagissons avec l’IA.

Un modèle audio open source révolutionnaire - Hertz-dev est né, choquant les développeurs du monde entier avec ses indicateurs de performances étonnants. Ce géant de la voix IA avec 8,5 milliards de paramètres a réussi à réaliser la conversation en temps réel en duplex intégral dont les humains rêvent grâce à un entraînement avec 20 millions d'heures de données audio de haute qualité.

La chose la plus étonnante est sa performance de latence ultra-faible de 120 millisecondes, qui est entièrement doublée par rapport au modèle public existant, portant l'expérience de conversation homme-machine à un tout autre niveau. Imaginez que lorsque vous parlez à une IA, vous n'avez plus besoin d'attendre que l'autre personne ait fini de parler avant de pouvoir l'interrompre naturellement, tout comme une véritable conversation humaine aussi fluide et naturelle.

Les principales avancées de Hertz-dev comprennent :

Technologie full-duplex révolutionnaire : renversant complètement le modèle traditionnel de prise de tour et réalisant une véritable communication bidirectionnelle en temps réel

Excellente compression audio : tout en garantissant une qualité sonore élevée, réduisant considérablement l'utilisation de la bande passante

Capacité de dialogue ultra-longue : comprenez et générez facilement du contenu de dialogue continu

Faible latence révolutionnaire : vitesse de réponse de 120 millisecondes, créant une nouvelle ère d'interaction en temps réel

En tant que modèle de base de Transformer axé sur l'audio, Hertz-dev exploite pleinement les données de dialogue du monde réel pendant le processus de formation et capture avec succès les caractéristiques subtiles de la parole humaine, notamment les rythmes de pause naturels et les riches changements d'intonation émotionnelle.

Pour les développeurs, il s’agit d’un trésor open source extrêmement précieux. Ils peuvent télécharger librement le modèle, l'affiner en fonction de scénarios d'application spécifiques et créer diverses applications vocales innovantes. Cela signifie que tout, des robots de service client aux assistants vocaux, de l'éducation et de l'orientation aux interactions de divertissement, marquera le début d'un saut qualitatif.

Adresse du projet : https://github.com/Standard-Intelligence/hertz-dev

L'open source de Hertz-dev favorisera le développement de la technologie d'interaction vocale et offrira des possibilités illimitées aux développeurs. Attendez-vous à l’émergence d’applications plus innovantes basées sur Hertz-dev !