Hertz-dev, model audio percakapan sumber terbuka pertama, mengejutkan seluruh jaringan dengan latensi sangat rendah 120 milidetik

Penulis：Eve Cole Waktu Pembaruan：2024-11-29 13:47:15

Editor Downcodes akan memperkenalkan Anda pada Hertz-dev, model audio open source yang revolusioner! Ia memiliki 8,5 miliar parameter dan dilatih pada 20 juta jam data audio berkualitas tinggi untuk mencapai percakapan real-time full-duplex yang menakjubkan. Latensinya yang sangat rendah, yaitu 120 milidetik, dua kali lipat dari model publik yang ada, menghadirkan pengalaman percakapan yang lancar dan alami seperti komunikasi tatap muka. Terobosan inti Hertz-dev terletak pada terobosan teknologi full-duplex, teknologi kompresi audio yang unggul, kemampuan percakapan ultra-panjang, dan latensi rendah yang revolusioner. Ini akan merevolusi cara kita berinteraksi dengan AI.

Model audio open source yang revolusioner - Hertz-dev lahir, mengejutkan pengembang di seluruh dunia dengan indikator kinerjanya yang luar biasa. Raksasa suara AI dengan 8,5 miliar parameter ini telah berhasil mencapai percakapan real-time dupleks penuh yang diimpikan manusia melalui pelatihan dengan 20 juta jam data audio berkualitas tinggi.

Hal yang paling menakjubkan adalah kinerja latensinya yang sangat rendah yaitu 120 milidetik, yang dua kali lipat dibandingkan model publik yang ada, membawa pengalaman percakapan manusia-mesin ke tingkat yang benar-benar baru. Bayangkan ketika Anda sedang berbicara dengan AI, Anda tidak perlu lagi menunggu lawan bicara selesai berbicara sebelum Anda dapat menyela secara alami, seperti percakapan manusia sungguhan yang mulus dan alami.

Terobosan inti Hertz-dev meliputi:

Terobosan teknologi full-duplex: benar-benar menumbangkan model turn-taking tradisional dan mencapai komunikasi real-time dua arah yang sesungguhnya

Kompresi audio luar biasa: sekaligus memastikan kualitas suara tinggi, mengurangi penggunaan bandwidth secara signifikan

Kemampuan dialog ultra-panjang: Mudah memahami dan menghasilkan konten dialog berkelanjutan

Latensi rendah yang revolusioner: kecepatan respons 120 milidetik, menciptakan era baru interaksi real-time

Sebagai model dasar Transformer yang berfokus pada audio, Hertz-dev memanfaatkan sepenuhnya data dialog dunia nyata selama proses pelatihan dan berhasil menangkap fitur-fitur halus dalam ucapan manusia, termasuk ritme jeda alami dan perubahan intonasi emosional yang kaya.

Bagi pengembang, ini adalah harta open source yang sangat berharga. Mereka dapat dengan bebas mengunduh modelnya, menyempurnakannya sesuai dengan skenario aplikasi tertentu, dan membuat berbagai aplikasi suara inovatif. Artinya, mulai dari robot layanan pelanggan hingga asisten suara, mulai dari pendidikan dan bimbingan hingga interaksi hiburan akan membawa lompatan kualitatif.

Alamat proyek: https://github.com/Standard-Intelligence/hertz-dev

Sumber terbuka Hertz-dev akan mendorong pengembangan teknologi interaksi suara dan memberikan kemungkinan tak terbatas bagi pengembang. Nantikan aplikasi yang lebih inovatif berdasarkan Hertz-dev yang bermunculan!