Model open source pertama dari audio percakapan Hertz-dev 120ms ultra-rendah latensi menakjubkan seluruh jaringan-artikel AI

Penulis：Eve Cole Waktu Pembaruan：2025-02-12 19:00:03

Hertz-Dev, model audio open source revolusioner, telah membuat gelombang besar di bidang suara AI dengan 8,5 miliar parameter dan 20 juta jam data audio berkualitas tinggi. Ini mewujudkan dialog real-time dupleks penuh, dan latensi yang sangat rendah dari 120 milidetik adalah terobosan, meningkatkan interaksi komputer manusia ke tingkat kehalusan dan sifat yang belum pernah terjadi sebelumnya, sepenuhnya mengubah pengalaman interaktif dari model suara sebelumnya. Terobosan intinya terletak pada teknologi dupleks penuh terobosan, kompresi audio yang sangat baik, kemampuan dialog ultra-panjang, dan latensi rendah revolusioner, yang memberi pengembang kemungkinan tak terbatas.

Model audio open source revolusioner, Hertz-Dev, muncul dan terkejut pengembang di seluruh dunia dengan indikator kinerjanya yang luar biasa. Monster suara AI ini dengan 8,5 miliar parameter telah berhasil mencapai dialog real-time dupleks penuh yang diimpikan manusia melalui 20 juta jam pelatihan data audio berkualitas tinggi.

Yang paling menakjubkan adalah kinerja latensi yang sangat rendah dari 120 milidetik, yang menggandakan model publik yang ada, yang memungkinkan pengalaman dialog komputer ke tingkat yang sama sekali baru. Bayangkan bahwa ketika Anda berbicara dengan AI, Anda tidak perlu menunggu orang lain untuk selesai berbicara dan Anda dapat mengganggu secara alami, seperti percakapan manusia yang nyata.

Terobosan inti Hertz-Dev meliputi:

Breakthrough Full-Duplex Technology: Sepenuhnya merongrong model bicara berputar tradisional dan mewujudkan komunikasi dua arah yang benar

Kompresi audio yang sangat baik: sambil memastikan kualitas suara yang tinggi, secara signifikan mengurangi penggunaan bandwidth

Kemampuan Dialog Lama Lama: Mudah Memahami dan Menghasilkan Konten Dialog Berkelanjutan

Latensi rendah revolusioner: kecepatan respons 120 milidetik, menciptakan era baru interaksi real-time

Sebagai model transformator dasar yang berfokus pada audio, Hertz-dev memanfaatkan sepenuhnya data dialog dunia nyata selama pelatihan dan berhasil menangkap fitur halus dalam pidato manusia, termasuk ritme jeda alami dan perubahan nada emosional yang kaya.

Untuk pengembang, ini adalah harta karun open source yang berharga. Mereka dapat dengan bebas mengunduh model, menyempurnakannya sesuai dengan skenario aplikasi spesifik, dan membuat berbagai aplikasi suara yang inovatif. Ini berarti bahwa dari robot layanan pelanggan hingga asisten suara, dari bimbingan pendidikan hingga interaksi hiburan, kami akan mengantarkan lompatan kualitatif.

Alamat proyek: https://github.com/standard-intelligence/hertz-dev

Fitur open source Hertz-Dev memberikan potensi pengembangan yang sangat besar dan akan diterapkan di lebih banyak bidang di masa depan, membawa pengembang dan pengguna pengalaman interaksi suara yang lebih nyaman dan lebih pintar. Kami menantikan pengembangan berkelanjutan Hertz-Dev di masa depan dan membawa lebih banyak inovasi ke bidang suara AI.