会話型オーディオHERTZ-DEV 120MS ULTRA-LOW LATENCYの最初のオープンソースモデル驚くべきネットワーク全体-AI記事

著者：Eve Cole 更新時間：2025-02-12 19:00:03

革新的なオープンソースのオーディオモデルであるHertz-Devは、85億パラメーターと2000万時間の高品質のオーディオデータを備えたAI音声の分野で大きな波を起こしました。フルダプレックスのリアルタイムダイアログを実現し、120ミリ秒の超低レイテンシはブレークスルーであり、人間コンピューターの相互作用を前例のないレベルの滑らかさと性質に改善し、以前の音声モデルのインタラクティブなエクスペリエンスを完全に変えます。その中心的なブレークスルーは、ブレークスルーフルダプレックステクノロジー、優れたオーディオ圧縮、超長いダイアログ機能、および革新的な低レイテンシにあり、開発者に無制限の可能性を提供します。

革新的なオープンソースオーディオモデルであるHertz-Devは、驚くべきパフォーマンスインジケーターで世界中の開発者に現れて衝撃を与えました。 85億パラメーターを備えたこのAI Voice Monsterは、人間が2,000万時間の高品質のオーディオデータトレーニングを夢見ているフルダプレックスのリアルタイムの対話を成功裏に達成しました。

最も驚くべきことは、120ミリ秒の超低レイテンシパフォーマンスであり、既存のパブリックモデルを2倍にし、コンピューターの対話エクスペリエンスをまったく新しいレベルにすることです。 AIと話をしているとき、他の人が話すのを待つ必要はなく、本当の人間の会話のように自然に中断できると想像してください。

Hertz-Devのコアブレークスルーは次のとおりです。

ブレークスルーフルダプレックステクノロジー：従来の回転音声モデルを完全に破壊し、真の双方向リアルタイムコミュニケーションを実現します

優れたオーディオ圧縮：音質が高いことを保証しながら、帯域幅の使用量を大幅に削減します

長い対話能力：継続的な対話コンテンツを簡単に理解して生成する

革新的な低遅延：120ミリ秒の応答速度、リアルタイムの相互作用の新しい時代の作成

Hertz-Devは、オーディオに焦点を当てた基本的な変圧器モデルとして、トレーニング中に実際の対話データを完全に使用し、自然な一時停止リズムや豊かな感情的なトーンの変化など、人間のスピーチの微妙な特徴をうまくキャプチャします。

開発者にとって、これは貴重なオープンソースの宝物です。モデルを自由にダウンロードし、特定のアプリケーションシナリオに従って微調整し、さまざまな革新的な音声アプリケーションを作成できます。これは、カスタマーサービスロボットから音声アシスタントまで、教育の個別指導からエンターテイメントの相互作用まで、定性的な飛躍を導くことを意味します。

プロジェクトアドレス：https：//github.com/standard-intelligence/hertz-dev

Hertz-Devのオープンソース機能は、大きな開発の可能性を提供し、将来より多くの分野で適用され、開発者とユーザーがより便利でよりスマートな音声相互作用体験をもたらします。将来のHertz-Devの継続的な発展と、AIの声の分野により多くの革新をもたらすことを楽しみにしています。