イスラエルの人工知能スタートアップ aiOla は、OpenAI の Whisper を改良した新しいオープンソース音声認識モデル Whisper-Medusa をリリースしました。Hugging Face の MIT ライセンスに基づいてオープンソース化されており、商用利用が許可されています。この注目のニューモデルをダウンコード編集長が詳しく解説します。
イスラエルの人工知能スタートアップ aiOla は最近大きな動きを見せ、新しいオープンソースの音声認識モデル Whisper-Medusa の立ち上げを発表しました。
このモデルは単純ではありません。OpenAI の有名な Whisper よりも完全に 50% 高速です。Whisper に基づいて構築されていますが、一度にトークンの数を予測するために OpenAI をはるかに超えています。製品。さらに、コードと重みは MIT ライセンスに基づいて Hugging Face で公開されており、研究と商用利用が許可されています。
aiOla の研究担当副社長である Gill Hetz 氏は、オープンソースはコミュニティの革新と協力を促進し、より迅速かつ完全なものにすることができると述べました。この研究により、ユーザーの質問をほぼリアルタイムで理解して答えることができる複雑な人工知能システムへの道が開かれる可能性があります。
基本的なモデルでさまざまなコンテンツを作成できるこの時代においても、高度な音声認識は依然として非常に重要です。たとえば、Whisper はさまざまな言語やアクセントの複雑な音声を処理でき、月間 500 万回以上ダウンロードされ、多くのアプリケーションをサポートしており、音声認識のゴールドスタンダードとなっています。
では、aiOla の Whisper-Medusa の何がそんなに特別なのでしょうか?
同社は Whisper の構造を変更し、一度に 10 個のトークンを予測できるマルチヘッド アテンション メカニズムを追加し、精度に影響を与えることなく速度を 50% 向上させました。このモデルのトレーニングには弱教師機械学習手法が使用されており、将来的にはより強力なバージョンが登場する予定です。さらに、Whisper-Medusa のバックボーンは Whisper 上に構築されているため、パフォーマンスを犠牲にして速度が向上することはありません。
Whisper-Medusa をトレーニングする際、aiOla は弱い監視と呼ばれる機械学習手法を使用しました。この一環として、Whisper の主要コンポーネントを凍結し、モデルによって生成された音声転写をラベルとして使用して追加のトークン予測モジュールをトレーニングしました。
Whisper-Medusa に早期アクセスできる企業はあるかとの質問に対し、Hetz 氏は、実際の企業データの使用例でテストされており、現実世界のシナリオで正確に実行できるため、将来的には音声アプリケーションの応答性が向上すると述べました。最終的には、認識速度と文字起こし速度の向上により、音声アプリケーションの応答時間が短縮され、リアルタイム応答を提供する道が開かれると彼は考えています。
ハイライト:
?50% 高速: aiOla の Whisper-Medusa は、OpenAI の Whisper 音声認識よりも大幅に高速です。
?精度を落とさない:純正モデルと同等の精度を維持しながら速度が向上しました。
幅広いアプリケーションの見通し: 音声アプリケーションにおける応答の高速化、効率の向上、コストの削減が期待されます。
全体として、速度の利点とオープンソースの特性を備えた aiOla の Whisper-Medusa モデルは、音声認識の分野に新たな波を引き起こし、さまざまな音声アプリケーションに大幅なパフォーマンスの向上をもたらすことが期待されています。 Downcodes の編集者は、このモデルのその後の開発とコミュニティの貢献に引き続き注目していきます。