最近、Hugging Face プラットフォーム上に Kokoro と呼ばれる新しい音声合成モデルがリリースされ、広く注目を集めています。このモデルは、8,200 万個のパラメーターと 100 時間未満のオーディオ データのみを使用して、それ自体よりもはるかに多くのパラメーターを備えたモデルと同等の結果を達成し、TTS 分野で最高のランクにランクされます。その効率的なトレーニング プロセスと便利な使用法により、音声合成の分野で画期的な進歩を遂げています。この記事では、Kokoro モデルのパフォーマンス、トレーニングプロセス、使用法、制限事項について詳しく紹介します。
人工知能の急速な発展の中で、音声合成技術への注目が高まっています。最近、Kokoro という名前の最新の音声合成モデルが Hugging Face プラットフォームで正式にリリースされました。このモデルには 8,200 万のパラメータがあり、音声合成の分野で重要なマイルストーンとなりました。
Kokoro v0.19 は、リリースまでの数週間で TTS (テキスト読み上げ) リーダーボードで 1 位にランクされ、より多くのパラメーターを備えた他のモデルをも上回りました。モノラル設定では、このモデルは 100 時間未満のオーディオ データを使用して、467M パラメーターの XTTS v2 や 1.2B パラメーターの MetaVoice などのモデルと同等の結果を達成しました。この成果は、従来の音声合成モデルのパフォーマンスとパラメータ、計算、およびデータの量との関係が、以前の予想よりも重要である可能性があることを示しています。
使用に関しては、ユーザーは Google Colab で数行のコードを実行するだけで、モデルと音声パッケージをロードし、高品質のオーディオを生成できます。 Kokoro は現在、米国英語と英国英語をサポートしており、ユーザーが選択できる複数の音声パックを提供しています。
Kokoro のトレーニング プロセスは Vast.ai の A10080GB vRAM インスタンスを使用しており、レンタル コストが比較的低いため、効率的なトレーニング プロセスが保証されます。モデル全体は、20 未満のトレーニング エポックと 100 時間未満の音声データを使用してトレーニングされました。 Kokoro モデルは、トレーニングでパブリック ドメインの音声データと他のオープン ライセンスの音声を使用し、データ コンプライアンスを確保します。
Kokoro は音声合成では優れた性能を発揮しますが、トレーニング データとアーキテクチャの制限により、現時点では音声クローン作成をサポートできず、主なトレーニング データは対話ではなく長文の読み上げやナレーションに重点を置いています。
モデル:https://huggingface.co/hexgrad/Kokoro-82M
体験:https://huggingface.co/spaces/hexgrad/Kokoro-TTS
ハイライト:
Kokoro-82M は、8,200 万パラメータを備え、さまざまな音声パッケージをサポートする新たにリリースされた音声合成モデルです。
このモデルは TTS の分野で優れたパフォーマンスを発揮し、かつてはランキングで 1 位にランクされていましたが、トレーニングに使用した音声データは 100 時間未満でした。
Kokoro モデルは、コンプライアンスを確保するためにオープンライセンスのデータを使用してトレーニングされていますが、現時点では機能上の制限がいくつかあります。
全体として、Kokoro モデルは音声合成の分野で素晴らしい可能性を示しており、その効率的なトレーニングと優れたパフォーマンスは注目に値します。現時点ではまだ限界もありますが、テクノロジーの継続的な発展により、将来的にはさらに幅広い応用シーンが広がると考えています。