Downcodes の編集者は、アメリカの AI スタートアップ smallest.ai が新しいテキスト読み上げ (TTS) モデル Lightning を発表したことを知りました。その速度は驚くべきもので、最大 10 秒の音声を生成するのにわずか 100 ミリ秒しかかかりません。これは TTS テクノロジーの大きな進歩を意味し、音声ロボットの開発とアプリケーションのコストを大幅に削減し、アクセシビリティを向上させ、世界中の開発者に朗報をもたらします。 Lightning は英語とヒンディー語の複数のアクセントをサポートしており、将来的にはさらに多くの言語をサポートする予定で、1 分あたりわずか 0.02 ドルという非常に競争力のある価格設定を提供します。
最近、カリフォルニア州サンフランシスコに本社を置く AI スタートアップの smallest.ai は、100 ミリ秒で最大 10 秒の音声を生成できるテキスト読み上げ (TTS) モデルである新製品 Lightning を発売しました。このテクノロジーの進歩により、世界中の開発者は非常に短い遅延で非常にリアルな音声ロボット アプリケーションを構築できるようになり、実装コストが削減され、アプリケーションのアクセシビリティが向上します。
Lightning は現在、英語とヒンディー語の複数のアクセントをサポートしており、チームは市場の需要に応えるためにさらに多くの言語を迅速に追加する予定です。このモデルの価格は 1 分あたりわずか 0.02 米ドル (約 1.6 インドルピー) で、音声ボット開発者に非常にコスト効率の高いソリューションを提供し、アプリケーションのランニング コストは 1 分あたり 1 インドルピー未満に制御されます。構築コストが削減されます。市場へのアクセスを拡大しながら音声ロボットを開発します。
サーバーの負荷が増大し、スケーラビリティが複雑になるストリーミング メディアとネットワーク ソケットに依存する従来の TTS モデルとは異なり、Lightning はシンプルな REST API 設計を使用して、約 100 ミリ秒で音声を配信し、継続的なストリーミング サーバーの負荷によって引き起こされる問題を回避します。この高速処理能力とコスト効率により、音声ロボット業界における重要な代替品となります。
Lightning の製品機能は次のように要約できます。
1. スピードと効率。世界最速のテキスト読み上げとして知られる Lightning モデルは、100 ミリ秒で 10 秒の超リアルなオーディオを生成し、迅速な応答のニーズを満たすリアルタイム音声合成を実現します。
2. コンパクトさと互換性。必要なビデオ メモリが 1 GB 未満のこのモデルは小型で、ほとんどのコンシューマー デバイスやエッジ デバイスで簡単に実行できるため、ハードウェア要件が軽減されます。
3. 多言語サポート。多言語とアクセントのサポート。現在、英語とヒンディー語の複数のアクセントをサポートしていますが、世界中のユーザーのニーズを満たすためにさらに多くの言語を迅速に追加する予定です。
4. 高度にカスタマイズ可能。スタイル ディフューザーは、特別なスタイル ディフューザーを使用してユーザーのニーズに応じてオーディオ スタイルを調整し、生成された音声をより自然で感情的なものにします。
5. 簡単な統合。 REST API 統合により、シンプルな REST API インターフェイスが提供されるため、開発者は Lightning モデルを既存のシステムに迅速に統合でき、複雑な WebSocket 接続の必要がなくなります。
6. あらゆるタイプの企業に適した 1 分あたり 0.04 米ドルからの手頃な料金設定と、使用量が多い企業向けにカスタマイズされた料金プランが提供されます。
smallest.ai は、IIT グワーハーティー卒業生の Sudarshan Kamith 氏と Akshat Mandloi 氏によって設立されました。カマス氏は、smallest.ai の低価格戦略は、データの品質とモデルの効率性への焦点によって推進されていると述べました。 「私たちのモデルは、イレブンラボなどの競合他社よりもはるかに小さいですが、高度に洗練されたデータを通じて高品質の音声出力を実現しています」と彼は説明しました。
Lightning への早期アクセスを獲得した音声ボット開発者は、音声品質を向上させながら運用コストを 8 分の 1 に削減したと報告しています。リアルタイムの音声ボット アプリケーションに加えて、Lightning は、Instagram や YouTube などのプラットフォーム上のオーディオブックやソーシャル メディア コンテンツのナレーションを作成するためにも使用できます。開発者以外も、Waves Speech プラットフォームを通じて Lightning にアクセスし、現在ベータ版の音声クローンやアクセント変換などの機能を体験することができます。
Analytical India Magazine との独占的なやりとりの中で、カマス氏は次のように述べています。「構築を開始したとき、音声ボットに必要な既存のモデルがインドの言語に対して十分に成熟していないことに気づきました。英語以外の言語に対する既存のモデルは単に対応できていませんでした」生産が必要です。」
今年 6 月、smallest.ai は、競争力のある価格で短いオーディオ クリップによる音声クローン作成をサポートする AWAAZ モデルも発売しました。このモデルは、地域の言語市場におけるスケーラブルなアプリケーションに対応し、エンタープライズ グレードのセキュリティとコンプライアンスを提供するように設計されています。その使命について尋ねられたカマス氏は、「音声AI技術が大きく進歩しているにもかかわらず、なぜ10億人が日常的にAI音声でコミュニケーションをとらないのか?これが私たちが解決しようとしている問題だ」と語った。
プロジェクトの入り口: https://smallest.ai/blog/lightning-fast-text-to-speech
Lightning モデルの登場は、間違いなく音声合成テクノロジーの新たなベンチマークを設定します。その高効率、低コスト、簡単な統合により、音声ロボット アプリケーションの人気と革新が促進され、より多くの開発者や企業に新たな機会がもたらされます。 Downcodes の編集者は、Lightning が将来的により多くの言語と機能をサポートし、世界中のユーザーにさらに便利で優れた音声体験をもたらすことを期待しています。