アメリカのAIスタートアップであるSmallest.aiは、最新の製品であるLightningをリリースしました。これは、驚くべき速度でテキストツーチック(TTS)モデルです。 Lightningは、100ミリ秒で最大10秒のオーディオを生成し、英語とヒンディー語で複数のアクセントをサポートし、より多くの言語をサポートする予定です。低コスト(1分あたり0.02ドル)とシンプルなREST APIデザインにより、音声ロボット開発者に最適であり、開発と運用コストを大幅に削減し、音声合成の効率とアプリケーションへのアクセスを改善します。この記事では、さまざまな機能特性、市場のポジショニング、および最小の企業ビジョンを詳細に分析します。
最近、カリフォルニア州サンフランシスコに拠点を置くAIスタートアップであるSmallest.AIは、100ミリ秒で最大10秒のオーディオを生成できるテキストツースピーチ(TTS)モデルである新製品Lightningを立ち上げました。このテクノロジーの進歩により、世界中の開発者は非常に短い遅延時間を備えた高度にシミュレートされた音声ロボットアプリケーションを構築し、実装コストを削減し、アプリケーションのアクセシビリティを改善することができました。
Lightningは現在、英語とヒンディー語の複数のアクセントをサポートしており、チームは市場の需要を満たすために、より多くの言語を迅速に追加することも計画しています。わずか1分あたり0.02米ドル(約1.6)での価格設定このモデルは、音声ロボット開発者に費用対効果の高いソリューションを提供し、アプリケーションのランニングコストは1分あたり1未満で制御され、音声ロボットの構築コストを大幅に削減し、市場のアクセシビリティを拡大します。
ストリーミングおよびネットワークソケットに依存してサーバーの負担と複雑なスケーラビリティを向上させる従来のTTSモデルとは異なり、稲妻は約100ミリ秒でオーディオを配信できるようにします。この速い処理能力とコスト効率により、音声ロボット業界で重要な代替手段になります。
Lightningの製品機能は、次のように要約できます
1。速度と効率。世界最速のテキストからスピーチとして知られるLightningモデルは、100ミリ秒、リアルタイム音声合成で10秒のシュールオーディオを生成し、迅速な対応のニーズを満たしています。
2。小さく互換性。 1GB未満のビデオメモリ要件により、モデルのサイズは小さく、ほとんどの消費者やエッジデバイスで簡単に実行できるため、ハードウェアの要件が削減されます。
3。多言語サポート。現在、英語とヒンディー語の複数のアクセントをサポートしている多言語とアクセントのサポートをサポートしており、世界中のユーザーのニーズを満たすために、より多くの言語を追加する予定です。
4.高度にカスタマイズ可能。特別なスタイルのディフューザーを使用したスタイルディフューザーは、ユーザーのニーズに応じてオーディオスタイルを調整し、生成された音声をより自然で感情的にします。
5。簡単な統合。 REST API統合は、シンプルなREST APIインターフェイスを提供します。この場合、開発者はLightningモデルを既存のシステムにすばやく統合し、複雑なWebSocket接続を排除できます。
6.手頃な価格は、1分あたり0.04米ドルから始まります。これは、あらゆるタイプの企業に適しています。
Small.AIは、インド工科大学グワハティの卒業生であるスダルシャン・カマスとアクシャット・マンドロイによって設立されました。 Kamath氏によると、Aiの低価格戦略は、データの品質とモデルの効率に焦点を当てているためです。 「私たちのモデルは、イレブンラブのような競合他社よりもはるかに小さくなっていますが、高度に洗練されたデータを使用して高品質の音声出力を達成しています」と彼は説明します。
Lightningに早期にアクセスできる音声ロボット開発者は、操作コストが8倍削減されたが、オーディオの品質が向上したと報告しました。リアルタイムの音声ロボットアプリに加えて、Lightningを使用して、InstagramやYouTubeなどのプラットフォームなどのオーディオブックやソーシャルメディアコンテンツのナレーションを作成することもできます。開発者以外は、波の音声プラットフォームを介して稲妻にアクセスして、現在ベータ版にあるサウンドクローンやアクセント変換などの機能を体験することもできます。
Kamathは、Journal of Analytics Indiaとの排他的なやり取りで次のように述べています生産。」
今年6月、Smallest.AIはAWAAZモデルも立ち上げました。AWAAZモデルは、短いオーディオクリップを介したサウンドクローニングをサポートし、競争力のある価格で価格設定されています。このモデルは、地域言語市場のスケーラブルなアプリケーションを満たし、エンタープライズレベルのセキュリティとコンプライアンスを提供するように設計されています。その使命について尋ねられて、カマスは次のように述べています。
プロジェクトの入り口:https://smallest.ai/blog/lightning-fast-text-topeech
キーポイント:
Lightning Text-to-Speechモデルは、100ミリ秒でオーディオを生成し、英語とヒンディー語で複数のアクセントをサポートし、将来より多くの言語を拡大します。
1分あたりわずか0.02ドルのコストで、音声ロボット開発者の運用コストが大幅に削減されます。
Lightningは、音声ロボットだけでなく、オーディオブックやソーシャルメディアの吹き替えにも適しているため、開発者や開発者が簡単に使用できます。
要するに、最小の稲妻モデルは、速度、効率、低コスト、使いやすさで音声統合の分野に革命をもたらすと予想され、グローバルな開発者とユーザーがより便利で経済的な音声AIサービスを提供します。 音声AIテクノロジーの包括性を解決するというビジョンも注目に値します。