Downcodes小編獲悉,美國AI新創公司smallest.ai推出全新文字轉語音(TTS)模型Lightning,其速度之快令人驚嘆:只需100毫秒即可產生長達10秒的音訊!這標誌著TTS技術的重大飛躍,將極大降低語音機器人開發和應用的成本,提高可及性,為全球開發者帶來福音。 Lightning支援英語和印地語多種口音,未來還將支援更多語言,並提供極具競爭力的定價:每分鐘僅需0.02美元。
近日,總部位於美國加州舊金山的AI 新創公司smallest.ai 推出了其新產品Lightning,一款能夠在100毫秒內產生長達10秒音訊的文字轉語音(TTS)模型。此項技術的進步,使得全球開發者能夠建構高模擬度的語音機器人應用,且延遲時間極短,降低了實施成本,提高了應用的可及性。
Lightning 目前支援英語和印地語的多種口音,團隊還計劃迅速添加更多語言,以滿足市場需求。這款模型的定價為每分鐘僅需0.02美元(約1.6印度盧比),為語音機器人開發者提供了一種極具成本效益的解決方案,應用的運行成本可控制在每分鐘1盧比以下,大幅降低了語音機器人建置的費用,同時擴大了市場的可及性。
與傳統的TTS 模型依賴串流媒體和網路套接字,增加伺服器負擔和複雜的可擴展性不同,Lightning 透過簡單的REST API 設計,使音訊在大約100毫秒內交付,避免了持續串流媒體帶來的伺服器壓力。這種快速的處理能力和成本效率,使其在語音機器人行業中成為一個顯著的替代方案。
Lightning 的產品功能特色可總結為以下幾點
1. 速度與效率。號稱全球最快的文字轉語音,Lightning 模型在100毫秒內產生10秒的超現實音頻,實現即時語音合成,滿足快速回應需求。
2. 小巧與相容性。小於1GB 的顯存需求,模型體積小,能夠在大多數消費者及邊緣設備上輕鬆運行,降低了硬體需求。
3. 多語言支援。多語言和口音的支持,目前支援英語和印地語多種口音,並計劃快速增加更多語言,滿足全球用戶需求。
4. 高度可客製化。風格擴散器,使用特殊的風格擴散器,根據使用者需求調整音訊風格,使產生的語音更加自然、富有情感。
5. 簡易集成。 REST API 集成,提供簡單的REST API 接口,開發者可快速將閃電模型整合到現有系統中,省去複雜的WebSocket 連接。
6. 親民的定價,起價為每分鐘0.04美元,適合各類企業使用,對於使用量大的企業提供客製化的定價方案。
smallest.ai 由印度理工學院古瓦哈提校友Sudarshan Kamath 和Akshat Mandloi 創立。 Kamath 表示,smallest.ai 的低價策略得益於他們對資料品質和模型效率的關注。 「我們的模型比競爭對手如ElevenLabs 的小得多,但我們透過高度精煉的數據實現了高品質的語音輸出。」他解釋道。
早期獲得Lightning 使用權的語音機器人開發者報告稱,他們的營運成本降低了8倍,同時音訊品質也得到了提升。除了即時的語音機器人應用,Lightning 還可以用於製作有聲書和社群媒體內容的配音,如Instagram 和YouTube 等平台。非開發者也可以透過Waves Speech 平台存取Lightning,體驗包括聲音克隆和口音轉換等功能,這些功能目前處於測試階段。
Kamath 在與《分析印度雜誌》的獨家互動中表示:「當我們開始建造時,我們意識到現有的語音機器人所需模型對於印度語言還不夠成熟。非英語語言的現有模型根本無法達到生產要求。
在今年6月,smallest.ai 也推出了AWAAZ 模型,支援透過短音訊片段進行聲音克隆,且價格具有競爭力。該模型旨在滿足區域語言市場的可擴展應用,並提供企業級的安全性和合規性。當被問及其使命時,Kamath 說:“為什麼十億人並沒有每天與AI 語音進行交流,儘管語音AI 技術取得了巨大的進步?這是我們努力解決的問題。”
專案入口:https://smallest.ai/blog/lightning-fast-text-to-speech
Lightning模型的出現,無疑為語音合成技術樹立了新的標竿。其高效率、低成本以及易於整合的特點,將推動語音機器人應用的普及和創新,為更多開發者和企業帶來新的機會。 Downcodes小編期待未來Lightning能支援更多語言與功能,為全球用戶帶來更便利、更優質的語音體驗。