美國AI初創公司smallest.ai發布了其最新產品Lightning,一款速度驚人的文本轉語音(TTS)模型。 Lightning能在100毫秒內生成長達10秒的音頻,支持英語和印地語多種口音,併計劃支持更多語言。其低廉的成本(每分鐘僅需0.02美元)和簡單的REST API設計,使其成為語音機器人開發者的理想選擇,極大降低了開發和運行成本,並提升了語音合成效率和應用的可及性。本文將詳細分析Lightning的各項功能特性、市場定位以及smallest.ai的企業願景。
近日,總部位於美國加州舊金山的AI 初創公司smallest.ai 推出了其新產品Lightning,一款能夠在100毫秒內生成長達10秒音頻的文本轉語音(TTS)模型。此項技術的進步,使得全球開發者能夠構建高仿真度的語音機器人應用,且延遲時間極短,降低了實施成本,提高了應用的可及性。
Lightning 目前支持英語和印地語的多種口音,團隊還計劃迅速添加更多語言,以滿足市場需求。這款模型的定價為每分鐘僅需0.02美元(約1.6印度盧比),為語音機器人開發者提供了一種極具成本效益的解決方案,應用的運行成本可控制在每分鐘1盧比以下,大幅降低了語音機器人構建的費用,同時擴大了市場的可達性。
與傳統的TTS 模型依賴流媒體和網絡套接字,增加服務器負擔和復雜的可擴展性不同,Lightning 通過簡單的REST API 設計,使音頻在大約100毫秒內交付,避免了持續流媒體帶來的服務器壓力。這種快速的處理能力和成本效率,使其在語音機器人行業中成為一個顯著的替代選擇。
Lightning 的產品功能特色可總結為以下幾點
1. 速度與效率。號稱全球最快的文本轉語音,Lightning 模型在100毫秒內生成10秒的超現實音頻,實現實時語音合成,滿足快速響應需求。
2. 小巧與兼容性。小於1GB 的顯存需求,該模型體積小,能夠在大多數消費者及邊緣設備上輕鬆運行,降低了硬件要求。
3. 多語言支持。多語言和口音的支持,當前支持英語和印地語多種口音,併計劃快速增加更多語言,滿足全球用戶需求。
4. 高度可定制化。風格擴散器,使用特殊的風格擴散器,根據用戶需求調整音頻風格,使生成的語音更加自然、富有情感。
5. 簡易集成。 REST API 集成,提供簡單的REST API 接口,開發者可快速將閃電模型集成到現有系統中,省去複雜的WebSocket 連接。
6. 親民的定價,起價為每分鐘0.04美元,適合各類企業使用,對於使用量大的企業提供定制化的定價方案。
smallest.ai 由印度理工學院古瓦哈提校友Sudarshan Kamath 和Akshat Mandloi 創立。 Kamath 表示,smallest.ai 的低價策略得益於他們對數據質量和模型效率的關注。 “我們的模型比競爭對手如ElevenLabs 的小得多,但我們通過高度精煉的數據實現了高質量的語音輸出。” 他解釋道。
早期獲得Lightning 使用權的語音機器人開發者報告稱,他們的運營成本降低了8倍,同時音頻質量得到了提升。除了實時的語音機器人應用,Lightning 還可以用於製作有聲書和社交媒體內容的配音,如Instagram 和YouTube 等平台。非開發者也可以通過Waves Speech 平台訪問Lightning,體驗包括聲音克隆和口音轉換等功能,這些功能目前處於測試階段。
Kamath 在與《分析印度雜誌》的獨家互動中表示:“當我們開始構建時,我們意識到現有的語音機器人所需模型對於印度語言還不夠成熟。非英語語言的現有模型根本無法達到生產要求。”
在今年6月,smallest.ai 還推出了AWAAZ 模型,支持通過短音頻片段進行聲音克隆,且價格具有競爭力。該模型旨在滿足區域語言市場的可擴展應用,並提供企業級的安全性和合規性。當被問及其使命時,Kamath 說:“為什麼十億人並沒有每天與AI 語音進行交流,儘管語音AI 技術取得了巨大的進步?這是我們努力解決的問題。”
項目入口:https://smallest.ai/blog/lightning-fast-text-to-speech
劃重點:
Lightning 文本轉語音模型可在100毫秒內生成音頻,支持英語和印地語多種口音,未來將擴展更多語言。
以每分鐘僅需0.02美元的低成本,顯著降低語音機器人開發者的運營費用。
Lightning 不僅適用於語音機器人,還可用於有聲書和社交媒體配音,方便開發者和非開發者使用。
總而言之,smallest.ai 的Lightning 模型憑藉其速度、效率、低成本和易用性,有望在語音合成領域掀起一場革命,為全球開發者和用戶提供更便捷、更經濟的語音AI 服務。 其致力於解決語音AI技術普惠性問題的願景也值得關注。