超快速文字轉語音模型Lightning：超低延遲， 100毫秒產生10秒音訊

作者：Eve Cole 更新時間：2024-11-29 14:41:01

Downcodes小編獲悉，美國AI新創公司smallest.ai推出全新文字轉語音(TTS)模型Lightning，其速度之快令人驚嘆：只需100毫秒即可產生長達10秒的音訊！這標誌著TTS技術的重大飛躍，將極大降低語音機器人開發和應用的成本，提高可及性，為全球開發者帶來福音。 Lightning支援英語和印地語多種口音，未來還將支援更多語言，並提供極具競爭力的定價：每分鐘僅需0.02美元。

近日，總部位於美國加州舊金山的AI 新創公司smallest.ai 推出了其新產品Lightning，一款能夠在100毫秒內產生長達10秒音訊的文字轉語音（TTS）模型。此項技術的進步，使得全球開發者能夠建構高模擬度的語音機器人應用，且延遲時間極短，降低了實施成本，提高了應用的可及性。

Lightning 目前支援英語和印地語的多種口音，團隊還計劃迅速添加更多語言，以滿足市場需求。這款模型的定價為每分鐘僅需0.02美元（約1.6印度盧比），為語音機器人開發者提供了一種極具成本效益的解決方案，應用的運行成本可控制在每分鐘1盧比以下，大幅降低了語音機器人建置的費用，同時擴大了市場的可及性。

與傳統的TTS 模型依賴串流媒體和網路套接字，增加伺服器負擔和複雜的可擴展性不同，Lightning 透過簡單的REST API 設計，使音訊在大約100毫秒內交付，避免了持續串流媒體帶來的伺服器壓力。這種快速的處理能力和成本效率，使其在語音機器人行業中成為一個顯著的替代方案。

Lightning 的產品功能特色可總結為以下幾點

1. 速度與效率。號稱全球最快的文字轉語音，Lightning 模型在100毫秒內產生10秒的超現實音頻，實現即時語音合成，滿足快速回應需求。

2. 小巧與相容性。小於1GB 的顯存需求，模型體積小，能夠在大多數消費者及邊緣設備上輕鬆運行，降低了硬體需求。

3. 多語言支援。多語言和口音的支持，目前支援英語和印地語多種口音，並計劃快速增加更多語言，滿足全球用戶需求。

4. 高度可客製化。風格擴散器，使用特殊的風格擴散器，根據使用者需求調整音訊風格，使產生的語音更加自然、富有情感。

5. 簡易集成。 REST API 集成，提供簡單的REST API 接口，開發者可快速將閃電模型整合到現有系統中，省去複雜的WebSocket 連接。

6. 親民的定價，起價為每分鐘0.04美元，適合各類企業使用，對於使用量大的企業提供客製化的定價方案。

smallest.ai 由印度理工學院古瓦哈提校友Sudarshan Kamath 和Akshat Mandloi 創立。 Kamath 表示，smallest.ai 的低價策略得益於他們對資料品質和模型效率的關注。「我們的模型比競爭對手如ElevenLabs 的小得多，但我們透過高度精煉的數據實現了高品質的語音輸出。」他解釋道。

早期獲得Lightning 使用權的語音機器人開發者報告稱，他們的營運成本降低了8倍，同時音訊品質也得到了提升。除了即時的語音機器人應用，Lightning 還可以用於製作有聲書和社群媒體內容的配音，如Instagram 和YouTube 等平台。非開發者也可以透過Waves Speech 平台存取Lightning，體驗包括聲音克隆和口音轉換等功能，這些功能目前處於測試階段。

Kamath 在與《分析印度雜誌》的獨家互動中表示：「當我們開始建造時，我們意識到現有的語音機器人所需模型對於印度語言還不夠成熟。非英語語言的現有模型根本無法達到生產要求。

在今年6月，smallest.ai 也推出了AWAAZ 模型，支援透過短音訊片段進行聲音克隆，且價格具有競爭力。該模型旨在滿足區域語言市場的可擴展應用，並提供企業級的安全性和合規性。當被問及其使命時，Kamath 說：“為什麼十億人並沒有每天與AI 語音進行交流，儘管語音AI 技術取得了巨大的進步?這是我們努力解決的問題。”

專案入口:https://smallest.ai/blog/lightning-fast-text-to-speech

Lightning模型的出現，無疑為語音合成技術樹立了新的標竿。其高效率、低成本以及易於整合的特點，將推動語音機器人應用的普及和創新，為更多開發者和企業帶來新的機會。 Downcodes小編期待未來Lightning能支援更多語言與功能，為全球用戶帶來更便利、更優質的語音體驗。