美国AI初创公司smallest.ai发布了其最新产品Lightning,一款速度惊人的文本转语音(TTS)模型。Lightning能在100毫秒内生成长达10秒的音频,支持英语和印地语多种口音,并计划支持更多语言。其低廉的成本(每分钟仅需0.02美元)和简单的REST API设计,使其成为语音机器人开发者的理想选择,极大降低了开发和运行成本,并提升了语音合成效率和应用的可及性。本文将详细分析Lightning的各项功能特性、市场定位以及smallest.ai的企业愿景。
近日,总部位于美国加州旧金山的 AI 初创公司 smallest.ai 推出了其新产品 Lightning,一款能够在100毫秒内生成长达10秒音频的文本转语音(TTS)模型。此项技术的进步,使得全球开发者能够构建高仿真度的语音机器人应用,且延迟时间极短,降低了实施成本,提高了应用的可及性。
Lightning 目前支持英语和印地语的多种口音,团队还计划迅速添加更多语言,以满足市场需求。这款模型的定价为每分钟仅需0.02美元(约1.6印度卢比),为语音机器人开发者提供了一种极具成本效益的解决方案,应用的运行成本可控制在每分钟1卢比以下,大幅降低了语音机器人构建的费用,同时扩大了市场的可达性。
与传统的 TTS 模型依赖流媒体和网络套接字,增加服务器负担和复杂的可扩展性不同,Lightning 通过简单的 REST API 设计,使音频在大约100毫秒内交付,避免了持续流媒体带来的服务器压力。这种快速的处理能力和成本效率,使其在语音机器人行业中成为一个显著的替代选择。
Lightning 的产品功能特色可总结为以下几点
1. 速度与效率。号称全球最快的文本转语音,Lightning 模型在100毫秒内生成10秒的超现实音频,实现实时语音合成,满足快速响应需求。
2. 小巧与兼容性。小于1GB 的显存需求,该模型体积小,能够在大多数消费者及边缘设备上轻松运行,降低了硬件要求。
3. 多语言支持。多语言和口音的支持 ,当前支持英语和印地语多种口音,并计划快速增加更多语言,满足全球用户需求。
4. 高度可定制化。风格扩散器 ,使用特殊的风格扩散器,根据用户需求调整音频风格,使生成的语音更加自然、富有情感。
5. 简易集成。REST API 集成,提供简单的 REST API 接口,开发者可快速将闪电模型集成到现有系统中,省去复杂的 WebSocket 连接。
6. 亲民的定价 ,起价为每分钟0.04美元,适合各类企业使用,对于使用量大的企业提供定制化的定价方案。
smallest.ai 由印度理工学院古瓦哈提校友 Sudarshan Kamath 和 Akshat Mandloi 创立。Kamath 表示,smallest.ai 的低价策略得益于他们对数据质量和模型效率的关注。“我们的模型比竞争对手如 ElevenLabs 的小得多,但我们通过高度精炼的数据实现了高质量的语音输出。” 他解释道。
早期获得 Lightning 使用权的语音机器人开发者报告称,他们的运营成本降低了8倍,同时音频质量得到了提升。除了实时的语音机器人应用,Lightning 还可以用于制作有声书和社交媒体内容的配音,如 Instagram 和 YouTube 等平台。非开发者也可以通过 Waves Speech 平台访问 Lightning,体验包括声音克隆和口音转换等功能,这些功能目前处于测试阶段。
Kamath 在与《分析印度杂志》的独家互动中表示:“当我们开始构建时,我们意识到现有的语音机器人所需模型对于印度语言还不够成熟。非英语语言的现有模型根本无法达到生产要求。”
在今年6月,smallest.ai 还推出了 AWAAZ 模型,支持通过短音频片段进行声音克隆,且价格具有竞争力。该模型旨在满足区域语言市场的可扩展应用,并提供企业级的安全性和合规性。当被问及其使命时,Kamath 说:“为什么十亿人并没有每天与 AI 语音进行交流,尽管语音 AI 技术取得了巨大的进步?这是我们努力解决的问题。”
项目入口:https://smallest.ai/blog/lightning-fast-text-to-speech
划重点:
Lightning 文本转语音模型可在100毫秒内生成音频,支持英语和印地语多种口音,未来将扩展更多语言。
以每分钟仅需0.02美元的低成本,显著降低语音机器人开发者的运营费用。
Lightning 不仅适用于语音机器人,还可用于有声书和社交媒体配音,方便开发者和非开发者使用。
总而言之,smallest.ai 的 Lightning 模型凭借其速度、效率、低成本和易用性,有望在语音合成领域掀起一场革命,为全球开发者和用户提供更便捷、更经济的语音 AI 服务。 其致力于解决语音AI技术普惠性问题的愿景也值得关注。