Modelo de conversão de texto em fala ultrarrápido Lightning: latência ultrabaixa, 100 milissegundos para gerar 10 segundos de áudio

Autor：Eve Cole Data da Última Atualização：2024-11-29 14:41:01

O editor do Downcodes soube que a startup americana de IA menor.ai lançou um novo modelo de conversão de texto em fala (TTS) Lightning. Sua velocidade é incrível: leva apenas 100 milissegundos para gerar áudio de até 10 segundos! Isto marca um grande salto na tecnologia TTS, que reduzirá enormemente o custo de desenvolvimento e aplicação de robôs de voz, melhorará a acessibilidade e trará boas notícias para desenvolvedores em todo o mundo. O Lightning oferece suporte a vários sotaques em inglês e hindi e oferecerá suporte a mais idiomas no futuro, além de oferecer preços extremamente competitivos: apenas US$ 0,02 por minuto.

Recentemente, a menor.ai, uma startup de IA com sede em São Francisco, Califórnia, lançou seu novo produto Lightning, um modelo de conversão de texto em fala (TTS) que pode gerar até 10 segundos de áudio em 100 milissegundos. O avanço desta tecnologia permite que desenvolvedores de todo o mundo criem aplicativos de robôs de voz altamente realistas com latência extremamente curta, reduzindo custos de implementação e melhorando a acessibilidade dos aplicativos.

Atualmente, o Lightning oferece suporte a vários sotaques em inglês e hindi, e a equipe planeja adicionar rapidamente mais idiomas para atender à demanda do mercado. Este modelo custa apenas US$ 0,02 (aproximadamente INR 1,6) por minuto, fornecendo aos desenvolvedores de bots de voz uma solução altamente econômica, com o custo operacional do aplicativo sendo controlado em menos de INR 1 por minuto. robôs de voz enquanto expande a acessibilidade ao mercado.

Ao contrário do modelo TTS tradicional que depende de streaming de mídia e soquetes de rede, o que aumenta a carga do servidor e complica a escalabilidade, o Lightning usa um design simples de API REST para fornecer áudio em cerca de 100 milissegundos, evitando os problemas causados pela pressão contínua do servidor. Este rápido poder de processamento e eficiência de custos tornam-no uma alternativa significativa na indústria de robôs de voz.

Os recursos do produto Lightning podem ser resumidos da seguinte forma:

1. Velocidade e eficiência. Conhecido como a conversão de texto em fala mais rápida do mundo, o modelo Lightning gera 10 segundos de áudio ultra-realista em 100 milissegundos, alcançando síntese de fala em tempo real para atender à necessidade de resposta rápida.

2. Compacidade e compatibilidade. Exigindo menos de 1 GB de memória de vídeo, o modelo é pequeno e pode ser executado facilmente na maioria dos dispositivos de consumo e de ponta, reduzindo os requisitos de hardware.

3. Suporte multilíngue. Suporte a vários idiomas e sotaques, atualmente oferece suporte a vários sotaques em inglês e hindi e planeja adicionar rapidamente mais idiomas para atender às necessidades dos usuários globais.

4. Altamente personalizável. O difusor de estilo utiliza um difusor de estilo especial para ajustar o estilo de áudio de acordo com as necessidades do usuário, tornando a fala gerada mais natural e emocional.

5. Fácil integração. A integração da API REST fornece uma interface API REST simples, permitindo que os desenvolvedores integrem rapidamente o modelo relâmpago aos sistemas existentes, eliminando a necessidade de conexões WebSocket complexas.

6. Preços amigáveis, a partir de US$ 0,04 por minuto, adequados para todos os tipos de empresas, e planos de preços personalizados são fornecidos para empresas com grandes volumes de uso.

menor.ai foi fundado pelos ex-alunos do IIT Guwahati, Sudarshan Kamath e Akshat Mandloi. Kamath disse que a estratégia de preços baixos da menor.ai é impulsionada por seu foco na qualidade dos dados e na eficiência do modelo. “Nosso modelo é muito menor do que concorrentes como o ElevenLabs, mas alcançamos saída de voz de alta qualidade por meio de dados altamente refinados”, explicou ele.

Os desenvolvedores de bots de voz que obtiveram acesso antecipado ao Lightning relataram uma redução de 8x nos custos operacionais e, ao mesmo tempo, melhoraram a qualidade do áudio. Além de aplicativos de bot de voz em tempo real, o Lightning também pode ser usado para criar narrações para audiolivros e conteúdo de mídia social em plataformas como Instagram e YouTube. Os não desenvolvedores também podem acessar o Lightning por meio da plataforma Waves Speech e experimentar recursos como clonagem de voz e conversão de sotaque, que estão atualmente em beta.

Em uma interação exclusiva com a Analytical India Magazine, Kamath disse: "Quando começamos a construir, percebemos que os modelos existentes necessários para bots de voz não eram maduros o suficiente para os idiomas indianos. Os modelos existentes para idiomas diferentes do inglês simplesmente não estavam à altura. produção requer."

Em junho deste ano, a menor.ai também lançou o modelo AWAAZ, que suporta clonagem de voz por meio de clipes curtos de áudio a um preço competitivo. Este modelo foi projetado para atender aplicações escaláveis em mercados regionais de idiomas e fornecer segurança e conformidade de nível empresarial. Quando questionado sobre sua missão, Kamath disse: "Por que um bilhão de pessoas não se comunicam diariamente com uma voz de IA, apesar dos enormes avanços na tecnologia de IA de voz? Esta é a questão que nos esforçamos para resolver."

Entrada do projeto: https://smallest.ai/blog/lightning-fast-text-to-speech

O surgimento do modelo Lightning estabelece, sem dúvida, um novo padrão para a tecnologia de síntese de voz. Sua alta eficiência, baixo custo e fácil integração promoverão a popularidade e a inovação das aplicações de robôs de voz e trarão novas oportunidades para mais desenvolvedores e empresas. O editor do Downcodes espera que o Lightning suporte mais idiomas e funções no futuro, trazendo uma experiência de voz melhor e mais conveniente para usuários em todo o mundo.