TEXTO ULTRA-FASTO AO MODELO DE SOBELA LAVERSO: Latência ultra baixa, 100 milissegundos de 10 segundos de áudio-artigos da AI

Autor：Eve Cole Data da Última Atualização：2025-02-13 02:16:02

O Menor.ai, uma startup de IA americana, lançou seu mais recente produto, Lightning, um modelo de texto em fala (TTS) com velocidade incrível. O Lightning gera até 10 segundos de áudio em 100 milissegundos, suporta vários sotaques em inglês e hindi e planeja apoiar mais idiomas. Seu baixo custo (apenas US $ 0,02 por minuto) e o design simples da API o tornam ideal para desenvolvedores de robôs de voz, reduzindo bastante os custos de desenvolvimento e operação e melhorando a eficiência da síntese de voz e o acesso a aplicativos. Este artigo analisará as várias características funcionais, posicionamento do mercado e menor.Ai a visão corporativa da Aai em detalhes.

Recentemente, o Menorst.ai, uma startup de IA com sede em São Francisco, Califórnia, lançou seu novo Lightning, um modelo de texto em fala (TTS) que pode gerar até 10 segundos de áudio em 100 milissegundos. O avanço dessa tecnologia permitiu que os desenvolvedores de todo o mundo construíssem aplicativos de robô de voz altamente simulados, com tempos de atraso extremamente curtos, reduzindo os custos de implementação e melhorando a acessibilidade do aplicativo.

Atualmente, o Lightning suporta vários sotaques em inglês e hindi, e a equipe também planeja adicionar rapidamente mais idiomas para atender à demanda do mercado. Preços de apenas US $ 0,02 por minuto (cerca de INR 1.6) Este modelo fornece uma solução econômica para os desenvolvedores de robôs de voz, com os custos de execução do aplicativo controlados abaixo de 1 por minuto, reduzem significativamente o custo da construção de robôs de voz e expandem a acessibilidade do mercado.

Diferentemente do modelo TTS tradicional que depende do streaming e dos soquetes de rede para aumentar a carga do servidor e a escalabilidade complexa, o Lightning usa um design de API REST simples para permitir que o áudio seja entregue em cerca de 100 milissegundos, evitando a pressão contínua. Esse rápido poder de processamento e eficiência de custos o tornam uma alternativa significativa na indústria de robótica de voz.

Os recursos do produto da Lightning podem ser resumidos da seguinte forma

1. Velocidade e eficiência. Conhecida como o texto em fala mais rápido do mundo, o modelo de raios gera 10 segundos de áudio surreal em 100 milissegundos, síntese de voz em tempo real, atendendo às necessidades de resposta rápida.

2. Pequeno e compatibilidade. Com um requisito de memória de vídeo inferior a 1 GB, o modelo é de tamanho pequeno e pode ser executado facilmente na maioria dos consumidores e dispositivos de borda, reduzindo os requisitos de hardware.

3. Suporte multilíngue. O suporte multilíngue e de sotaque, atualmente suporta vários sotaques em inglês e hindi e planeja adicionar rapidamente mais idiomas para atender às necessidades dos usuários em todo o mundo.

4. Altamente personalizável. O difusor de estilo, usando um difusor de estilo especial, ajusta o estilo de áudio de acordo com as necessidades do usuário, tornando a voz gerada mais natural e emocional.

5. Integração simples. A integração da API REST fornece uma interface API REST simples, onde os desenvolvedores podem integrar rapidamente modelos de raios em sistemas existentes, eliminando conexões complexas do WebSocket.

6. O preço acessível começa em US $ 0,04 por minuto, o que é adequado para todos os tipos de empresas.

Menor.ai foi fundado pelo Instituto Indiano de Tecnologia Guwahati Alumni Sudarshan Kamath e Akshat Mandloi. Kamath disse que a estratégia de baixo preço do menor.Ai se deve ao foco na qualidade dos dados e na eficiência do modelo. "Nosso modelo é muito menor que os concorrentes como o Elevenlabs, mas alcançamos saída de voz de alta qualidade com dados altamente refinados", explica ele.

Os desenvolvedores de robôs de voz que tiveram acesso precoce ao raio relataram que seus custos operacionais foram reduzidos em 8 vezes, enquanto a qualidade do áudio foi aprimorada. Além dos aplicativos de robô de voz em tempo real, o Lightning também pode ser usado para criar dublagens para audiolivros e conteúdo de mídia social, como plataformas como o Instagram e o YouTube. Os não desenvolvedores também podem acessar relâmpagos através da plataforma de fala do Waves para experimentar recursos, incluindo clonagem de som e conversão de sotaque, que estão atualmente na versão beta.

Kamath disse em uma interação exclusiva com o Journal of Analytics India: “Quando começamos a construí-lo, percebemos que os modelos necessários para os robôs de voz existentes não são maduros o suficiente para os idiomas indianos. produção. ”

Em junho deste ano, o Menorst.ai também lançou o modelo Awaaz, que suporta clonagem de som através de clipes de áudio curtos e custa um preço competitivo. O modelo foi projetado para atender a aplicações escaláveis no mercado regional de idiomas e fornecer segurança e conformidade no nível da empresa. Questionado sobre sua missão, Kamath disse: "Por que um bilhão de pessoas não está se comunicando com a voz da IA todos os dias, apesar dos enormes avanços na tecnologia de voz? Este é um problema que estamos trabalhando duro para resolver".

Entrada do projeto: https://smallest.ai/blog/lightning-fast-text-opech

Pontos -chave:

O modelo de texto em fala de raios gera áudio em 100 milissegundos, suporta vários sotaques em inglês e hindi e expandirá mais idiomas no futuro.

Com um custo baixo de apenas US $ 0,02 por minuto, reduz significativamente os custos operacionais dos desenvolvedores de robôs de voz.

O Lightning não é apenas adequado para robôs de voz, mas também para os audiolivros e a dublagem de mídias sociais, facilitando o uso de desenvolvedores e não desenvolvedores.

Em suma, o modelo de raios de menor.Ai deve revolucionar o campo da síntese de fala com sua velocidade, eficiência, baixo custo e facilidade de uso, fornecendo aos desenvolvedores e usuários globais mais convenientes e econômicos de serviços de IA de voz. Sua visão de resolver a inclusão da tecnologia AI de voz também é digna de atenção.