Modelo ultrarrápido de conversión de texto a voz Lightning: latencia ultrabaja, 100 milisegundos para generar 10 segundos de audio

Autor：Eve Cole Fecha de actualización：2024-11-29 14:41:01

El editor de Downcodes se enteró de que la startup estadounidense de inteligencia artificial más pequeña.ai ha lanzado un nuevo modelo Lightning de texto a voz (TTS). Su velocidad es asombrosa: ¡solo se necesitan 100 milisegundos para generar audio de hasta 10 segundos! Esto marca un gran salto en la tecnología TTS, que reducirá en gran medida el costo del desarrollo y la aplicación de robots de voz, mejorará la accesibilidad y brindará buenas noticias a los desarrolladores de todo el mundo. Lightning admite múltiples acentos en inglés e hindi, admitirá más idiomas en el futuro y ofrece precios extremadamente competitivos: solo $ 0,02 por minuto.

Recientemente, Small.ai, una startup de inteligencia artificial con sede en San Francisco, California, lanzó su nuevo producto Lightning, un modelo de conversión de texto a voz (TTS) que puede generar hasta 10 segundos de audio en 100 milisegundos. El avance de esta tecnología permite a los desarrolladores de todo el mundo crear aplicaciones de robots de voz muy realistas con una latencia extremadamente corta, lo que reduce los costos de implementación y mejora la accesibilidad de las aplicaciones.

Actualmente, Lightning admite múltiples acentos en inglés e hindi, y el equipo planea agregar rápidamente más idiomas para satisfacer la demanda del mercado. Este modelo tiene un precio de sólo 0,02 dólares estadounidenses (aproximadamente 1,6 INR) por minuto, lo que proporciona a los desarrolladores de bots de voz una solución altamente rentable, con un control del coste de funcionamiento de la aplicación de menos de 1 INR por minuto. Reduce el coste de construcción. robots de voz y al mismo tiempo ampliar la accesibilidad al mercado.

A diferencia del modelo TTS tradicional que se basa en la transmisión de medios y sockets de red, lo que aumenta la carga del servidor y complica la escalabilidad, Lightning utiliza un diseño API REST simple para entregar audio en aproximadamente 100 milisegundos, evitando los problemas causados por la presión continua del servidor. Esta rápida potencia de procesamiento y rentabilidad lo convierten en una alternativa importante en la industria de los robots de voz.

Las características del producto Lightning se pueden resumir de la siguiente manera:

1. Rapidez y eficiencia. Conocido como el texto a voz más rápido del mundo, el modelo Lightning genera 10 segundos de audio ultrarrealista en 100 milisegundos, logrando síntesis de voz en tiempo real para satisfacer la necesidad de una respuesta rápida.

2. Compacidad y compatibilidad. El modelo, que requiere menos de 1 GB de memoria de video, es pequeño y puede ejecutarse fácilmente en la mayoría de los dispositivos de consumo y de borde, lo que reduce los requisitos de hardware.

3. Soporte en varios idiomas. Soporte para múltiples idiomas y acentos, actualmente admite múltiples acentos en inglés e hindi, y planea agregar rápidamente más idiomas para satisfacer las necesidades de los usuarios globales.

4. Altamente personalizable. El difusor de estilo utiliza un difusor de estilo especial para ajustar el estilo de audio según las necesidades del usuario, haciendo que el discurso generado sea más natural y emocional.

5. Fácil integración. La integración de API REST proporciona una interfaz API REST simple, lo que permite a los desarrolladores integrar rápidamente el modelo Lightning en los sistemas existentes, eliminando la necesidad de conexiones WebSocket complejas.

6. Precios amigables, desde US$0,04 por minuto, adecuados para todo tipo de empresas, y se ofrecen planes de precios personalizados para empresas con grandes volúmenes de uso.

más pequeño.ai fue fundado por los ex alumnos de IIT Guwahati, Sudarshan Kamath y Akshat Mandloi. Kamath dijo que la estrategia de precios bajos de Small.ai está impulsada por su enfoque en la calidad de los datos y la eficiencia del modelo. "Nuestro modelo es mucho más pequeño que el de competidores como ElevenLabs, pero logramos una salida de voz de alta calidad a través de datos altamente refinados", explicó.

Los desarrolladores de bots de voz que obtuvieron acceso temprano a Lightning informaron una reducción de 8 veces en los costos operativos y mejoraron la calidad del audio. Además de las aplicaciones de bots de voz en tiempo real, Lightning también se puede utilizar para crear voces en off para audiolibros y contenido de redes sociales en plataformas como Instagram y YouTube. Los no desarrolladores también pueden acceder a Lightning a través de la plataforma Waves Speech y experimentar funciones como la clonación de voz y la conversión de acento, que actualmente se encuentran en versión beta.

En una interacción exclusiva con la revista Analytical India, Kamath dijo: "Cuando comenzamos a construir, nos dimos cuenta de que los modelos existentes necesarios para los robots de voz no eran lo suficientemente maduros para los idiomas indios. Los modelos existentes para idiomas distintos del inglés simplemente no estaban a la altura. Requerimiento de producción."

En junio de este año, Small.ai también lanzó el modelo AWAAZ, que admite la clonación de voz a través de clips de audio cortos a un precio competitivo. Este modelo está diseñado para satisfacer aplicaciones escalables en mercados lingüísticos regionales y proporcionar seguridad y cumplimiento de nivel empresarial. Cuando se le preguntó sobre su misión, Kamath dijo: "¿Por qué mil millones de personas no se comunican diariamente con una voz de IA, a pesar de los enormes avances en la tecnología de IA de voz? Esta es la pregunta que nos esforzamos por resolver".

Entrada del proyecto: https://smallest.ai/blog/lightning-fast-text-to-speech

La aparición del modelo Lightning sin duda establece un nuevo punto de referencia para la tecnología de síntesis de voz. Su alta eficiencia, bajo costo y fácil integración promoverán la popularidad y la innovación de las aplicaciones de robots de voz y brindarán nuevas oportunidades a más desarrolladores y empresas. El editor de Downcodes espera que Lightning admita más idiomas y funciones en el futuro, brindando una experiencia de voz mejor y más conveniente a los usuarios de todo el mundo.