Сверхбыстрая модель преобразования текста в речь Lightning: сверхнизкая задержка, 100 миллисекунд для генерации 10 секунд звука

Автор：Eve Cole Время обновления：2024-11-29 14:41:01

Редактор Downcodes узнал, что американский AI-стартап small.ai запустил новую модель преобразования текста в речь (TTS) Lightning. Ее скорость просто потрясающая: для генерации звука длительностью до 10 секунд требуется всего 100 миллисекунд! Это знаменует собой крупный скачок в технологии TTS, который значительно снизит стоимость разработки и применения голосовых роботов, улучшит доступность и принесет хорошие новости разработчикам по всему миру. Lightning поддерживает несколько акцентов на английском и хинди, а в будущем будет поддерживать больше языков и предлагает чрезвычайно конкурентоспособные цены: всего 0,02 доллара в минуту.

Недавно small.ai, стартап в области искусственного интеллекта со штаб-квартирой в Сан-Франциско, штат Калифорния, запустил свой новый продукт Lightning — модель преобразования текста в речь (TTS), которая может генерировать до 10 секунд звука за 100 миллисекунд. Развитие этой технологии позволяет разработчикам по всему миру создавать реалистичные приложения для голосовых роботов с чрезвычайно малой задержкой, сокращая затраты на внедрение и улучшая доступность приложений.

В настоящее время Lightning поддерживает несколько акцентов на английском и хинди, и команда планирует быстро добавить больше языков, чтобы удовлетворить спрос рынка. Стоимость этой модели составляет всего 0,02 доллара США (приблизительно 1,6 индийской рупии) в минуту, что предоставляет разработчикам голосовых ботов высокорентабельное решение, при этом эксплуатационные расходы на контролируемое приложение составляют менее 1 индийской рупии в минуту. Снижает стоимость разработки. голосовых роботов и одновременно расширяя доступность рынка.

В отличие от традиционной модели TTS, которая опирается на потоковую передачу мультимедиа и сетевых сокетов, что увеличивает нагрузку на сервер и усложняет масштабируемость, Lightning использует простую конструкцию REST API для доставки звука примерно за 100 миллисекунд, избегая проблем, вызванных непрерывной потоковой передачей данных на сервер. Высокая вычислительная мощность и экономическая эффективность делают его важной альтернативой в индустрии голосовых роботов.

Характеристики продукта Lightning можно резюмировать следующим образом:

1. Скорость и эффективность. Известная как самая быстрая в мире система преобразования текста в речь, модель Lightning генерирует 10 секунд сверхреалистичного звука за 100 миллисекунд, обеспечивая синтез речи в реальном времени для удовлетворения потребностей в быстром реагировании.

2. Компактность и совместимость. Модель требует менее 1 ГБ видеопамяти, имеет небольшие размеры и может легко работать на большинстве потребительских и периферийных устройств, что снижает требования к оборудованию.

3. Многоязычная поддержка. Поддержка нескольких языков и акцентов, в настоящее время поддерживается несколько акцентов на английском и хинди, и планируется быстро добавить больше языков для удовлетворения потребностей пользователей по всему миру.

4. Широкие возможности настройки. Диффузор стилей использует специальный диффузор стилей для настройки стиля звука в соответствии с потребностями пользователя, делая сгенерированную речь более естественной и эмоциональной.

5. Простая интеграция. Интеграция REST API обеспечивает простой интерфейс REST API, позволяющий разработчикам быстро интегрировать модель Lightning в существующие системы, устраняя необходимость в сложных соединениях WebSocket.

6. Дружественные цены от 0,04 доллара США за минуту, подходящие для всех типов предприятий, а для предприятий с большими объемами использования предусмотрены индивидуальные тарифные планы.

small.ai был основан выпускниками ИИТ Гувахати Сударшаном Каматом и Акшатом Мандлоем. Камат сказал, что стратегия низких цен small.ai обусловлена их ориентацией на качество данных и эффективность моделей. «Наша модель намного меньше, чем у конкурентов, таких как ElevenLabs, но мы достигаем высокого качества речевого вывода за счет высокоточных данных», — пояснил он.

Разработчики голосовых ботов, получившие ранний доступ к Lightning, сообщили о восьмикратном сокращении эксплуатационных расходов при одновременном улучшении качества звука. Помимо приложений голосовых ботов, работающих в режиме реального времени, Lightning также можно использовать для создания озвучки аудиокниг и контента социальных сетей на таких платформах, как Instagram и YouTube. Неразработчики также могут получить доступ к Lightning через платформу Waves Speech и воспользоваться такими функциями, как клонирование голоса и преобразование акцентов, которые в настоящее время находятся в стадии бета-тестирования.

В эксклюзивном интервью журналу Analytical India Magazine Камат сказал: «Когда мы начали создавать, мы поняли, что существующие модели, необходимые для голосовых ботов, недостаточно зрелы для индийских языков. Существующие модели для неанглийских языков просто не соответствовали требованиям». Требование производства».

В июне этого года сайт small.ai также запустил модель AWAAZ, которая поддерживает клонирование голоса с помощью коротких аудиоклипов по конкурентоспособной цене. Эта модель предназначена для масштабируемых приложений на региональных языковых рынках и обеспечивает безопасность и соответствие требованиям корпоративного уровня. Когда его спросили о миссии, Камат сказал: «Почему миллиарды людей не общаются с помощью голоса искусственного интеллекта ежедневно, несмотря на огромные достижения в области технологий голосового искусственного интеллекта? Это вопрос, который мы стремимся решить».

Вход в проект: https://smallest.ai/blog/lightning-fast-text-to-speech

Появление модели Lightning, несомненно, устанавливает новый стандарт для технологий синтеза речи. Его высокая эффективность, низкая стоимость и простота интеграции будут способствовать популярности и инновациям приложений голосовых роботов и откроют новые возможности для большего числа разработчиков и предприятий. Редактор Downcodes надеется, что в будущем Lightning будет поддерживать больше языков и функций, обеспечивая более удобный и лучший голосовой опыт для пользователей по всему миру.