ElevenLabs выпустила новую модель синтеза речи Flash, которая на данный момент является самым быстрым решением для преобразования текста в речь (TTS) со сверхнизкой задержкой — всего 75 миллисекунд. Эта революционная разработка особенно подходит для диалоговых приложений искусственного интеллекта, требующих взаимодействия в реальном времени, что значительно повышает плавность и естественность взаимодействия человека с компьютером. Модель Flash доступна в двух версиях: Flash v2 (поддерживает английский язык) и Flash v2.5 (поддерживает 32 языка). Пользователи могут испытать ее непосредственно через диалоговую платформу искусственного интеллекта и API ElevenLabs. Хотя Flash немного уступал модели Turbo по качеству звука и эмоциональной выразительности, по скорости он явно опережал и вышел на первое место в слепом тесте.
Модель Flash разделена на две версии: Flash v2 поддерживает только английский язык, а Flash v2.5 поддерживает 32 языка. При использовании обеих моделей пользователи будут тратить 1 очко за каждые два сгенерированных ими символа. Хотя модель Flash немного уступает модели Turbo по качеству звука и эмоциональной глубине, ее производительность с низкой задержкой позволила ей опередить остальных представителей своего класса в слепых тестах, что сделало ее самым быстрым вариантом в своем классе.
Техническая команда ElevenLabs заявила, что запуск Flash-моделей будет значительно способствовать плавности и естественности взаимодействия человека с компьютером. Разработчики могут напрямую вызывать идентификаторы моделей «eleven_flash_v2» и «eleven_flash_v2_5» через API. Справочные материалы по конкретным API можно найти на официальном сайте ElevenLabs. Благодаря этому нововведению ElevenLabs надеется открыть больше сценариев гуманизированного диалога и взаимодействия с малой задержкой.
ElevenLabs также предоставляет различные продукты и решения, в том числе индивидуальные голосовые помощники, инструменты для создания звука и студии дубляжа, призванные помочь пользователям и разработчикам в различных областях добиться высококачественного создания звука с помощью искусственного интеллекта. Кроме того, ElevenLabs также активно проводит исследования и разработки и продолжает совершенствовать технический уровень своих продуктов для удовлетворения растущих потребностей пользователей.
Основные моменты:
Задержка Flash-модели для генерации речи составляет всего 75 миллисекунд, что подходит для разговорных голосовых помощников с малой задержкой.
Flash v2.5 поддерживает 32 языка, и каждые два символа, сгенерированные пользователем, стоят 1 балл.
В слепых тестах модель Flash превзошла другие аналогичные продукты, став самым быстрым решением для преобразования текста в речь.
В целом, Flash-модель ElevenLabs открывает новые возможности для диалоговых приложений искусственного интеллекта благодаря сверхнизкой задержке и многоязычной поддержке, а также указывает на то, что взаимодействие человека и компьютера в будущем станет более плавным и естественным. Его преимущество в скорости делает его одним из ведущих решений для преобразования текста в речь на рынке и заслуживает внимания разработчиков и пользователей.