ElevenLabs, стартап-компания, специализирующаяся на клонировании голоса с помощью искусственного интеллекта и API преобразования текста в речь, недавно запустила привлекательную новую функцию: пользователи могут самостоятельно создавать полноценные диалоговые агенты искусственного интеллекта. Это обновление знаменует собой трансформацию ElevenLabs из поставщика чисто голосовых технологий в более комплексного поставщика решений искусственного интеллекта, предоставляя разработчикам беспрецедентное пространство для настройки, а также предвещая более острую конкуренцию в области диалога с искусственным интеллектом. Редактор Downcodes даст вам более глубокое понимание возможностей этой новой функции.
Теперь пользователи могут настраивать различные переменные диалогового агента в соответствии со своими потребностями на платформе разработчиков ElevenLabs, например интонацию голоса и длину ответа.
В прошлом ElevenLabs в основном предоставляла различные услуги в области речи и преобразования текста в речь. Сэм Склар, руководитель отдела роста компании, рассказал TechCrunch, что многие клиенты уже используют платформу для создания диалоговых агентов искусственного интеллекта. Но интеграция базы знаний и устранение сбоев в работе клиентов являются самыми большими проблемами. Поэтому ElevenLabs решила создать полноценный конвейер диалоговых ботов, чтобы упростить этот процесс.
Пользователи могут начать создавать диалоговые агенты, войдя в свою учетную запись ElevenLabs, выбрав шаблон или создав новый проект. Они могут выбрать основной язык агента, первое сообщение и системные подсказки, чтобы определить личность агента.
Кроме того, разработчикам необходимо выбрать большую языковую модель (например, Gemini, GPT или Claude), температуру ответа (определяет креативность) и ограничения на использование токенов.
Пользователи также могут добавлять базы знаний, такие как файлы, URL-адреса или текстовые блоки, в соответствии со своими потребностями, чтобы расширить возможности диалогового бота. В то же время они могут интегрировать с ботом свои собственные модели большого языка. SDK ElevenLabs совместим с Python, JavaScript, React и Swift, компания также предоставляет API WebSocket для дальнейшей настройки.
Компания также позволяет пользователям определять критерии сбора данных, такие как имя и адрес электронной почты клиента, который разговаривал с агентом, и использовать естественный язык для определения критериев оценки успеха звонка.
ElevenLabs использует существующий конвейер преобразования текста в речь, а также разрабатывает возможности преобразования речи в текст для новых продуктов диалогового искусственного интеллекта. В настоящее время компания не предлагает отдельный API преобразования речи в текст, но может запустить его в будущем, конкурируя таким образом с API преобразования речи в текст таких компаний, как Google, Microsoft и Amazon, а также с Конкурируют API Whisper, AssemblyAI, Deepgram, Speechmatics и Gladia от OpenAI.
Компания планирует привлечь новый раунд финансирования на сумму более 3 миллиардов долларов и конкурирует с другими стартапами в области голосового искусственного интеллекта, такими как Vapi и Retell, которые также создают диалоговых агентов. Более того, ElevenLabs будет конкурировать с API разговоров в реальном времени OpenAI. Тем не менее, ElevenLabs считает, что возможность настройки и гибкость переключения моделей дадут ей преимущество над конкурентами.
Эта новая функция ElevenLabs не только повышает ее конкурентоспособность в области голосового ИИ, но и предоставляет разработчикам удобные инструменты для создания более мощных и персонализированных диалоговых ИИ-агентов. Ожидается, что в будущем, с запуском функции преобразования речи в текст и добавлением дополнительных возможностей настройки, ElevenLabs займет свое место в области диалога с искусственным интеллектом. Редактор Downcodes продолжит уделять внимание его развитию.