Play AI торжественно представляет свой последний шедевр — бета-версию PlayDialog, голосовой модели искусственного интеллекта, которая может генерировать разговорный звук подкаста. Он может не только регулировать интонацию, эмоции и скорость речи в соответствии с историческим контекстом разговора, достигать более естественного синтеза речи, но и создавать захватывающий опыт голосового общения, который можно назвать новой вехой в диалоге человека и компьютера. Редактор Downcodes подробно объяснит мощные функции PlayDialog и поддерживающий его инструмент PlayNote.
Недавно компания Play AI официально запустила свой самый амбициозный продукт — бета-версию PlayDialog, которая может генерировать диалоговый аудиоподкаст.
Эта комплексная речевая модель искусственного интеллекта использует исторический контекст разговора для управления интонацией, эмоциями и скоростью речи, чтобы добиться более естественного синтеза речи, знаменуя новый уровень диалога между человеком и машиной. PlayDialog особенно подходит для создания реальных диалогов, таких как повествование, голосовое дубляж, синтезированные подкасты и т. д. Он также может обеспечить захватывающий опыт голосового общения один на один в бизнес-среде, аналогично Google NotebookLM.
В то же время Play AI также запустила PlayNote, инструмент, который может конвертировать различные медиафайлы (например, PDF, текст, видео и т. д.) в диалоговые сообщения. Пользователи могут создавать подкасты, презентации, повествования и даже детские рассказы за считанные минуты и наслаждаться плавными и естественными голосовыми эффектами, обеспечиваемыми PlayDialog. Уникальность PlayNote заключается в том, что он также предоставляет интерфейс API, позволяющий пользователям легко осуществлять программную генерацию аудиоконтента, не полагаясь на пользовательский интерфейс.
Бета-версия PlayDialog была обучена на сотнях миллионов реальных разговоров. Размер модели примерно в десять раз больше, чем у Play AI3.0mini, и она может соответствовать характеристикам человеческой речи с точки зрения интонации (например, частоты голоса и скорости). речь). В слепых тестах бета-версия PlayDialog показала вдвое лучшие результаты, чем ведущие конкурирующие модели на рынке, получив высшие оценки, в частности, за выразительность.
В отличие от предыдущих речевых моделей, бета-версия PlayDialog может понимать контекст всего разговора, тем самым влияя на эффект генерации речи. Play AI создал новую архитектуру под названием «Адаптивный речевой контекстуализатор» (ASC), которая позволяет модели реагировать, используя полную историю разговора, так что каждое предложение представляет собой не изолированный вывод, а насыщенный, имеющий правильный тон, эмоции и содержание. тон создает в результате подкаста ощущение, будто слушатель общается в том же пространстве, что и говорящий.
Будь то динамичное обсуждение или деликатная тема, требующая сочувствия, PlayDialog легко адаптируется, делая взаимодействие более естественным и человечным.
Пользователи могут испытать все это с помощью PlayNote, используя его для создания мощных, естественных повествований, подкастов, презентаций и многого другого за считанные минуты. PlayNote также доступен через интерфейс API, что позволяет разработчикам программно создавать привлекательный контент в любом масштабе.
Вход Тиа: https://play.ai/playnote
Официальное введение в блог: https://blog.play.ai/blog/introducing-playdialog.
Появление PlayDialog и PlayNote, несомненно, поднимет технологию синтеза речи искусственного интеллекта на новую высоту и принесет революционные изменения в производство подкастов, голосовую связь и другие области. Мы с нетерпением ждем новых удивительных инноваций от Play AI в будущем!