Doubao выпускает большую модель речи в реальном времени с первоклассным китайским языком, Shuangshang Online - статья об искусственном интеллекте

Автор：Eve Cole Время обновления：2025-01-28 11:48:02

Последняя модель речи в реальном времени, выпущенная компанией Doubao, достигла революционного прогресса в области китайского диалога. Она полностью запущена в новогодней версии приложения Doubao 7.2.0. Эта модель глубоко интегрирует понимание и генерацию речи, создавая комплексную систему речевого диалога, которая значительно улучшает выразительность речи, контроль и эмоциональное восприятие. Она также имеет такие функции, как низкая задержка и прерывание разговора в любое время, что дает больше преимуществ. для пользователей естественный и плавный интерактивный опыт. В этом обновлении также появилась новая функция голосового вызова в реальном времени, которая поддерживает гибкую настройку деталей разговора, имитацию нескольких голосов и диалектов и даже возможность петь некоторые песни, что еще больше повышает реалистичность диалога человека и машины.

Недавно компания Doubao объявила о запуске своей новой модели речи в реальном времени, заявив, что добилась «непревзойденного лидерства» в китайском диалоге, что означает значительное улучшение возможностей диалога с помощью искусственного интеллекта. Эта модель полностью открыта в приложении Doubao (номер версии 7.2.0 New Year Edition), предоставляя пользователям более богатые и реалистичные возможности голосового общения.

По имеющимся данным, большая модель речи Дубао в реальном времени реализует глубокую интеграцию понимания и генерации речи, образуя сквозную систему речевого диалога. Этот технологический прорыв позволяет модели очень хорошо работать с точки зрения выразительности голоса, контроля и эмоционального восприятия. Он имеет низкую задержку и возможность прерывать разговор в любое время, что значительно улучшает интерактивный опыт пользователя. Официальные лица заявили, что эта технология не только повышает «IQ», но и развивает эмоциональный интеллект, позволяя лучше понимать и выражать эмоции.

Это обновление также включает функцию голосового вызова в реальном времени, которая основана на последней крупной модели Doubao и позволяет гибко настраивать такие детали, как ритм разговора, голос, громкость и звуки дыхания в различных сценариях. Кроме того, новая голосовая функция может имитировать разные голоса, поддерживать несколько диалектов и разговоры на английском языке и даже петь некоторые песни. Все это подняло реализм диалога человека и машины на новый уровень, почти дойдя до того, что «сложно отличить человека от машины».

Команда исследований и разработок Doubao заявила, что эта новая технология основана на комплексной структуре и использует собственные методы для глубокой интеграции речевых и текстовых шаблонов для унифицированного моделирования. Подобный дизайн не только оптимизирует процесс распознавания и генерации речи, но и наделяет ИИ более богатой «душой», чтобы он мог лучше общаться с людьми.

Запуск большой модели голоса Doubao в реальном времени в области китайского голосового диалога предоставит пользователям беспрецедентный интерактивный опыт и будет способствовать развитию интеллектуальных голосовых технологий.

Запуск голосовой модели Doubao в реальном времени знаменует собой значительный прогресс в технологии интеллектуального голосового взаимодействия, а ее выдающиеся характеристики в области китайского диалога впечатляют. Я верю, что в будущем, при постоянном развитии технологий, подобные речевые модели принесут больше удобства и сюрпризов в жизнь людей.