Основное обновление Google of Ai Voice Technology: 2 минуты диалога и 3 секунды поколения, что полностью изменит способ взаимодействия человека с компьютером - статьи AI

Автор：Eve Cole Время обновления：2025-02-15 12:48:02

Последняя технология Google Generation Generation снова обновила отраслевой стандарт. Эта прорывная технология не только генерирует естественные разговоры до 2 минут за 3 секунды, но также обеспечивает показатель голоса и качества звука среди нескольких динамиков. Технология использовалась в нескольких продуктах Google, таких как Gemini Live и Project Astra, и меняет способ взаимодействия людей с цифровыми помощниками и инструментами искусственного интеллекта по всему миру.

За последние несколько лет Google сосредоточился на исследованиях в области генерации аудио. Модели, которые они разработали, могут создать высококачественный, естественный голос с помощью различных методов ввода, таких как текст, управление ритмом и конкретные звуки. Недавно Google объединился с несколькими внутренними командами, чтобы запустить две важные функции: Notebooklm Audio Обзор может конвертировать загруженные документы в яркие разговоры;

Эти прорывы основаны на нескольких предыдущих результатах исследований от Google. От звукового нейронного звукового кодека до Audiolm Audio Language Framework, до Soundstorm, которая может генерировать более 30 секунд разговоров, Google постоянно инновации в области генерации голоса. В последнем технологическом прорыве используется более эффективные голосовые кодеки, которые могут сжимать аудио с низкой скоростью бита 600 бит в секунду при сохранении качества выхода.

Для достижения этого технологического прорыва Google разработал специальную архитектуру трансформатора, которая может эффективно обрабатывать информационную иерархию. Модель сначала предварительно обучает сотни тысяч часов речевых данных, а затем настраивается на высококачественном наборе данных разговора, который содержит природные особенности, такие как тональные паузы в реальных разговорах. Чтобы обеспечить ответственное использование этой технологии, Google также интегрировала технологию синтидов, чтобы добавить водяные знаки в аудиоконтент, генерируемый ИИ.

Заглядывая в будущее, Google работает над улучшением гладкости, качество звука модели и добавляет более подробные элементы управления. В сочетании с серией моделей Gemini эта технология, как ожидается, сыграет важную роль в улучшении образовательного опыта и доступности контента, что принесет больше возможностей для голосовых технологий.

Важность этой технологии заключается не только в ее улучшении производительности, но и в ее открытии новой главы для взаимодействия человека с компьютером. Преобразуя сложные технологические инновации в естественные, интуитивные способы взаимодействия, Google закладывает основу для следующего поколения цифровых опытов.

Подробности: https://deepmind.google/discover/blog/pushing-the-frontiers-of-audio-generation/

Технология генерации голоса Google-это не только технологический скачок, но и революционное продвижение во взаимодействии человека с компьютером, что приносит неограниченные возможности для будущего цифрового мира.