Команда Amazon AGI недавно выпустила BASE TTS, модель преобразования текста в речь с 98 миллиардами параметров, которая была обучена с использованием 100 000 часов записи данных. На данный момент это крупнейшая модель такого рода. Выпуск этой модели знаменует собой значительный прогресс в технологии преобразования текста в речь. Ожидается, что ее большое количество параметров и обширные обучающие данные значительно улучшат естественность и антропоморфизм синтеза речи и улучшат качество голосового восприятия пользователей. Цель команды — применить эту модель к обучающим приложениям для дальнейшего улучшения качества человеческих голосов в приложениях преобразования текста в речь.
Команда Amazon AGI выпустила BASE TTS, крупнейшую за всю историю модель преобразования текста в речь с 98 миллиардами параметров и обученную с использованием 100 000 часов записи данных. Команда планирует использовать эту модель в обучающих приложениях, чтобы улучшить качество человеческих голосов в приложениях преобразования текста в речь.
Выпуск модели BASE TTS демонстрирует сильные стороны Amazon в области искусственного интеллекта и ее видение будущих голосовых технологий. Он предвещает появление более естественных и реалистичных искусственных голосов, открывающих более широкие возможности для различных сценариев применения. В будущем мы можем ожидать, что BASE TTS будет играть роль в большем количестве областей и предоставлять пользователям более удобные и качественные услуги.