Компания Geely Automobile добилась прорывного прогресса в области синтеза речи. Ее независимо разработанная большая модель HAM-TTS «Xingrui» превзошла по производительности отраслевой эталон VALL-E, привлекая всеобщее внимание. Редактор Downcodes подробно объяснит основные преимущества и будущее влияние этой технологии.
Geely Automobile недавно совершила крупный прорыв в области синтеза речи. Производительность независимо разработанной большой модели HAM-TTS превзошла отраслевой эталон VALL-E, привлекая широкое внимание в отрасли. Эта большая модель искусственного интеллекта под названием Xingrui добилась значительных улучшений по таким ключевым показателям, как точность произношения, естественность и сходство говорящих.
Модель HAM-TTS использует технологию иерархического акустического моделирования преобразования текста в речь с нулевой выборкой на основе токенов, которая значительно улучшает взаимодействие с пользователем в интеллектуальной кабине. При тех же условиях с 400 миллионами параметров уровень ошибок в символах модели HAM-TTS снизился на 1,5% по сравнению с VALL-E, а в полной модели с 800 миллионами параметров уровень ошибок в символах снизился на 2,3%. С точки зрения единообразия стиля, постоянства высоты тона и общего балла модель HAM-TTS достигла значительного улучшения на 10%.
Преимущества модели Xingrui отражаются не только в ее эксплуатационных показателях, но и ее практичность впечатляет. Он может поддерживать стабильность голоса говорящего в различных сценариях, таких как привязка аватара, голосовая навигация и трансляции новостей, а также интеллектуально регулировать тон, интонацию, паузы и эмоции в зависимости от ситуации. Стоит еще упомянуть, что эта модель может плавно переключаться между различными языками, включая диалекты и иностранные языки, и может завершить воспроизведение звука всего за 3 секунды ввода семпла, что намного лучше, чем более 10 секунд, обычно требуемых в отрасли.
Команда Geely инновационным образом улучшила характеристики модели, внедрив многослойное акустическое моделирование. Они решили проблему неточного произношения и ввели предсказатели последовательностей переменных скрытого пространства и выравниватели текста, чтобы сделать сопоставление текста и звуков более точным, сделав синтезированную речь более естественной и плавной.
Этот прорыв не только демонстрирует сильные стороны Geely в области исследований и разработок в области интеллектуальных технологий, но и отражает ее амбиции в области искусственного интеллекта. Система больших моделей Geely Xingrui AI была расширена до нескольких направлений, таких как мультимодальные большие модели и большие языковые модели, закладывая основу для технологии умных автомобилей. В то же время общая мощность облачных вычислений Geely также увеличилась с 81 петафлопс в секунду в прошлом году до 102 петафлопс в секунду, что свидетельствует о постоянных инвестициях Geely в технологии.
После первоначального успеха электрификации прорыв Geely в области интеллекта предоставил новые идеи и возможности для будущего развития автомобильной промышленности. Это не только переопределяет наше понимание традиционных производителей автомобилей, но и указывает на то, что интеллект станет ключевой областью конкуренции в автомобильной промышленности будущего.
Адрес статьи: https://arxiv.org/pdf/2403.05989.
Успех «Xing Rui» от Geely знаменует собой подъем автомобильной промышленности Китая в области искусственного интеллекта, а его технологические прорывы окажут глубокое влияние на направление интеллектуального развития автомобилей будущего. Ждём новых инноваций от Geely в области искусственного интеллекта!