Meta AI шокирующе выпустила базовую мультимодальную языковую модель под названием SPIRIT LM, которая является выдающимся достижением, позволяющим свободно смешивать текст и речь! Он основан на предварительно обученной модели текстового языка с 7 миллиардами параметров и распространяется на речевой режим посредством непрерывного обучения, реализуя двухмодальное понимание и генерацию текста и речи, а также может даже смешивать их, создавая неожиданные прикладные эффекты. Редактор Downcodes поможет вам глубже понять мощные функции SPIRIT LM и стоящие за ним технологические прорывы.
Meta AI недавно открыла исходный код базовой мультимодальной языковой модели под названием SPIRIT LM, которая может свободно смешивать текст и речь, открывая новые возможности для мультимодальных задач с аудио и текстом.
SPIRIT LM основан на предварительно обученной модели текстового языка с 7 миллиардами параметров и распространяется на речевые модальности посредством непрерывного обучения текстовым и речевым единицам. Он может понимать и генерировать текст как большую текстовую модель, а также понимать и генерировать речь. Он даже может смешивать текст и речь для создания различных магических эффектов. Например, вы можете использовать его для распознавания речи и конвертировать речь в нее! текст; вы также можете использовать его для синтеза речи, чтобы преобразовать текст в речь; вы также можете использовать его для классификации речи, чтобы определить, какую эмоцию выражает фрагмент речи;
Еще более мощным является то, что SPIRIT LM также особенно хорош в «эмоциональном выражении»! Он может распознавать и генерировать множество различных интонаций и стилей голоса, благодаря чему голос ИИ звучит более естественно и эмоционально. Вы можете себе представить, что голос, генерируемый SPIRIT LM, больше не является холодным машинным голосом, а похож на голос реального человека, полный радости, гнева, печали и радости!
Чтобы сделать ИИ более «эмоциональным», исследователи Меты также специально разработали две версии SPIRIT LM:
«Базовое издание» (BASE): эта версия в основном фокусируется на фонемной информации речи, которая является «базовым составом» речи.
«Выразительная версия» (EXPRESSIVE): помимо информации о фонемах, эта версия также добавляет информацию о тоне и стиле, которая может сделать голос ИИ более ярким и выразительным.
Итак, как же SPIRIT LM все это делает?
Проще говоря, SPIRIT LM обучен на основе LLAMA2, сверхмощной модели большого текста, ранее выпущенной Meta. Исследователи «передали» LLAMA2 большое количество текстовых и речевых данных и применили специальный метод «чередующегося обучения», чтобы LLAMA2 могла одновременно изучать правила текста и речи.
Чтобы проверить способность SPIRIT LM к «эмоциональному выражению», исследователи Meta также разработали новый тестовый тест — «тест сохранения речи и текста» (STSP). Этот тестовый тест содержит множество речевых и текстовых подсказок, выражающих различные эмоции, чтобы проверить, может ли модель ИИ точно распознавать и генерировать речь и текст с соответствующими эмоциями. Результаты показывают, что «версия выражения» SPIRIT LM хорошо справляется с сохранением эмоций и на данный момент является первой моделью искусственного интеллекта, которая может сохранять эмоциональную информацию в разных модальностях!
Конечно, исследователи Meta также признали, что в SPIRIT LM еще есть много областей для улучшения. Например, SPIRIT LM в настоящее время поддерживает только английский язык и в будущем его необходимо расширить на другие языки, масштаб модели SPIRIT LM недостаточно велик, и необходимо продолжать расширять масштаб модели и улучшать производительность модели; будущее.
SPIRIT LM — это крупный прорыв Meta в области искусственного интеллекта. Он открывает нам дверь в «звучащий и эмоциональный» мир искусственного интеллекта. Я верю, что в ближайшем будущем мы увидим больше интересных приложений, разработанных на базе SPIRIT LM, чтобы ИИ мог не только красноречиво говорить, но и выражать эмоции, как реальные люди, и общаться с нами более естественно и сердечно!
Адрес проекта: https://speechbot.github.io/spiritlm/
Адрес статьи: https://arxiv.org/pdf/2402.05755.
В целом, открытый исходный код SPIRIT LM принес впечатляющий прогресс в области мультимодального искусственного интеллекта. Его появление предвещает, что в будущем искусственный интеллект достигнет больших прорывов в голосовом взаимодействии и эмоциональном выражении. Редактор Downcodes продолжит платить. внимание на эту область. Последние новости, пожалуйста, следите за обновлениями!