Meta AI недавно открыла исходный код мультимодальной языковой модели под названием SPIRIT LM. Это мощный инструмент, который может свободно смешивать текст и речь. Он основан на предварительно обученной модели текстового языка с 7 миллиардами параметров и расширяется до речевой модальности. непрерывное обучение. SPIRIT LM может не только понимать и генерировать текст и речь, но, что более важно, он может смешивать их для выполнения нескольких функций, таких как распознавание речи, синтез речи, классификация речи и т. д. Он особенно хорош в эмоциональном выражении и может генерировать более естественные и эмоциональный голос благодаря дизайну двух версий: «Basic Edition» и «Expression Edition».
Meta AI недавно открыла исходный код базовой мультимодальной языковой модели под названием SPIRIT LM, которая может свободно смешивать текст и речь, открывая новые возможности для мультимодальных задач с аудио и текстом.
SPIRIT LM основан на предварительно обученной модели текстового языка с 7 миллиардами параметров и распространяется на речевые модальности посредством непрерывного обучения текстовым и речевым единицам. Он может понимать и генерировать текст как большую текстовую модель, а также понимать и генерировать речь. Он даже может смешивать текст и речь для создания различных магических эффектов. Например, вы можете использовать его для распознавания речи и конвертировать речь в нее! текст; вы также можете использовать его для синтеза речи, чтобы преобразовать текст в речь; вы также можете использовать его для классификации речи, чтобы определить, какую эмоцию выражает фрагмент речи;
Еще более мощным является то, что SPIRIT LM также особенно хорош в «эмоциональном выражении»! Он может распознавать и генерировать множество различных интонаций и стилей голоса, благодаря чему голос ИИ звучит более естественно и эмоционально. Вы можете себе представить, что голос, генерируемый SPIRIT LM, больше не является холодным машинным голосом, а похож на голос реального человека, полный радости, гнева, печали и радости!
Чтобы сделать ИИ более «эмоциональным», исследователи Meta также специально разработали две версии SPIRIT LM:
«Базовое издание» (BASE): эта версия в основном фокусируется на фонемной информации речи, которая является «базовым составом» речи.
«Выразительная версия» (EXPRESSIVE): помимо информации о фонемах, эта версия также добавляет информацию о тоне и стиле, которая может сделать голос ИИ более ярким и выразительным.
Итак, как же SPIRIT LM все это делает?
Проще говоря, SPIRIT LM обучен на основе LLAMA2, сверхмощной модели большого текста, ранее выпущенной Meta. Исследователи «передали» LLAMA2 большое количество текстовых и речевых данных и применили специальный метод «чередующегося обучения», чтобы LLAMA2 могла одновременно изучать правила текста и речи.
Чтобы проверить способность SPIRIT LM к «эмоциональному выражению», исследователи Meta также разработали новый тестовый тест — «тест сохранения речи и текста» (STSP). Этот тестовый тест содержит множество речевых и текстовых подсказок, выражающих различные эмоции, чтобы проверить, может ли модель ИИ точно распознавать и генерировать речь и текст с соответствующими эмоциями. Результаты показывают, что «версия выражения» SPIRIT LM хорошо справляется с сохранением эмоций и на данный момент является первой моделью искусственного интеллекта, которая может сохранять эмоциональную информацию в разных модальностях!
Конечно, исследователи Meta также признали, что в SPIRIT LM еще есть много областей для улучшения. Например, SPIRIT LM в настоящее время поддерживает только английский язык и в будущем его необходимо расширить на другие языки, масштаб модели SPIRIT LM недостаточно велик, и необходимо продолжать расширять масштаб модели и улучшать производительность модели; будущее.
SPIRIT LM — это крупный прорыв Meta в области искусственного интеллекта. Он открывает нам дверь в «звучащий и эмоциональный» мир искусственного интеллекта. Я верю, что в ближайшем будущем мы увидим больше интересных приложений, разработанных на базе SPIRIT LM, чтобы ИИ мог не только красноречиво говорить, но и выражать эмоции, как реальные люди, и общаться с нами более естественно и сердечно!
Адрес проекта: https://speechbot.github.io/spiritlm/
Адрес статьи: https://arxiv.org/pdf/2402.05755.
В целом, открытый исходный код SPIRIT LM открывает новые возможности для разработки мультимодального искусственного интеллекта. Его мощные возможности выражения эмоций и возможности кросс-модальной обработки информации предвещают будущие инновации в способах взаимодействия искусственного интеллекта с людьми. Мы надеемся, что в будущем SPIRIT LM будет реализован на большем количестве языков и сценариев применения.