Meta AI는 최근 SPIRIT LM이라는 다중 모달 언어 모델을 오픈소스화했습니다. 이는 텍스트와 음성을 자유롭게 혼합할 수 있는 강력한 도구입니다. 이는 70억 개의 매개변수를 갖춘 사전 훈련된 텍스트 언어 모델을 기반으로 하며 지속적인 훈련 . SPIRIT LM은 텍스트와 음성을 이해하고 생성할 수 있을 뿐만 아니라, 더 중요한 것은 두 가지를 혼합하여 음성 인식, 음성 합성, 음성 분류 등 다양한 기능을 구현할 수 있다는 것입니다. 특히 감정 표현에 뛰어나며 보다 자연스러운 생성이 가능합니다. "Basic Edition"과 "Expression Edition" 두 가지 버전의 디자인 덕분에 감성적인 목소리를 선사합니다.
Meta AI는 최근 텍스트와 음성을 자유롭게 혼합할 수 있는 SPIRIT LM이라는 기본 다중 모드 언어 모델을 오픈 소스화하여 오디오와 텍스트의 다중 모드 작업에 대한 새로운 가능성을 열었습니다.
SPIRIT LM은 사전 학습된 70억 매개변수의 텍스트 언어 모델을 기반으로 하며 텍스트 및 음성 단위에 대한 지속적인 학습을 통해 음성 양식으로 확장됩니다. 대형 텍스트 모델처럼 텍스트를 이해하고 생성할 수 있으며 음성도 이해하고 생성할 수 있습니다. 텍스트와 음성을 함께 혼합하여 다양한 마법 효과를 만들 수도 있습니다. 텍스트; 음성 합성에 사용하여 텍스트를 음성으로 변환할 수도 있습니다. 또한 음성 분류에 사용하여 음성이 표현하는 감정을 결정할 수도 있습니다.
더욱 강력한 점은 SPIRIT LM이 특히 "감정 표현"에 뛰어나다는 점입니다. 다양한 음성 억양과 스타일을 인식하고 생성하여 AI의 음성을 더욱 자연스럽고 감성적으로 만들어줍니다. SPIRIT LM이 생성하는 목소리는 더 이상 차가운 기계 목소리가 아니라 실제 사람이 말하는 것처럼 기쁨과 분노, 슬픔과 기쁨이 가득한 목소리라고 상상할 수 있습니다!
AI를 더 나은 "감정적"으로 만들기 위해 Meta 연구자들은 특별히 SPIRIT LM의 두 가지 버전을 개발했습니다.
"Basic Edition"(BASE): 이 버전은 주로 음성의 "기본 구성"인 음성의 음소 정보에 중점을 둡니다.
"Expressive 버전"(EXPRESSIVE): 이 버전은 음소 정보 외에도 음색 및 스타일 정보도 추가하여 AI의 음성을 더욱 생생하고 표현력 있게 만들 수 있습니다.
그렇다면 SPIRIT LM은 이 모든 작업을 어떻게 수행합니까?
간단히 말해서 SPIRIT LM은 이전에 Meta가 출시한 초강력 텍스트 대형 모델인 LLAMA2를 기반으로 학습되었습니다. 연구원들은 LLAMA2에 대량의 텍스트 및 음성 데이터를 '공급'하고 LLAMA2가 텍스트와 음성의 규칙을 동시에 학습할 수 있도록 특별한 '인터리브 학습' 방법을 채택했습니다.
SPIRIT LM의 '감정 표현' 능력을 테스트하기 위해 메타 연구진은 '음성 텍스트 감정 보존 벤치마크(STSP)'라는 새로운 테스트 벤치마크도 설계했습니다. 이 테스트 벤치마크에는 다양한 감정을 표현하는 다양한 음성 및 텍스트 프롬프트가 포함되어 있어 AI 모델이 해당 감정이 포함된 음성 및 텍스트를 정확하게 인식하고 생성할 수 있는지 테스트합니다. 결과는 SPIRIT LM의 "표현 버전"이 감정 유지에 좋은 성능을 발휘하며 현재 여러 양식에 걸쳐 감정 정보를 유지할 수 있는 최초의 AI 모델임을 보여줍니다!
물론 메타 연구진도 SPIRIT LM이 아직 개선할 부분이 많다는 점을 인정했다. 예를 들어 SPIRIT LM은 현재 영어만 지원하며 향후 다른 언어로 확장해야 합니다. SPIRIT LM의 모델 규모는 충분하지 않으며, 앞으로도 계속해서 모델 규모를 확장하고 모델 성능을 개선해야 합니다. 미래.
SPIRIT LM은 AI 분야에서 Meta의 획기적인 발전으로 우리에게 "소리와 감성"을 선사하는 AI 세계로의 문을 열어줍니다. 가까운 시일 내에 SPIRIT LM을 기반으로 한 더 흥미로운 애플리케이션이 개발되어 AI가 유창하게 말할 수 있을 뿐만 아니라 실제 사람처럼 감정을 표현하고 더 자연스럽고 친근하게 우리와 소통할 수 있을 것이라고 믿습니다!
프로젝트 주소: https://speechbot.github.io/spiritlm/
논문 주소: https://arxiv.org/pdf/2402.05755
전체적으로 SPIRIT LM의 오픈 소스는 다중 모드 AI 개발을 위한 새로운 기회를 제공합니다. 강력한 감정 표현 기능과 교차 모드 정보 처리 기능은 AI가 인간과 상호 작용하는 방식에 있어 미래 혁신을 예고합니다. 앞으로 더 많은 언어와 응용 시나리오에서 SPIRIT LM이 구현되기를 기대합니다.