Meta AI는 텍스트와 음성을 자유롭게 혼합할 수 있는 획기적인 성과인 SPIRIT LM이라는 기본 다중 모드 언어 모델을 놀랍게도 출시했습니다! 70억 개의 매개변수가 있는 사전 학습된 텍스트 언어 모델을 기반으로 하며 지속적인 학습을 통해 음성 모드로 확장되어 이중 모달 이해와 텍스트 및 음성 생성을 실현하고 두 가지를 혼합할 수도 있어 예상치 못한 응용 효과를 가져올 수 있습니다. 다운코드 편집자는 SPIRIT LM의 강력한 기능과 그 뒤에 숨은 기술적 혁신에 대해 심층적으로 이해할 수 있도록 안내합니다.
Meta AI는 최근 텍스트와 음성을 자유롭게 혼합할 수 있는 SPIRIT LM이라는 기본 다중 모드 언어 모델을 오픈 소스화하여 오디오와 텍스트의 다중 모드 작업에 대한 새로운 가능성을 열었습니다.
SPIRIT LM은 사전 학습된 70억 매개변수의 텍스트 언어 모델을 기반으로 하며 텍스트 및 음성 단위에 대한 지속적인 학습을 통해 음성 양식으로 확장됩니다. 대형 텍스트 모델처럼 텍스트를 이해하고 생성할 수 있으며 음성도 이해하고 생성할 수 있습니다. 텍스트와 음성을 함께 혼합하여 다양한 마법 효과를 만들 수도 있습니다. 텍스트; 음성 합성에 사용하여 텍스트를 음성으로 변환할 수도 있습니다. 또한 음성 분류에 사용하여 음성이 표현하는 감정을 결정할 수도 있습니다.
더욱 강력한 점은 SPIRIT LM이 특히 "감정 표현"에 뛰어나다는 점입니다. 다양한 음성 억양과 스타일을 인식하고 생성하여 AI의 음성을 더욱 자연스럽고 감성적으로 만들어줍니다. SPIRIT LM이 생성하는 목소리는 더 이상 차가운 기계 목소리가 아니라 실제 사람이 말하는 것처럼 기쁨과 분노, 슬픔과 기쁨이 가득한 목소리라고 상상할 수 있습니다!
AI를 더 나은 "감정적"으로 만들기 위해 Meta 연구자들은 특별히 SPIRIT LM의 두 가지 버전을 개발했습니다.
"Basic Edition"(BASE): 이 버전은 주로 음성의 "기본 구성"인 음성의 음소 정보에 중점을 둡니다.
"Expressive 버전"(EXPRESSIVE): 이 버전은 음소 정보 외에도 음색 및 스타일 정보도 추가하여 AI의 음성을 더욱 생생하고 표현력 있게 만들 수 있습니다.
그렇다면 SPIRIT LM은 이 모든 작업을 어떻게 수행합니까?
간단히 말해서 SPIRIT LM은 이전에 Meta가 출시한 초강력 텍스트 대형 모델인 LLAMA2를 기반으로 학습되었습니다. 연구원들은 LLAMA2에 대량의 텍스트 및 음성 데이터를 '공급'하고 LLAMA2가 텍스트와 음성의 규칙을 동시에 학습할 수 있도록 특별한 '인터리브 학습' 방법을 채택했습니다.
SPIRIT LM의 '감정 표현' 능력을 테스트하기 위해 메타 연구진은 '음성 텍스트 감정 보존 벤치마크(STSP)'라는 새로운 테스트 벤치마크도 설계했습니다. 이 테스트 벤치마크에는 다양한 감정을 표현하는 다양한 음성 및 텍스트 프롬프트가 포함되어 있어 AI 모델이 해당 감정이 포함된 음성 및 텍스트를 정확하게 인식하고 생성할 수 있는지 테스트합니다. 결과는 SPIRIT LM의 "표현 버전"이 감정 유지에 좋은 성능을 발휘하며 현재 여러 양식에 걸쳐 감정 정보를 유지할 수 있는 최초의 AI 모델임을 보여줍니다!
물론 메타 연구진도 SPIRIT LM이 아직 개선할 부분이 많다는 점을 인정했다. 예를 들어 SPIRIT LM은 현재 영어만 지원하며 향후 다른 언어로 확장해야 합니다. SPIRIT LM의 모델 규모는 충분하지 않으며, 앞으로도 계속해서 모델 규모를 확장하고 모델 성능을 개선해야 합니다. 미래.
SPIRIT LM은 AI 분야에서 Meta의 획기적인 발전으로 우리에게 "소리와 감성"을 선사하는 AI 세계로의 문을 열어줍니다. 가까운 시일 내에 SPIRIT LM을 기반으로 한 더 흥미로운 애플리케이션이 개발되어 AI가 유창하게 말할 수 있을 뿐만 아니라 실제 사람처럼 감정을 표현하고 더 자연스럽고 친근하게 우리와 소통할 수 있을 것이라고 믿습니다!
프로젝트 주소: https://speechbot.github.io/spiritlm/
논문 주소: https://arxiv.org/pdf/2402.05755
전체적으로 SPIRIT LM의 오픈 소스는 다중 모드 AI 분야에 흥미로운 발전을 가져왔습니다. 그 출현은 AI가 미래에 음성 상호 작용과 감정 표현에서 더 큰 혁신을 이룰 것임을 예고합니다. 이 분야의 최신 소식을 주목해주세요!