무어 스레드(Moore Thread)가 국내 전 기능 GPU 트레이닝 및 추론을 기반으로 한 업계 최초의 대규모 오픈소스 음성 모델인 대규모 오디오 이해 모델 MooER를 오픈소스화했는데, 이는 획기적인 일이다. MooER는 중국어 및 영어 음성 인식과 중국어-영어 음성 번역을 지원하여 강력한 다국어 처리 기능을 보여줍니다. 혁신적인 3부분 모델 구조(인코더, 어댑터 및 디코더)를 통해 모델이 오디오를 효율적으로 처리하고 다운스트림 작업을 수행할 수 있습니다. 현재 5,000시간의 데이터를 기반으로 학습된 추론 코드와 모델은 오픈 소스화되어 있으며, 향후 8만 시간의 데이터를 기반으로 학습된 학습 코드와 고급 모델도 오픈 소스화될 예정이므로 개발이 크게 촉진될 것입니다. 국내외 오디오 AI 기술의
MooER는 여러 유명 오픈 소스 오디오 이해 대형 모델의 비교 테스트에서 중국어 단어 오류율(CER)이 4.21%로 낮고 영어 단어 오류율(WER)이 17.98%, 특히 중국어의 BLEU로 우수한 성능을 보였습니다. -영어 번역 테스트 세트 점수가 25.2점으로 타 오픈소스 모델을 앞지르고 있습니다. 80,000시간의 데이터를 기반으로 훈련된 MooER-80k 모델은 CER과 WER이 각각 3.50%와 12.66%로 감소하여 더 강력한 성능을 보여 큰 잠재력을 보여줍니다. 무어 스레드의 이번 행보는 AI 분야에서 국내 GPU의 막강한 저력을 보여줄 뿐만 아니라, 글로벌 오디오 AI 기술 개발에 새로운 활력을 불어넣는 것으로, 앞으로 MooER가 더 많은 돌파구를 가져올 것으로 기대된다.
대형 모델을 이해하는 여러 유명 오픈 소스 오디오와의 비교 테스트에서 MooER-5K는 탁월한 성능을 발휘했습니다. 중국어 테스트에서는 단어 오류율(CER)이 4.21%에 달했고, 영어 테스트에서는 단어 오류율(WER)이 17.98%로 다른 상위 모델보다 우수하거나 동일했습니다. 특히 Covost2zh2en 중국어-영어 번역 테스트 세트에서 MooER의 BLEU 점수가 25.2로 높다는 점은 언급할 가치가 있습니다. 이는 다른 오픈 소스 모델보다 훨씬 앞서며 산업 수준 애플리케이션과 비교할 수 있는 수준에 도달합니다.
더욱 흥미로운 점은 8만 시간의 데이터를 기반으로 훈련된 MooER-80k 모델이 더욱 강력한 성능을 보여준다는 점입니다. 중국 테스트 세트의 CER은 3.50%로 더욱 떨어졌고, 영어 테스트 세트의 WER도 12.66으로 최적화되었습니다. %. 엄청난 발전 가능성을 보여줍니다.
무어 스레드(Moore Thread)의 오픈소스 MooER은 AI 분야에서 국내 GPU의 적용 강점을 보여줄 뿐만 아니라, 글로벌 오디오 AI 기술 개발에 새로운 활력을 불어넣는다. 더 많은 훈련 데이터와 코드가 오픈 소스화됨에 따라 업계에서는 MooER가 음성 인식, 번역 및 기타 분야에서 더 많은 혁신을 가져오고 오디오 AI 기술의 대중화와 혁신적인 적용을 촉진할 것으로 기대하고 있습니다.
주소: https://arxiv.org/pdf/2408.05101
MooER의 오픈소스는 국내 GPU가 AI 대형 모델 분야에서 상당한 진전을 이루어 국내외 개발자에게 귀중한 리소스와 플랫폼을 제공했음을 나타냅니다. MooER는 앞으로 더 많은 응용 시나리오에서 역할을 수행하고 오디오 AI 기술의 지속적인 혁신과 개발을 촉진할 수 있을 것으로 기대됩니다.