Downcodes 편집자 보고서: 미국 스타트업 Useful Sensors는 Moonshine이라는 오픈 소스 음성 인식 모델을 출시했습니다. 이 모델은 OpenAI의 Whisper 모델과 비교하여 속도가 5배 향상되었습니다. Moonshine은 리소스가 제한된 하드웨어에서 실시간 애플리케이션을 구현하도록 설계되었으며 유연한 아키텍처를 통해 다양한 애플리케이션 시나리오에 적응할 수 있습니다. 이는 저전력 장치에서 실행하기 위해 음성 인식이 필요한 애플리케이션에 있어 획기적인 발전입니다.
오디오를 고정된 30초 세그먼트로 처리하는 Whisper와 달리 Moonshine은 실제 오디오 길이에 따라 처리 시간을 조정합니다. 이를 통해 짧은 오디오 클립을 처리할 때 성능이 향상되어 제로 패딩으로 인한 처리 오버헤드가 줄어듭니다.
Moonshine은 두 가지 버전으로 제공됩니다. 소형 Tiny 버전에는 2,710만 개의 매개변수가 있고, 대형 Base 버전에는 6,150만 개의 매개변수가 있습니다. 이에 비해 OpenAI의 유사한 모델은 더 큰 매개변수를 가지고 있으며, Whispertiny.en은 3,780만 개, base.en은 7,260만 개입니다.
테스트 결과에 따르면 Moonshine의 Tiny 모델은 컴퓨팅 리소스를 덜 소모하면서 정확성 측면에서 Whisper와 동일합니다. 다양한 오디오 레벨과 배경 소음 전반에 걸쳐 Moonshine의 두 버전 모두 단어 오류율(WER)이 Whisper보다 낮아 강력한 성능을 보였습니다.
연구팀은 Moonshine이 매우 짧은 오디오 클립(1초 미만)을 처리하는 데 있어 여전히 개선의 여지가 있다고 지적했습니다. 이러한 짧은 오디오는 훈련 데이터에서 상대적으로 작은 부분을 차지하므로 이러한 오디오 클립의 훈련을 늘리면 모델 성능이 향상될 수 있습니다.
또한 Moonshine의 오프라인 기능은 새로운 애플리케이션 시나리오를 열어주며 이전에는 하드웨어 제한으로 인해 불가능했던 애플리케이션이 이제는 가능해졌습니다. 더 높은 전력 소비가 필요한 Whisper와 달리 Moonshine은 스마트폰 및 Raspberry Pi와 같은 소형 장치에서 실행하기에 적합합니다. Useful Sensors는 Moonshine을 사용하여 영어-스페인어 번역기 Torre를 개발하고 있습니다.
Moonshine의 코드는 GitHub에 공개되었으며, 사용자는 Whisper와 같은 AI 전사 시스템에 오류가 있을 수 있다는 점을 인지해야 합니다. 일부 연구에 따르면 Whisper는 콘텐츠를 생성할 때 잘못된 정보를 포함할 가능성이 1.4%이며, 특히 언어 장애가 있는 사람들의 경우 오류율이 더 높은 것으로 나타났습니다.
프로젝트 입구: https://github.com/usefulsensors/moonshine
Moonshine 오픈 소스 음성 인식 모델의 출현은 효율적인 성능과 유연한 아키텍처를 통해 다양한 분야에서 광범위한 응용 가능성을 갖게 되었습니다. 그러나 사용자는 잠재적인 오류도 인지하고 주의해서 사용해야 합니다. Downcodes의 편집자는 모든 사람이 후속 업데이트 및 개선 사항에 주의를 기울일 것을 권장합니다.