미국 스타트 업 유용한 센서는 오디오 데이터 처리의 효율성을 향상시키기 위해 Moonshine이라는 오픈 소스 음성 인식 모델을 출시했습니다. OpenAi의 Whisper와 비교할 때 Moonshine은 컴퓨팅 리소스에서 더 경제적이며 특히 자원으로 제한 된 하드웨어 및 실시간 응용 프로그램의 경우 처리 속도가 5 배 증가했습니다. 유연한 아키텍처와 오디오 길이에 따른 처리 시간의 동적 조정으로 짧은 오디오 클립을 처리 할 때 탁월하고 처리 오버 헤드를 효과적으로 줄입니다. Moonshine은 작은 버전과 기본의 두 가지 버전을 제공하며 각각 2 억 2,100 만 및 615 백만의 매개 변수를 제공하며, 둘 다 리소스 사용에서 유사한 모델의 성능보다 우수합니다.
오디오를 고정 30 초 클립으로 나누는 Whisper와 달리 Moonshine은 실제 오디오 길이에 따라 처리 시간을 조정합니다. 이렇게하면 오디오 클립이 짧아 질 때 잘 작동하여 패딩이 제로로 인해 처리 오버 헤드가 줄어 듭니다.
Moonshine에는 두 가지 버전이 있습니다. 작은 작은 버전의 매개 변수량은 27.1 백만이며 대형 기본 버전의 매개 변수량은 6150 만입니다. 대조적으로, OpenAi의 유사한 모델 매개 변수는 더 크며 Whisper Tiny.en은 3,780 만,베이스는 7,260 만 명입니다.
테스트 결과에 따르면 Moonshine의 작은 모델은 정확성 측면에서 속삭임과 비슷하며 컴퓨팅 리소스가 적습니다. 두 버전의 Moonshine은 다양한 오디오 수준 및 배경 노이즈에 대해 WER (Whistper in Word 오류율)보다 낮으므로 성능이 강하게 나타납니다.
연구팀은 매우 짧은 오디오 칩을 처리 할 때 Moonshine이 여전히 개선의 여지가 있다고 지적했다 (1 초 미만). 이 짧은 오디오는 적은 비율의 교육 데이터를 차지하며 이러한 오디오 클립의 교육을 늘리면 모델의 성능이 향상 될 수 있습니다.
또한 Moonshine의 오프라인 기능은 새로운 응용 프로그램 시나리오를 열어주고 하드웨어 제한으로 인해 이전에 사용할 수 없었던 응용 프로그램이 가능합니다. 더 높은 전력 소비가 필요한 Whisper와 달리 Moonshine은 스마트 폰 및 Raspberry Pi와 같은 소규모 장치에서 실행하는 데 적합합니다. 유용한 센서는 Moonshine을 사용하여 영어 스페인어 번역가 Torre를 개발하고 있습니다.
Moonshine의 코드는 Github에서 릴리스되었으며 Whisper와 같은 AI 전사 시스템은 오류가 발생할 수 있음을 주목해야합니다. 일부 연구에 따르면 Whisper는 컨텐츠를 생성 할 때, 특히 언어 장벽이있는 사람들의 경우 오류율이 높은 오류율이 1.4% 확률로 나타납니다.
프로젝트 입구 : https://github.com/usefulsensors/moonshine
핵심 사항 :
Moonshine은 Openai의 속삭임보다 5 배 빠르게 처리되는 오픈 소스 음성 인식 모델입니다.
이 모델은 오디오 길이에 따라 처리 시간을 조정할 수 있으며 특히 짧은 오디오 클립에 적합합니다.
Moonshine은 오프라인 작동을 지원하며 제한된 리소스와 함께 사용하기에 적합합니다.
요컨대, Moonshine은 효율적인 처리 속도, 유연한 아키텍처 및 자원에 대한 수요, 특히 자원 제약 장치 및 실시간 응용 시나리오에서 음성 인식 기술에 새로운 가능성을 제공합니다. 오픈 소스 기능은 또한 개발자가 개선 및 적용을 촉진하며주의를 기울이고 기대할 가치가 있습니다.