Relatórios do editor de downcodes: A startup norte-americana Useful Sensors lançou um modelo de reconhecimento de voz de código aberto chamado Moonshine. Este modelo mostra vantagens significativas em termos de eficiência de recursos de computação e velocidade de processamento. Em comparação com o modelo Whisper da OpenAI, sua velocidade é melhorada. Moonshine foi projetado para implementar aplicativos em tempo real em hardware com recursos limitados e sua arquitetura flexível permite que ele se adapte a vários cenários de aplicativos. Este é um grande avanço para aplicações que requerem reconhecimento de voz para serem executadas em dispositivos de baixo consumo de energia.
Ao contrário do Whisper, que processa o áudio em segmentos fixos de 30 segundos, o Moonshine ajusta o tempo de processamento com base na duração real do áudio. Isso faz com que ele tenha um bom desempenho ao processar clipes de áudio mais curtos, reduzindo a sobrecarga de processamento devido ao preenchimento zero.
Moonshine vem em duas versões: a versão pequena Tiny tem 27,1 milhões de parâmetros e a versão grande Base tem 61,5 milhões de parâmetros. Em comparação, os modelos semelhantes do OpenAI têm parâmetros maiores, Whisper tiny.en é 37,8 milhões e base.en é 72,6 milhões.
Os resultados dos testes mostram que o modelo Tiny do Moonshine é equivalente ao Whisper em precisão, enquanto consome menos recursos de computação. Em vários níveis de áudio e ruído de fundo, ambas as versões do Moonshine foram inferiores às do Whisper na taxa de erro de palavras (WER), mostrando um forte desempenho.
A equipe de pesquisa observou que o Moonshine ainda pode melhorar quando se trata de processar clipes de áudio muito curtos (menos de um segundo). Esses áudios curtos representam uma proporção relativamente pequena dos dados de treinamento, e aumentar o treinamento desses clipes de áudio pode melhorar o desempenho do modelo.
Além disso, os recursos off-line do Moonshine abrem novos cenários de aplicação, e aplicações que antes eram impossíveis devido a limitações de hardware agora são viáveis. Ao contrário do Whisper, que requer maior consumo de energia, o Moonshine é adequado para rodar em smartphones e pequenos dispositivos como Raspberry Pi. A Useful Sensors está usando o Moonshine para desenvolver seu tradutor inglês-espanhol Torre.
O código do Moonshine foi lançado no GitHub e os usuários precisam estar cientes de que sistemas de transcrição de IA como o Whisper podem conter erros. Alguns estudos mostram que o Whisper tem 1,4% de chance de conter informações falsas na geração de conteúdo, principalmente para pessoas com deficiência de linguagem, onde o índice de erros é maior.
Entrada do projeto: https://github.com/usefulsensors/moonshine
O surgimento do modelo de reconhecimento de voz de código aberto Moonshine traz novas possibilidades para aplicações de reconhecimento de voz em dispositivos de poucos recursos. Seu desempenho eficiente e arquitetura flexível fazem com que ele tenha amplas perspectivas de aplicação em muitos campos. Mas os usuários também precisam estar cientes dos possíveis erros e usá-los com cautela. O editor do Downcodes recomenda que todos prestem atenção às suas atualizações e melhorias posteriores.