Informes del editor de Downcodes: La startup estadounidense Useful Sensors ha lanzado un modelo de reconocimiento de voz de código abierto llamado Moonshine. Este modelo muestra ventajas significativas en términos de eficiencia de recursos informáticos y velocidad de procesamiento. En comparación con el modelo Whisper de OpenAI, su velocidad se ha mejorado cinco veces. Moonshine está diseñado para implementar aplicaciones en tiempo real en hardware con recursos limitados y su arquitectura flexible le permite adaptarse a diversos escenarios de aplicaciones. Este es un gran avance para las aplicaciones que requieren reconocimiento de voz para ejecutarse en dispositivos de bajo consumo.
A diferencia de Whisper, que procesa el audio en segmentos fijos de 30 segundos, Moonshine ajusta el tiempo de procesamiento en función de la duración real del audio. Esto hace que funcione bien al procesar clips de audio más cortos, lo que reduce la sobrecarga de procesamiento debido al relleno cero.
Moonshine viene en dos versiones: la versión pequeña Tiny tiene 27,1 millones de parámetros y la versión Base grande tiene 61,5 millones de parámetros. En comparación, los modelos similares de OpenAI tienen parámetros más grandes, Whisper tiny.en tiene 37,8 millones y base.en tiene 72,6 millones.
Los resultados de las pruebas muestran que el modelo Tiny de Moonshine es equivalente a Whisper en precisión y consume menos recursos informáticos. En varios niveles de audio y ruido de fondo, ambas versiones de Moonshine fueron más bajas que Whisper en cuanto a tasa de error de palabras (WER), lo que muestra un sólido rendimiento.
El equipo de investigación observó que Moonshine todavía tiene margen de mejora cuando se trata de procesar clips de audio muy cortos (menos de un segundo). Estos audios cortos representan una proporción relativamente pequeña de los datos de entrenamiento, y aumentar el entrenamiento de dichos clips de audio puede mejorar el rendimiento del modelo.
Además, las capacidades fuera de línea de Moonshine abren nuevos escenarios de aplicaciones, y aplicaciones que antes eran imposibles debido a limitaciones de hardware ahora son factibles. A diferencia de Whisper, que requiere un mayor consumo de energía, Moonshine es adecuado para ejecutarse en teléfonos inteligentes y dispositivos pequeños como Raspberry Pi. Useful Sensors utiliza Moonshine para desarrollar su traductor inglés-español Torre.
El código de Moonshine se publicó en GitHub y los usuarios deben tener en cuenta que los sistemas de transcripción de IA como Whisper pueden tener errores. Algunos estudios han demostrado que Whisper tiene un 1,4% de posibilidades de contener información falsa al generar contenido, especialmente para personas con problemas de lenguaje, donde la tasa de error es mayor.
Entrada del proyecto: https://github.com/usefulsensors/moonshine
La aparición del modelo de reconocimiento de voz de código abierto Moonshine brinda nuevas posibilidades para aplicaciones de reconocimiento de voz en dispositivos de bajos recursos. Su rendimiento eficiente y su arquitectura flexible lo hacen tener amplias perspectivas de aplicación en muchos campos. Pero los usuarios también deben ser conscientes de los posibles errores y utilizarlos con precaución. El editor de Downcodes recomienda que todos presten atención a sus posteriores actualizaciones y mejoras.