Downcodes-Redakteur berichtet: Das US-Startup Useful Sensors hat ein Open-Source-Spracherkennungsmodell namens Moonshine veröffentlicht. Dieses Modell weist im Vergleich zum Whisper-Modell von OpenAI erhebliche Vorteile auf. Moonshine ist für die Implementierung von Echtzeitanwendungen auf ressourcenbeschränkter Hardware konzipiert und kann dank seiner flexiblen Architektur an verschiedene Anwendungsszenarien angepasst werden. Dies ist ein großer Durchbruch für Anwendungen, die eine Spracherkennung erfordern, um auf Geräten mit geringem Stromverbrauch ausgeführt zu werden.
Im Gegensatz zu Whisper, das Audio in feste 30-Sekunden-Segmente verarbeitet, passt Moonshine die Verarbeitungszeit basierend auf der tatsächlichen Audiolänge an. Dies sorgt für eine gute Leistung bei der Verarbeitung kürzerer Audioclips und reduziert den Verarbeitungsaufwand aufgrund der Nullauffüllung.
Moonshine gibt es in zwei Versionen: Die kleine Tiny-Version hat 27,1 Millionen Parameter und die große Base-Version hat 61,5 Millionen Parameter. Im Vergleich dazu haben ähnliche Modelle von OpenAI größere Parameter: Whisper tiny.en beträgt 37,8 Millionen und base.en beträgt 72,6 Millionen.
Testergebnisse zeigen, dass das Tiny-Modell von Moonshine hinsichtlich der Genauigkeit mit Whisper gleichwertig ist und gleichzeitig weniger Rechenressourcen verbraucht. Bei verschiedenen Audiopegeln und Hintergrundgeräuschen waren beide Versionen von Moonshine hinsichtlich der Wortfehlerrate (WER) niedriger als Whisper und zeigten eine starke Leistung.
Das Forschungsteam stellte fest, dass Moonshine bei der Verarbeitung sehr kurzer Audioclips (weniger als eine Sekunde) noch Verbesserungspotenzial hat. Diese kurzen Audiodateien machen einen relativ kleinen Teil der Trainingsdaten aus, und ein verstärktes Training solcher Audioclips kann die Leistung des Modells verbessern.
Darüber hinaus eröffnen die Offline-Fähigkeiten von Moonshine neue Anwendungsszenarien und Anwendungen, die bisher aufgrund von Hardware-Einschränkungen nicht möglich waren, sind jetzt realisierbar. Im Gegensatz zu Whisper, das einen höheren Stromverbrauch erfordert, eignet sich Moonshine für die Ausführung auf Smartphones und kleinen Geräten wie dem Raspberry Pi. Useful Sensors nutzt Moonshine, um seinen Englisch-Spanisch-Übersetzer Torre zu entwickeln.
Der Code für Moonshine wurde auf GitHub veröffentlicht und Benutzer müssen sich darüber im Klaren sein, dass KI-Transkriptionssysteme wie Whisper Fehler aufweisen können. Einige Studien haben gezeigt, dass Whisper bei der Generierung von Inhalten mit einer Wahrscheinlichkeit von 1,4 % falsche Informationen enthält, insbesondere bei Menschen mit Sprachbehinderungen, bei denen die Fehlerquote höher ist.
Projekteingang: https://github.com/usefulsensors/moonshine
Das Aufkommen des Open-Source-Spracherkennungsmodells Moonshine eröffnet neue Möglichkeiten für Spracherkennungsanwendungen auf Geräten mit geringen Ressourcen. Dank seiner effizienten Leistung und flexiblen Architektur bietet es breite Anwendungsaussichten in vielen Bereichen. Nutzer müssen sich aber auch möglicher Fehler bewusst sein und diese mit Vorsicht nutzen. Der Herausgeber von Downcodes empfiehlt jedem, auf die nachfolgenden Aktualisierungen und Verbesserungen zu achten.