Vosk ist ein Offline-Open-Source-Spracherkennungs-Toolkit. Es ermöglicht die Spracherkennung für mehr als 20 Sprachen und Dialekte – Englisch, Indisches Englisch, Deutsch, Französisch, Spanisch, Portugiesisch, Chinesisch, Russisch, Türkisch, Vietnamesisch, Italienisch, Niederländisch, Katalanisch, Arabisch, Griechisch, Farsi, Philippinisch, Ukrainisch, Kasachisch, Schwedisch, Japanisch, Esperanto, Hindi, Tschechisch, Polnisch. Weiteres wird folgen.
Vosk-Modelle sind klein (50 MB), bieten aber eine kontinuierliche Transkription großer Vokabeln, eine latenzfreie Reaktion mit Streaming-API, rekonfigurierbares Vokabular und Sprecheridentifikation.
Spracherkennungsbindungen implementiert für verschiedene Programmiersprachen wie Python, Java, Node.JS, C#, C++, Rust, Go und andere.
Vosk liefert Spracherkennung für Chatbots, Smart-Home-Geräte und virtuelle Assistenten. Es können auch Untertitel für Filme sowie Transkriptionen für Vorträge und Interviews erstellt werden.
Vosk lässt sich von kleinen Geräten wie Raspberry Pi oder Android-Smartphones bis hin zu großen Clustern skalieren.
Installationsanweisungen, Beispiele und Dokumentation finden Sie auf der Vosk-Website.