Vosk — это автономный набор инструментов для распознавания речи с открытым исходным кодом. Он обеспечивает распознавание речи на более чем 20 языках и диалектах — английском, индийском английском, немецком, французском, испанском, португальском, китайском, русском, турецком, вьетнамском, итальянском, голландском, каталанском, арабском, греческом, фарси, филиппинском, украинском, казахском, Шведский, японский, эсперанто, хинди, чешский, польский. Еще больше впереди.
Модели Vosk небольшие (50 МБ), но обеспечивают непрерывную транскрипцию большого словарного запаса, ответ с нулевой задержкой благодаря потоковому API, реконфигурируемый словарный запас и идентификацию говорящего.
Привязки распознавания речи реализованы для различных языков программирования, таких как Python, Java, Node.JS, C#, C++, Rust, Go и других.
Vosk обеспечивает распознавание речи для чат-ботов, умной бытовой техники и виртуальных помощников. Он также может создавать субтитры для фильмов, транскрипцию лекций и интервью.
Vosk масштабируется от небольших устройств, таких как Raspberry Pi или смартфон Android, до больших кластеров.
Инструкции по установке, примеры и документацию можно найти на веб-сайте Vosk.