sherpa
es un marco de inferencia de voz, texto y texto de código abierto que utiliza PyTorch y se centra exclusivamente en modelos de extremo a extremo (E2E), es decir, modelos basados en transductores y CTC. Proporciona API de C++ y Python.
Este proyecto se centra en la implementación, es decir, el uso de modelos previamente entrenados para transcribir el habla. Si está interesado en cómo entrenar o perfeccionar sus propios modelos, consulte Icefall.
También tenemos otros proyectos similares que no dependen de PyTorch:
sherpa-onnx
ysherpa-ncnn
también son compatibles con iOS, Android y sistemas integrados.
Consulte la documentación en https://k2-fsa.github.io/sherpa/
Pruebe sherpa
desde su navegador sin instalar nada: https://huggingface.co/spaces/k2-fsa/automatic-speech-recognition