sherpa
é uma estrutura de inferência de texto de fala de código aberto usando PyTorch, com foco exclusivamente em modelos ponta a ponta (E2E), ou seja, modelos baseados em transdutor e CTC. Ele fornece APIs C++ e Python.
Este projeto concentra-se na implantação, ou seja, na utilização de modelos pré-treinados para transcrever a fala. Se você estiver interessado em como treinar ou ajustar seus próprios modelos, consulte a cascata de gelo.
Também temos outros projetos semelhantes que não dependem do PyTorch:
sherpa-onnx
esherpa-ncnn
também suportam iOS, Android e sistemas embarcados.
Consulte a documentação em https://k2-fsa.github.io/sherpa/
Experimente sherpa
no seu navegador sem instalar nada: https://huggingface.co/spaces/k2-fsa/automatic-speech-recognition