sherpa
est un framework d'inférence parole-texte-texte open source utilisant PyTorch, se concentrant exclusivement sur les modèles de bout en bout (E2E), à savoir les modèles basés sur des transducteurs et des CTC. Il fournit des API C++ et Python.
Ce projet se concentre sur le déploiement, c'est-à-dire l'utilisation de modèles pré-entraînés pour transcrire la parole. Si vous souhaitez savoir comment entraîner ou peaufiner vos propres modèles, veuillez vous référer à icefall.
Nous avons également d'autres projets similaires qui ne dépendent pas de PyTorch :
sherpa-onnx
etsherpa-ncnn
prennent également en charge iOS, Android et les systèmes embarqués.
Veuillez vous référer à la documentation sur https://k2-fsa.github.io/sherpa/
Essayez sherpa
depuis votre navigateur sans rien installer : https://huggingface.co/spaces/k2-fsa/automatic-speech-recognition