sherpa
doc
sherpa
PyTorch を使用したオープンソースの音声テキスト推論フレームワークであり、エンドツーエンド (E2E) モデル、つまりトランスデューサおよび CTC ベースのモデルのみに焦点を当てています。 C++ と Python API の両方を提供します。
このプロジェクトは、展開、つまり、音声を書き起こすための事前トレーニング済みモデルの使用に焦点を当てています。独自のモデルをトレーニングまたは微調整する方法に興味がある場合は、icefall を参照してください。
PyTorch に依存しない他の同様のプロジェクトもあります。
sherpa-onnx
およびsherpa-ncnn
iOS、Android、および組み込みシステムもサポートします。
https://k2-fsa.github.io/sherpa/ のドキュメントを参照してください。
何もインストールせずにブラウザ内からsherpa
試してください: https://huggingface.co/spaces/k2-fsa/automatic-speech-recognition