sherpa onnx Télécharger - sherpa onnx Téléchargement du code source

sherpa onnx

C/C++

v1.10.34

Télécharger

Fonctions prises en charge

Reconnaissance vocale	Synthèse vocale
✔️	✔️

Identification du locuteur	Diarisation des locuteurs	Vérification du locuteur
✔️	✔️	✔️

Identification de la langue parlée	Marquage audio	Détection d'activité vocale
✔️	✔️	✔️

Repérage de mots-clés	Ajouter de la ponctuation
✔️	✔️

Plateformes prises en charge

Architecture	Androïde	IOS	Fenêtres	macOS	Linux	HarmonyOS
x64	✔️		✔️	✔️	✔️	✔️
x86	✔️		✔️
bras64	✔️	✔️	✔️	✔️	✔️	✔️
bras32	✔️				✔️	✔️
riscv64					✔️

Langages de programmation pris en charge

1.C++	2.C	3. Python	4. Javascript
✔️	✔️	✔️	✔️

5. Java	6.C#	7. Kotlin	8. Rapide
✔️	✔️	✔️	✔️

9. Allez	10. Fléchette	11. Rouille	12. Pascal
✔️	✔️	✔️	✔️

Pour le support Rust, veuillez consulter sherpa-rs

Il prend également en charge WebAssembly.

Introduction

Ce référentiel prend en charge l'exécution des fonctions suivantes localement

synthèse vocale (c.-à-d. ASR); le streaming et le non-streaming sont pris en charge
Synthèse vocale (c'est-à-dire TTS)
Diarisation des locuteurs
Identification du locuteur
Vérification du locuteur
Identification de la langue parlée
Marquage audio
VAD (par exemple, silero-vad)
Repérage de mots-clés

sur les plateformes et systèmes d'exploitation suivants :

x86, x86_64 , ARM 32 bits, ARM 64 bits (arm64, aarch64), RISC-V (riscv64)
Linux, macOS, Windows, openKylin
Android, WearOS
IOS
HarmonyOS
NoeudJS
Assemblage Web
Framboise Pi
RV1126
LicheePi4A
VisionCinq 2
旭日X3派
爱芯派
etc.

avec les API suivantes

C++, C, Python, Go, C#
Java, Kotlin, JavaScript
Rapide, Rouille
Fléchette, Objet Pascal

Liens pour les espaces Huggingface

Vous pouvez visiter les espaces Huggingface suivants pour essayer sherpa-onnx sans rien installer. Tout ce dont vous avez besoin est un navigateur.

Description	URL
Diarisation des locuteurs	Cliquez-moi
Reconnaissance vocale	Cliquez-moi
Reconnaissance vocale avec Whisper	Cliquez-moi
Synthèse vocale	Cliquez-moi
Générer des sous-titres	Cliquez-moi
Marquage audio	Cliquez-moi
Identification de la langue parlée avec Whisper	Cliquez-moi

Nous avons également des espaces construits à l'aide de WebAssembly. Ils sont listés ci-dessous :

Description	Espace câlin	Espace ModelScope
Détection d'activité vocale avec silero-vad	Cliquez-moi	地址
Reconnaissance vocale en temps réel (chinois + anglais) avec Zipformer	Cliquez-moi	地址
Reconnaissance vocale en temps réel (chinois + anglais) avec Paraformer	Cliquez-moi	地址
Reconnaissance vocale en temps réel (chinois + anglais + cantonais) avec Paraformer-large	Cliquez-moi	地址
Reconnaissance vocale en temps réel (anglais)	Cliquez-moi	地址
VAD + reconnaissance vocale (chinois + anglais + coréen + japonais + cantonais) avec SenseVoice	Cliquez-moi	地址
VAD + reconnaissance vocale (anglais) avec Whisper tiny.en	Cliquez-moi	地址
VAD + reconnaissance vocale (anglais) avec Moonshine tiny	Cliquez-moi	地址
VAD + reconnaissance vocale (anglais) avec Zipformer entraîné avec GigaSpeech	Cliquez-moi	地址
VAD + reconnaissance vocale (chinois) avec Zipformer entraîné avec WenetSpeech	Cliquez-moi	地址
VAD + reconnaissance vocale (japonais) avec Zipformer entraîné avec ReazonSpeech	Cliquez-moi	地址
VAD + reconnaissance vocale (thaï) avec Zipformer entraîné avec GigaSpeech2	Cliquez-moi	地址
Reconnaissance vocale VAD + (chinois 多种方言) avec un modèle TeleSpeech-ASR CTC	Cliquez-moi	地址
VAD + reconnaissance vocale (anglais + chinois, 及多种中文方言) avec Paraformer-large	Cliquez-moi	地址
VAD + reconnaissance vocale (anglais + chinois, 及多种中文方言) avec Paraformer-small	Cliquez-moi	地址
Synthèse vocale (anglais)	Cliquez-moi	地址
Synthèse vocale (allemand)	Cliquez-moi	地址
Diarisation des locuteurs	Cliquez-moi	地址

Liens vers les APK Android prédéfinis

Vous pouvez trouver des APK Android prédéfinis pour ce référentiel dans le tableau suivant

Description	URL	中国用户
Diarisation des locuteurs	Adresse	点此
Reconnaissance vocale en continu	Adresse	点此
Synthèse vocale	Adresse	点此
Détection d'activité vocale (VAD)	Adresse	点此
VAD + reconnaissance vocale sans streaming	Adresse	点此
Reconnaissance vocale en deux passes	Adresse	点此
Marquage audio	Adresse	点此
Marquage audio (WearOS)	Adresse	点此
Identification du locuteur	Adresse	点此
Identification de la langue parlée	Adresse	点此
Repérage de mots-clés	Adresse	点此

Liens vers les applications Flutter prédéfinies

Reconnaissance vocale en temps réel

Description	URL	中国用户
Reconnaissance vocale en continu	Adresse	点此

Synthèse vocale

Description	URL	中国用户
Android (arm64-v8a, armeabi-v7a, x86_64)	Adresse	点此
Linux (x64)	Adresse	点此
macOS (x64)	Adresse	点此
macOS (arm64)	Adresse	点此
Windows (x64)	Adresse	点此

Remarque : Vous devez créer à partir des sources pour iOS.

Liens vers les applications Lazarus prédéfinies

Générer des sous-titres

Description	URL	中国用户
Générer des sous-titres (生成字幕)	Adresse	点此

Liens vers les modèles pré-entraînés

Description	URL
Reconnaissance vocale (parole en texte, ASR)	Adresse
Synthèse vocale (TTS)	Adresse
VAD	Adresse
Repérage de mots-clés	Adresse
Marquage audio	Adresse
Identification du haut-parleur (Speaker ID)	Adresse
Identification de la langue parlée (Language ID)	Voir les modèles Whisper ASR multilingues de la reconnaissance vocale
Ponctuation	Adresse
Segmentation des locuteurs	Adresse

Certains modèles ASR pré-entraînés (Streaming)

S'il vous plaît voir

https://k2-fsa.github.io/sherpa/onnx/pretrained_models/online-transducer/index.html
https://k2-fsa.github.io/sherpa/onnx/pretrained_models/online-paraformer/index.html
https://k2-fsa.github.io/sherpa/onnx/pretrained_models/online-ctc/index.html

pour plus de modèles. Le tableau suivant n’en répertorie que CERTAINS .

Nom	Langues prises en charge	Description
sherpa-onnx-streaming-zipformer-bilingue-zh-fr-2023-02-20	chinois, anglais	Voir aussi
sherpa-onnx-streaming-zipformer-small-bilingue-zh-fr-2023-02-16	chinois, anglais	Voir aussi
sherpa-onnx-streaming-zipformer-zh-14M-2023-02-23	Chinois	Convient au processeur Cortex A7. Voir aussi
sherpa-onnx-streaming-zipformer-fr-20M-2023-02-17	Anglais	Convient au processeur Cortex A7. Voir aussi
sherpa-onnx-streaming-zipformer-coréen-2024-06-16	coréen	Voir aussi
sherpa-onnx-streaming-zipformer-fr-2023-04-14	Français	Voir aussi

Certains modèles ASR pré-entraînés (sans streaming)

S'il vous plaît voir

https://k2-fsa.github.io/sherpa/onnx/pretrained_models/offline-transducer/index.html
https://k2-fsa.github.io/sherpa/onnx/pretrained_models/offline-paraformer/index.html
https://k2-fsa.github.io/sherpa/onnx/pretrained_models/offline-ctc/index.html
https://k2-fsa.github.io/sherpa/onnx/pretrained_models/telespeech/index.html
https://k2-fsa.github.io/sherpa/onnx/pretrained_models/whisper/index.html

pour plus de modèles. Le tableau suivant n’en répertorie que CERTAINS .

Nom	Langues prises en charge	Description
Whisper tiny.fr	Anglais	Voir aussi
Moonshine minuscule	Anglais	Voir aussi
sherpa-onnx-sense-voice-zh-en-ja-ko-yue-2024-07-17	Chinois, cantonais, anglais, coréen, japonais	Il s'agit d'une question. Voir aussi
sherpa-onnx-paraformer-zh-2024-03-09	chinois, anglais	Il s'agit d'une question. Voir aussi
sherpa-onnx-zipformer-ja-reazonspeech-2024-08-01	japonais	Voir aussi
sherpa-onnx-nemo-transducteur-giga-am-russe-2024-10-24	russe	Voir aussi
sherpa-onnx-nemo-ctc-giga-am-russe-2024-10-24	russe	Voir aussi
sherpa-onnx-zipformer-ru-2024-09-18	russe	Voir aussi
sherpa-onnx-zipformer-coréen-2024-06-24	coréen	Voir aussi
sherpa-onnx-zipformer-thai-2024-06-20	thaïlandais	Voir aussi
sherpa-onnx-telespeech-ctc-int8-zh-2024-06-04	Chinois	Il s'agit d'une question. Voir aussi