Téléchargement whisper playground - Téléchargement du code source whisper playground

whisper playground

Autre code source

VAD support

Télécharger

Aire de jeux Whisper

Créez instantanément les applications Speech2Text en temps réel en 99 langues en utilisant plus rapidement, diart et pyannote

Essayez-le via la démo en ligne

Playground.demo.mp4

Installation

Avoir Conda et Yarn sur votre appareil
Clone ou fourche ce référentiel
Installez l'environnement backend et frontend sh install_playground.sh
Passez en revue Config.py pour vous assurer que le périphérique de transcription et le type de calcul correspondent à votre configuration. Passez en revue Config.js pour s'assurer qu'il est conforme à la configuration du backend et que l'adresse backend est correcte.
Exécutez le backend cd backend && python server.py
Dans un terminal différent, exécutez l' cd interface && yarn start

Accès aux modèles de pyannote

Ce référentiel utilise des bibliothèques basées sur des modèles pyannote.audio, qui sont stockés dans le Hub Face Hub. Vous devez accepter leurs conditions d'utilisation avant de les utiliser. Remarque: vous devez avoir un compte de visage étreint pour utiliser Pyannote

Acceptez les termes du modèle pyannote/segmentation
Acceptez les termes du modèle pyannote/embedding
Acceptez les termes du modèle de pyannote/speaker-diarization
Installez HuggingFace-Cli et connectez-vous avec votre jeton d'accès utilisateur (peut être trouvé dans les paramètres -> Tokens d'accès)

Paramètres

Taille du modèle: choisissez la taille du modèle, du minuscule au grand V2.
Langue: sélectionnez la langue dans laquelle vous parlez.
Timeout de transcription: définissez le nombre de secondes que l'application attendra avant de transcrire les données audio actuelles.
Taille du faisceau: ajustez le nombre de transcriptions générées et prises en compte, ce qui affecte la précision et le temps de génération de transcription.
Méthode de transcription: choisissez "en temps réel" pour la diarisation et les transcriptions en temps réel, ou "séquentiel" pour les transcriptions périodiques avec plus de contexte.

Dépannage

Sur les macOS, si la construction de la roue pour SAFETtenseurs échoue, installez Rust brew install rust et réessayez.

Bogues connues

En mode séquentiel, il peut y avoir un échange de haut-parleur incontrôlé.
En mode en temps réel, les données audio ne respectent pas le délai d'expiration de transcription ne seront pas transcrites.

Ce référentiel n'a pas été testé pour toutes les langues; Veuillez créer un problème si vous rencontrez des problèmes.