
Aire de jeux Whisper
Créez instantanément les applications Speech2Text en temps réel en 99 langues en utilisant plus rapidement, diart et pyannote
Essayez-le via la démo en ligne
Playground.demo.mp4
Installation
- Avoir
Conda
et Yarn
sur votre appareil - Clone ou fourche ce référentiel
- Installez l'environnement backend et frontend
sh install_playground.sh
- Passez en revue Config.py pour vous assurer que le périphérique de transcription et le type de calcul correspondent à votre configuration. Passez en revue Config.js pour s'assurer qu'il est conforme à la configuration du backend et que l'adresse backend est correcte.
- Exécutez le backend
cd backend && python server.py
- Dans un terminal différent, exécutez l'
cd interface && yarn start
Accès aux modèles de pyannote
Ce référentiel utilise des bibliothèques basées sur des modèles pyannote.audio, qui sont stockés dans le Hub Face Hub. Vous devez accepter leurs conditions d'utilisation avant de les utiliser. Remarque: vous devez avoir un compte de visage étreint pour utiliser Pyannote
- Acceptez les termes du modèle
pyannote/segmentation
- Acceptez les termes du modèle
pyannote/embedding
- Acceptez les termes du modèle de
pyannote/speaker-diarization
- Installez HuggingFace-Cli et connectez-vous avec votre jeton d'accès utilisateur (peut être trouvé dans les paramètres -> Tokens d'accès)
Paramètres
- Taille du modèle: choisissez la taille du modèle, du minuscule au grand V2.
- Langue: sélectionnez la langue dans laquelle vous parlez.
- Timeout de transcription: définissez le nombre de secondes que l'application attendra avant de transcrire les données audio actuelles.
- Taille du faisceau: ajustez le nombre de transcriptions générées et prises en compte, ce qui affecte la précision et le temps de génération de transcription.
- Méthode de transcription: choisissez "en temps réel" pour la diarisation et les transcriptions en temps réel, ou "séquentiel" pour les transcriptions périodiques avec plus de contexte.
Dépannage
- Sur les macOS, si la construction de la roue pour SAFETtenseurs échoue, installez Rust
brew install rust
et réessayez.
Bogues connues
- En mode séquentiel, il peut y avoir un échange de haut-parleur incontrôlé.
- En mode en temps réel, les données audio ne respectent pas le délai d'expiration de transcription ne seront pas transcrites.
Ce référentiel n'a pas été testé pour toutes les langues; Veuillez créer un problème si vous rencontrez des problèmes.
Licence
Ce référentiel et le code et le modèle de poids de Whisper sont libérés sous la licence MIT.