
Patio de patio de susurros
Construya instantáneamente aplicaciones de Speech2Text en tiempo real en 99 idiomas utilizando más rápido, Diart y Pyannote
Pruébalo a través de la demostración en línea
Playground.demo.mp4
Configuración
- Tener
Conda
e Yarn
en su dispositivo - Clon o bifurcarse este repositorio
- Instale el entorno de backend y frontend
sh install_playground.sh
- Revise config.py para asegurarse de que el dispositivo de transcripción y el tipo de calcular coincidan con su configuración. Revise config.js para asegurarse de que se ajuste a la configuración de backend y que la dirección de backend sea correcta.
- Ejecute el Backend
cd backend && python server.py
- En un terminal diferente, ejecute la
cd interface && yarn start
Acceso a modelos Pyannote
Este repositorio utiliza bibliotecas basadas en modelos Pyannote.Audio, que se almacenan en el abrazo de la cara. Debe aceptar sus términos de uso antes de usarlos. NOTA: Debe tener una cuenta de la cara abrazada para usar Pyannote
- Acepte términos para el modelo
pyannote/segmentation
- Acepte términos para el modelo
pyannote/embedding
- Acepte términos para el modelo de
pyannote/speaker-diarization
- Instale Huggingface -Cli e inicie sesión con el token de acceso de su usuario (se puede encontrar en Configuración -> Tokens de acceso)
Parámetros
- Tamaño del modelo: elija el tamaño del modelo, de pequeño a grande-V2.
- Idioma: seleccione el idioma en el que hablará.
- Tiempo de tiempo de transcripción: establezca el número de segundos que la aplicación esperará antes de transcribir los datos de audio actuales.
- Tamaño del haz: ajuste el número de transcripciones generadas y consideradas, lo que afecta la precisión y el tiempo de generación de transcripción.
- Método de transcripción: elija "tiempo real" para la diarización y transcripciones en tiempo real, o "secuencial" para transcripciones periódicas con más contexto.
Solución de problemas
- En MacOS, si la construcción de la rueda para los seguros falla, instale Rust
brew install rust
e intente nuevamente.
Errores conocidos
- En el modo secuencial, puede haber un intercambio de altavoces no controlado.
- En modo en tiempo real, los datos de audio que no cumplan con el tiempo de espera de la transcripción no se transcribirán.
Este repositorio no ha sido probado para todos los idiomas; Cree un problema si encuentra algún problema.
Licencia
Este repositorio y el código y las pesas del modelo de Whisper se liberan bajo la licencia MIT.