Download whisper playground - whisper playground Download do Código

whisper playground

Outro código-fonte

VAD support

Baixar

Whisper Playground

Construa instantaneamente os aplicativos de discurso em tempo real.

Experimente através da demonstração online

Playground.demo.mp4

Configurar

Tenha Conda e Yarn no seu dispositivo
Clone ou Fork este repositório
Instale o ambiente de back -end e frontend sh install_playground.sh
Revise Config.py para garantir que o dispositivo de transcrição e o tipo de computação corresponda à sua configuração. Revise o Config.js para garantir que ele esteja em conformidade com a configuração de back -end e que o endereço de back -end esteja correto.
Execute o back -end cd backend && python server.py
Em um terminal diferente, execute a cd interface && yarn start

Acesso a modelos de pyannote

Este repositório usa bibliotecas baseadas nos modelos Pyannote.audio, que são armazenados no hub de face abraçados. Você deve aceitar os termos de uso deles antes de usá -los. Nota: você precisa ter uma conta de rosto abraçando para usar pyannote

Aceitar termos para o modelo pyannote/segmentation
Aceite termos para o modelo pyannote/embedding
Aceite os termos para o modelo de pyannote/speaker-diarization
Instale o huggingface cli e faça login com o seu token de acesso ao usuário (pode ser encontrado em Configurações -> Tokens de acesso)

Parâmetros

Tamanho do modelo: escolha o tamanho do modelo, do minúsculo a grande V2.
Idioma: selecione o idioma em que você estará falando.
Timeout da transcrição: Defina o número de segundos que o aplicativo aguardará antes de transcrever os dados de áudio atuais.
Tamanho do feixe: ajuste o número de transcrições geradas e consideradas, o que afeta o tempo de precisão e geração de transcrição.
Método de transcrição: escolha "tempo real" para diarização e transcrições em tempo real, ou "seqüencial" para transcrições periódicas com mais contexto.

Solução de problemas

No MacOS, se construir a roda para falhar seguros, instale brew install rust Rust e tente novamente.

Bugs conhecidos

No modo seqüencial, pode haver troca de alto -falante não controlada.
No modo em tempo real, os dados de áudio que não atendem ao tempo limite da transcrição não serão transcritos.

Este repositório não foi testado para todos os idiomas; Crie um problema se encontrar algum problema.