
Whisper Playground
Construa instantaneamente os aplicativos de discurso em tempo real.
Experimente através da demonstração online
Playground.demo.mp4
Configurar
- Tenha
Conda
e Yarn
no seu dispositivo - Clone ou Fork este repositório
- Instale o ambiente de back -end e frontend
sh install_playground.sh
- Revise Config.py para garantir que o dispositivo de transcrição e o tipo de computação corresponda à sua configuração. Revise o Config.js para garantir que ele esteja em conformidade com a configuração de back -end e que o endereço de back -end esteja correto.
- Execute o back -end
cd backend && python server.py
- Em um terminal diferente, execute a
cd interface && yarn start
Acesso a modelos de pyannote
Este repositório usa bibliotecas baseadas nos modelos Pyannote.audio, que são armazenados no hub de face abraçados. Você deve aceitar os termos de uso deles antes de usá -los. Nota: você precisa ter uma conta de rosto abraçando para usar pyannote
- Aceitar termos para o modelo
pyannote/segmentation
- Aceite termos para o modelo
pyannote/embedding
- Aceite os termos para o modelo de
pyannote/speaker-diarization
- Instale o huggingface cli e faça login com o seu token de acesso ao usuário (pode ser encontrado em Configurações -> Tokens de acesso)
Parâmetros
- Tamanho do modelo: escolha o tamanho do modelo, do minúsculo a grande V2.
- Idioma: selecione o idioma em que você estará falando.
- Timeout da transcrição: Defina o número de segundos que o aplicativo aguardará antes de transcrever os dados de áudio atuais.
- Tamanho do feixe: ajuste o número de transcrições geradas e consideradas, o que afeta o tempo de precisão e geração de transcrição.
- Método de transcrição: escolha "tempo real" para diarização e transcrições em tempo real, ou "seqüencial" para transcrições periódicas com mais contexto.
Solução de problemas
- No MacOS, se construir a roda para falhar seguros, instale
brew install rust
Rust e tente novamente.
Bugs conhecidos
- No modo seqüencial, pode haver troca de alto -falante não controlada.
- No modo em tempo real, os dados de áudio que não atendem ao tempo limite da transcrição não serão transcritos.
Este repositório não foi testado para todos os idiomas; Crie um problema se encontrar algum problema.
Licença
Este repositório e o código e os pesos do modelo do Whisper são lançados sob a licença do MIT.