Pule pelas barreiras linguísticas usando a IA para conversar com outros usuários on -line de todo o mundo! O Languageleapai pretende fornecer a você um assistente de IA em tempo real que possa entender e falar o idioma desejado fluentemente. (Direcionado para o inglês para japonês e alemão a partir de agora)
Guia de configuração: https://www.youtube.com/watch?v=bn5uaekipgm
Showcase: https://www.youtube.com/watch?v=uy7srb60wz4
Este projeto integra 3 sistemas de IA gratuitos e de código aberto:
Whisperai e VoiceVox têm imagens do Docker disponíveis no DockerHub, por isso estaremos construindo e executando as duas por meio de um arquivo de composição do docker. O DEEPL pode ser interagido ao se inscrever para um plano gratuito e interagindo com sua API REST até 500.000 limite / mês de caracteres. Se o DEEPL não estiver disponível em seu país, uma opção para usar o Google Translate estará disponível.
O Languageleapai é composto por 2 principais programas Python.
O primeiro, Voice_Translator.py, registra seu microfone sempre que uma chave de empurrar para conversar é retida no teclado. Depois que essa tecla é lançada, salva sua voz em um arquivo de áudio que é enviado para o ponto final de transcrição da Whisperai, que executa o reconhecimento automático de fala (ASR) nele. Após uma resposta que contém seu discurso como o texto é recebido, este texto é traduzido usando a API REST de Deepl.
O texto traduzido é então enviado ao VoiceVox, que executa o texto em fala e gera um arquivo de áudio dublado em japonês. Este arquivo é reproduzido na entrada de microfone do seu aplicativo de destino e seus alto -falantes/fones de ouvido.
Como o VoiceVox só recebe o texto japonês como entrada e gera fala em japonês, o projeto é tecnicamente limitado apenas ao japonês como o idioma de destino. No entanto, o VoiceVox pode ser substituído por qualquer outro programa de texto para fala que possa falar o idioma desejado por possibilidades ilimitadas.
Thorsten foi adicionado como um programa TTS alemão.
O segundo, Subtitler.py, registra a saída de áudio do seu aplicativo e ouve em segundo plano para qualquer discurso. Depois de detectar que uma frase/frase está concluída, ela salva o áudio em um arquivo WAV e a envia para o Termin Termin do Whisperai, que traduz o discurso do idioma de destino para o inglês.
Este texto em inglês é exibido na tela usando o módulo Tknter do Python, atuando essencialmente como legendas.
O público -alvo da Linguageleapai é para usuários que desejam conversar com outro, mas não falam o mesmo idioma. Um exemplo é um usuário de língua inglesa que joga um jogo on-line no servidor Japan, mas deseja usar o bate-papo por voz, apesar de não conhecer japonês.
Ao executar o Subtitler.py e o Voice_translator.py, eles podem entender seus colegas de equipe japoneses lendo as legendas em inglês geradas em tempo real. Eles também podem falar inglês e os colegas japoneses ouvirão o discurso japonês traduzido gerado pelo VoiceVox.
No entanto, essa não é a única aplicação de Linguageleapai .
O usuário simplesmente quer entender o que está sendo dito sem a necessidade de falar. Por exemplo, assistindo a um vídeo / stream / filme em outro idioma sem legendas. O usuário pode optar por não executar voz_translator.py e simplesmente usar o Subtitler.py.
O usuário entende o idioma o suficiente para ouvir e entender, mas tem medo de falar o idioma por vários motivos, por exemplo, anonimato / medo de atrapalhar ou ofender. O usuário pode optar por não executar o Subtitler.py e simplesmente usar o Voice_translator.py.
A configuração do Languageleapai requer 3 etapas cruciais, portanto, não perca nenhum deles!
Para executar o Languageleapai , você precisa primeiro correr Whisperai e VoiceVox. Eles podem ser executados via Docker ou usando o Google Colab.
Se a sua GPU não for poderosa o suficiente, considere executar Whisperai e VoiceVox usando a GPU do Google Colab.
Upload run_whisper_n_voicevox.ipynb para o Google Drive, abra o notebook com o Google Colab e simplesmente siga as instruções!
Para executar apenas o sussurro ou o VoiceVox na nuvem: use os arquivos run_whisper_colab.ipynb e run_voicevox_colab.ipynb colab!
Se você ainda deseja executar o Whisper e o VoiceVox no seu computador, execute esses comandos na pasta que contém o arquivo docker-compose.yml.
Para executar o Whisperai e o VoiceVox:
docker-compose up -d
Para parar de executar os contêineres:
docker-compose down
Se você estiver executando o Subsistema do Windows para Linux (WSL), não se esqueça de desligá -lo para recuperar sua RAM. Isso só deve interromper os contêineres e ser feito usando o programa.
wsl --shutdown
Se você deseja executar uma versão alemã do VoiceVox, precisará alterar o arquivo Docker-Compose para o correspondente. O TTS é a única coisa que está mudando; portanto, altere também o TARGET_LANGUAGE_CODE
no seu arquivo .env.
Para executar o Whisperai e Thorsten:
docker-compose -f docker-compose-de.yml up -d
Para parar de executar os contêineres:
docker-compose down
Execute esses comandos na pasta SRC/.
Para executar o subtitador de áudio:
python subtitler.py
Para executar o tradutor de voz:
python voice_translator.py
Para interromper os scripts do Python, basta pressionar Ctrl+C
no terminal.
Algumas coisas importantes a serem lembradas enquanto usam o Languageleapai .
Observe que o Whisperai não é exatamente o mais preciso e não transcreve a fala corretamente 100% do tempo, portanto, use por seu próprio risco. Até que o OpenAI decida melhorar o conjunto de dados usado para treinar os modelos Whisper, isso terá que fazer.
Além disso, o Whisper não foi projetado para lidar com várias solicitações simultâneas de uma só vez. No entanto, para que as legendas sejam atualizadas a tempo, várias solicitações estão sendo enviadas de forma assíncrona, para que algumas solicitações possam retornar um erro.
Se você estiver executando o Whisper e o VoiceVox na nuvem usando o Google Colab, pois estamos usando o NGROK e o LocalTunnel para hospedar nossos serviços, o endereço IP público randomizado que eles fornecem podem estar na lista negra pelo seu software antivírus. Se a IA parece parar de funcionar, pode ser devido ao seu antivírus bloquear as conexões com esses endereços IP públicos. Você pode colocar a lista de permissões esses endereços IP ou simplesmente desativar sua proteção contra a Web antivírus por seu próprio risco .
Existem certos termos e condições para usar as vozes do VoiceVox; portanto, leia -os antes de usar um alto -falante específico.
O Código de Languageleapai é divulgado sob a licença do MIT. Consulte a licença para obter mais detalhes.