Download LanguageLeapAI - download do código fonte LanguageLeapAI

LanguageLeapAI

Outro código-fonte

Baixar

Languageleapai

Pule pelas barreiras linguísticas usando a IA para conversar com outros usuários on -line de todo o mundo! O Languageleapai pretende fornecer a você um assistente de IA em tempo real que possa entender e falar o idioma desejado fluentemente. (Direcionado para o inglês para japonês e alemão a partir de agora)

Guia de configuração: https://www.youtube.com/watch?v=bn5uaekipgm

Showcase: https://www.youtube.com/watch?v=uy7srb60wz4

Integração de entidades de IA

Este projeto integra 3 sistemas de IA gratuitos e de código aberto:

Whisperai: modelo de reconhecimento de fala geral desenvolvido pelo OpenAI que pode realizar o reconhecimento multilíngue de fala.
Tradutor de Deepl: alimentado por redes neurais e as mais recentes inovações de IA para traduções com som natural
VoiceVox: sintetizador de voz de AI de aprendizado profundo japonês

Whisperai e VoiceVox têm imagens do Docker disponíveis no DockerHub, por isso estaremos construindo e executando as duas por meio de um arquivo de composição do docker. O DEEPL pode ser interagido ao se inscrever para um plano gratuito e interagindo com sua API REST até 500.000 limite / mês de caracteres. Se o DEEPL não estiver disponível em seu país, uma opção para usar o Google Translate estará disponível.

Como funciona

O Languageleapai é composto por 2 principais programas Python.

Tradutor de voz

O primeiro, Voice_Translator.py, registra seu microfone sempre que uma chave de empurrar para conversar é retida no teclado. Depois que essa tecla é lançada, salva sua voz em um arquivo de áudio que é enviado para o ponto final de transcrição da Whisperai, que executa o reconhecimento automático de fala (ASR) nele. Após uma resposta que contém seu discurso como o texto é recebido, este texto é traduzido usando a API REST de Deepl.

O texto traduzido é então enviado ao VoiceVox, que executa o texto em fala e gera um arquivo de áudio dublado em japonês. Este arquivo é reproduzido na entrada de microfone do seu aplicativo de destino e seus alto -falantes/fones de ouvido.

Como o VoiceVox só recebe o texto japonês como entrada e gera fala em japonês, o projeto é tecnicamente limitado apenas ao japonês como o idioma de destino. No entanto, o VoiceVox pode ser substituído por qualquer outro programa de texto para fala que possa falar o idioma desejado por possibilidades ilimitadas.

Thorsten foi adicionado como um programa TTS alemão.

Subtitador de áudio

O segundo, Subtitler.py, registra a saída de áudio do seu aplicativo e ouve em segundo plano para qualquer discurso. Depois de detectar que uma frase/frase está concluída, ela salva o áudio em um arquivo WAV e a envia para o Termin Termin do Whisperai, que traduz o discurso do idioma de destino para o inglês.

Este texto em inglês é exibido na tela usando o módulo Tknter do Python, atuando essencialmente como legendas.

Aplicações

O público -alvo da Linguageleapai é para usuários que desejam conversar com outro, mas não falam o mesmo idioma. Um exemplo é um usuário de língua inglesa que joga um jogo on-line no servidor Japan, mas deseja usar o bate-papo por voz, apesar de não conhecer japonês.

Ao executar o Subtitler.py e o Voice_translator.py, eles podem entender seus colegas de equipe japoneses lendo as legendas em inglês geradas em tempo real. Eles também podem falar inglês e os colegas japoneses ouvirão o discurso japonês traduzido gerado pelo VoiceVox.

No entanto, essa não é a única aplicação de Linguageleapai .

Somente usando o subtitador de áudio

O usuário simplesmente quer entender o que está sendo dito sem a necessidade de falar. Por exemplo, assistindo a um vídeo / stream / filme em outro idioma sem legendas. O usuário pode optar por não executar voz_translator.py e simplesmente usar o Subtitler.py.

Somente usando o tradutor de voz

O usuário entende o idioma o suficiente para ouvir e entender, mas tem medo de falar o idioma por vários motivos, por exemplo, anonimato / medo de atrapalhar ou ofender. O usuário pode optar por não executar o Subtitler.py e simplesmente usar o Voice_translator.py.

Configurar

A configuração do Languageleapai requer 3 etapas cruciais, portanto, não perca nenhum deles!

Instalando serviços e dependências
Roteamento de áudio
Escrevendo seu arquivo de ambiente

Uso

Para executar o Languageleapai , você precisa primeiro correr Whisperai e VoiceVox. Eles podem ser executados via Docker ou usando o Google Colab.

Google Colab

Se a sua GPU não for poderosa o suficiente, considere executar Whisperai e VoiceVox usando a GPU do Google Colab.

Upload run_whisper_n_voicevox.ipynb para o Google Drive, abra o notebook com o Google Colab e simplesmente siga as instruções!

Para executar apenas o sussurro ou o VoiceVox na nuvem: use os arquivos run_whisper_colab.ipynb e run_voicevox_colab.ipynb colab!

Docker

VoiceVox - JA

Se você ainda deseja executar o Whisper e o VoiceVox no seu computador, execute esses comandos na pasta que contém o arquivo docker-compose.yml.

Para executar o Whisperai e o VoiceVox:

docker-compose up -d

Para parar de executar os contêineres:

docker-compose down

Se você estiver executando o Subsistema do Windows para Linux (WSL), não se esqueça de desligá -lo para recuperar sua RAM. Isso só deve interromper os contêineres e ser feito usando o programa.

wsl --shutdown

TTS Thorsten - De

Se você deseja executar uma versão alemã do VoiceVox, precisará alterar o arquivo Docker-Compose para o correspondente. O TTS é a única coisa que está mudando; portanto, altere também o TARGET_LANGUAGE_CODE no seu arquivo .env.

Para executar o Whisperai e Thorsten:

docker-compose -f docker-compose-de.yml up -d

Para parar de executar os contêineres:

docker-compose down

Programa Python

Execute esses comandos na pasta SRC/.

Para executar o subtitador de áudio:

python subtitler.py

Para executar o tradutor de voz:

python voice_translator.py

Para interromper os scripts do Python, basta pressionar Ctrl+C no terminal.

Coisas a serem observadas

Algumas coisas importantes a serem lembradas enquanto usam o Languageleapai .

Inconsistência do Whisper

Observe que o Whisperai não é exatamente o mais preciso e não transcreve a fala corretamente 100% do tempo, portanto, use por seu próprio risco. Até que o OpenAI decida melhorar o conjunto de dados usado para treinar os modelos Whisper, isso terá que fazer.

Além disso, o Whisper não foi projetado para lidar com várias solicitações simultâneas de uma só vez. No entanto, para que as legendas sejam atualizadas a tempo, várias solicitações estão sendo enviadas de forma assíncrona, para que algumas solicitações possam retornar um erro.

Proteção da web antivírus

Se você estiver executando o Whisper e o VoiceVox na nuvem usando o Google Colab, pois estamos usando o NGROK e o LocalTunnel para hospedar nossos serviços, o endereço IP público randomizado que eles fornecem podem estar na lista negra pelo seu software antivírus. Se a IA parece parar de funcionar, pode ser devido ao seu antivírus bloquear as conexões com esses endereços IP públicos. Você pode colocar a lista de permissões esses endereços IP ou simplesmente desativar sua proteção contra a Web antivírus por seu próprio risco .