AI를 사용하여 전 세계의 다른 온라인 사용자와 대화하여 언어 장벽을 뛰어 넘습니다! LanguageLeapai는 원하는 언어를 유창하게 이해하고 말할 수있는 실시간 언어 AI 어시스턴트를 제공하는 것을 목표로합니다. (현재로서는 일본어와 일본어와 독일어를 대상으로합니다)
설정 가이드 : https://www.youtube.com/watch?v=bn5uaekipgm
쇼케이스 : https://www.youtube.com/watch?v=uy7Srb60wz4
이 프로젝트는 3 가지 무료 및 오픈 소스 AI 시스템을 통합합니다.
Whisperai와 Voicevox는 DockerHub에서 Docker 이미지를 사용할 수 있으므로 Docker Compose 파일을 통해 둘 다 빌드하여 실행할 것입니다. DEEPL은 무료 계획에 가입하고 REST API와 최대 500,000 문자 제한 / 월에 상호 작용하여 상호 작용할 수 있습니다. 해당 국가에서 Deepl을 사용할 수없는 경우 Google 번역을 대신 사용하는 옵션을 사용할 수 있습니다.
LanguageLeapai는 2 가지 주요 파이썬 프로그램으로 구성됩니다.
첫 번째 Voice_translator.py는 키보드에서 푸시 투-토크 키가 고정 될 때마다 마이크를 기록합니다. 이 키가 릴리스되면 오디오 파일로 음성을 저장 한 다음 ASR (Automatic Speech 인식)을 실행하는 Whisperai의 전사 엔드 포인트로 전송됩니다. 텍스트가 수신 된 연설이 포함 된 응답 후이 텍스트는 Deepl의 REST API를 사용하여 번역됩니다.
그런 다음 번역 된 텍스트는 VoiceVox로 전송되어 텍스트 음성 연사를 수행하고 일본어로 제공되는 오디오 파일을 생성합니다. 이 파일은 대상 응용 프로그램의 마이크 입력 및 스피커/헤드폰으로 재생됩니다.
VoiceVox는 일본어 텍스트로만 입력하고 일본어로 연설을 생성하기 때문에 프로젝트는 기술적으로 일본어로만 일본어로 제한됩니다. 그러나 VoiceVox는 원하는 언어를 무한한 가능성으로 말할 수있는 다른 텍스트 to Speech 프로그램으로 대체 할 수 있습니다.
Thorsten은 독일 TTS 프로그램으로 추가되었습니다.
두 번째 Subtitler.py는 응용 프로그램의 오디오 출력을 기록하고 모든 연설에 대해서는 백그라운드에서 글을 듣습니다. 문구/문장이 완료되는 것을 발견하면 오디오를 WAV 파일로 저장하고 Whisperai의 번역 엔드 포인트로 보냅니다.
그런 다음이 영어 텍스트는 Python의 Tkinter 모듈을 사용하여 화면에 표시되며 본질적으로 자막 역할을합니다.
LanguageLeapai의 대상 고객은 다른 사람과 채팅을하고 싶지만 같은 언어를 사용하지 않는 사용자를위한 것입니다. 예를 들어 일본 서버에서 온라인 게임을하는 영어를 사용하는 사용자는 일본어를 모르더라도 음성 채팅을 사용하려고합니다.
subtitler.py와 Voice_translator.py를 모두 실행하면 실시간으로 생성 된 영어 자막을 읽음으로써 동료 일본 팀원을 이해할 수 있습니다. 그들은 또한 영어를 할 수 있으며 일본 팀원들은 대신 Voicevox가 생성 한 일본 연설을들을 것입니다.
그러나 이것은 LanguageLeapai 의 유일한 적용은 아닙니다.
사용자는 단순히 말할 필요없이 말하는 것을 이해하기를 원합니다. 예를 들어 자막이없는 다른 언어로 비디오 / 스트림 / 영화를보고 있습니다. 사용자는 Voice_translator.py를 실행하지 않고 Subtitler.py를 사용하기로 선택할 수 있습니다.
사용자는 듣고 이해하기에 충분한 언어를 이해하지만 다양한 이유로 언어를 말하는 것을 두려워합니다. 사용자는 subtitler.py를 실행하지 않도록 선택할 수 있으며 단순히 Voice_translator.py를 사용할 수 있습니다.
LanguageLeapai를 설정하면 3 가지 중요한 단계가 필요하므로 그 중 어느 것도 놓치지 마십시오!
LanguageLeapai를 실행하려면 먼저 Whisperai와 Voicevox를 실행해야합니다. Docker를 통해 또는 Google Colab을 사용하여 실행할 수 있습니다.
GPU가 충분히 강력하지 않은 경우 Google Colab의 GPU를 사용하여 Whisperai 및 VoiceVox를 실행하는 것을 고려할 수 있습니다.
run_whisper_n_voicevox.ipynb 파일을 Google 드라이브로 업로드하고 Google Colab으로 노트북을 열고 지침을 따르십시오!
클라우드에서 Whisper 또는 VoiceVox 만 실행하려면 : run_whisper_colab.ipynb 및 run_voicevox_colab.ipynb colab 파일을 사용하십시오!
컴퓨터에서 여전히 Whisper와 VoiceVox를 모두 실행하려면 Docker-Compose.yml 파일이 포함 된 폴더에서 이러한 명령을 실행하십시오.
Whisperai와 Voicevox를 모두 실행하려면 :
docker-compose up -d
컨테이너 실행을 중지하려면 :
docker-compose down
Linux (WSL) 용 Windows 서브 시스템을 실행중인 경우 RAM을 회수하기 위해 종료하는 것을 잊지 마십시오. 이것은 컨테이너를 멈추고 프로그램을 사용하여 완료된 후에야합니다.
wsl --shutdown
독일어 버전의 VoiceVox를 실행하려면 Docker-Compose 파일을 해당 파일로 변경해야합니다. TTS는 변경되는 유일한 것이므로 .env 파일에서 TARGET_LANGUAGE_CODE
도 변경하십시오.
Whisperai와 Thorsten을 모두 실행하려면 :
docker-compose -f docker-compose-de.yml up -d
컨테이너 실행을 중지하려면 :
docker-compose down
이 명령을 SRC/ 폴더에서 실행하십시오.
오디오 자막을 실행하려면 :
python subtitler.py
음성 번역기를 실행하려면 :
python voice_translator.py
파이썬 스크립트를 중지하려면 터미널에서 Ctrl+C
누르기 만하면됩니다.
LanguageLeapai를 사용하는 동안 명심해야 할 중요한 것들.
Whisperai는 정확히 가장 정확하지 않으며 100%의 시간을 올바르게 전사하지 않으므로 자신의 위험에 사용하십시오. OpenAI가 Whisper 모델을 훈련시키는 데 사용 된 데이터 세트를 개선하기로 결정할 때까지해야합니다.
또한 Whisper는 한 번에 여러 동시 요청을 처리하도록 설계되지 않았습니다. 그러나 자막을 제 시간에 업데이트하려면 여러 요청이 비동기로 전송되므로 일부 요청이 오류를 반환 할 수 있습니다.
Google Colab을 사용하여 클라우드에서 Whisper 및 VoiceVox를 실행하는 경우 NGROK 및 LocalTunnel을 사용하여 서비스를 호스팅하기 때문에 제공하는 무작위 공개 IP 주소는 바이러스 백신 소프트웨어에 의해 블랙리스트에 올릴 수 있습니다. AI가 작동을 멈추는 것처럼 보이면 바이러스 백신이 이러한 공개 IP 주소에 대한 연결을 차단하기 때문일 수 있습니다. 이 IP 주소를 화이트리스트에 올리거나 자신의 위험에 따라 바이러스 바이러스 웹 보호를 해제 할 수 있습니다.
VoiceVox의 Voices를 사용하기위한 특정 이용 약관이 있으므로 특정 스피커를 사용하기 전에이를 읽어보십시오.
LanguageLeapai의 코드는 MIT 라이센스에 따라 릴리스됩니다. 자세한 내용은 라이센스를 참조하십시오.