通過使用AI與來自全球的其他在線用戶交談,跨越語言障礙! Languageleapai的目的是為您提供一種實時語言AI助手,可以流利地理解和說出您所需的語言。 (截至目前,針對日語和德語的英語)
設置指南:https://www.youtube.com/watch?v=bn5uaekipgm
展示櫃:https://www.youtube.com/watch?v=UY7SRB60WZ4
該項目集成了3個免費和開源的AI系統:
Whisperai和VoiceVox都在Dockerhub上都有Docker圖像,因此我們將通過Docker組成的文件來構建和運行它們。可以通過註冊免費計劃並與其REST API進行互動,可與DEEPL進行互動。如果您所在的國家無法使用DeepL,則可以使用Google Translate的選擇。
Languageleapai由兩個主要的Python程序組成。
第一個是voice_translator.py,每當鍵盤上按下推銷鍵時,請記錄您的麥克風。發布此鍵後,它將您的聲音保存在音頻文件中,然後將其發送到Whisperai的抄錄端點,該端點在其上運行自動語音識別(ASR)。在收到包含您的語音的響應後,然後使用DEEPL的REST API翻譯此文本。
然後將翻譯的文本發送到VoiceVox,該文本執行文本到語音並生成用日語配音的音頻文件。然後將此文件播放到目標應用程序的麥克風輸入和揚聲器/耳機。
由於VoiceVox僅將日語文本作為輸入,並在日語中產生語音,因此該項目在技術上僅限於日語作為目標語言。但是,可以將VoiceVox替換為語音程序的任何其他文本,這些文本可以說出您所需的語言以實現無限的可能性。
Thorsten已被添加為德國TTS計劃。
第二個subtitler.py記錄了您的應用程序的音頻輸出,並在任何語音的背景中傾聽。一旦檢測到一個短語/句子已經完成,它就將音頻保存到WAV文件中,並將其發送到Whisperai的翻譯端點,該端點將語音從目標語言轉換為英語。
然後,使用Python的TKINTER模塊在屏幕上顯示此英文文本,本質上是字幕。
Languageleapai的目標受眾是針對想要與另一種但不會說相同語言的用戶。一個例子是說英語的用戶在日本服務器上玩在線遊戲,但儘管不知道日語,但仍希望使用語音聊天。
通過同時運行subtitler.py和voice_translator.py,他們可以通過閱讀實時生成的英語字幕來理解日本隊友。他們還可以說英語,而日本隊友則會聽到VoiceVox產生的翻譯日本演講。
但是,這並不是Languageleapai的唯一應用。
用戶只是想了解所說的話而無需說話。例如,使用其他語言觀看視頻 /流 /電影,沒有字幕。用戶可以選擇不運行voice_translator.py,而只需使用subtitler.py。
用戶足夠理解語言以傾聽和理解,但由於各種原因,例如匿名 /害怕搞砸或冒犯。用戶可以選擇不運行subtitler.py,並且只需使用foode_translator.py即可。
設置LanguageLeapai需要3個關鍵步驟,因此不要錯過任何一個!
要運行LanguageLeapai ,您需要首先運行Whisperai和VoiceVox。它們可以通過Docker或使用Google Colab運行。
如果您的GPU不夠強大,則可能需要考慮使用Google Colab的GPU運行Whisperai和VoiceVox。
上傳run_whisper_n_voicevox.ipynb文件到Google Drive,使用Google Colab打開筆記本,然後按照說明即可!
要在雲上僅運行耳語或VoiceVox:使用run_whisper_colab.ipynb和run_voicevox_colab.ipynb colab文件!
如果您仍然想在計算機上同時運行耳語和VoiceVox,請在包含Docker-compose.yml文件的文件夾中運行這些命令。
同時運行Whisperai和VoiceVox:
docker-compose up -d
停止運行容器:
docker-compose down
如果您正在運行Linux(WSL)的Windows子系統,請不要忘記將其關閉以收回您的RAM。只有在您停止容器並使用程序完成後才完成此操作。
wsl --shutdown
如果要運行德語版本的VoiceVox,則需要將Docker-Compose文件更改為相應的文件。 TTS是唯一變化的東西,因此請確保還要更改.ENV文件中的TARGET_LANGUAGE_CODE
。
同時經營Whisperai和Thorsten:
docker-compose -f docker-compose-de.yml up -d
停止運行容器:
docker-compose down
在SRC/文件夾中運行這些命令。
運行音頻字幕:
python subtitler.py
運行語音翻譯:
python voice_translator.py
為了停止Python腳本,只需在終端中按Ctrl+C
即可。
使用LanguageLeapai時要牢記的一些重要事情。
請注意,Whisperai並不是最準確的,也不會在100%的時間上正確轉錄演講,因此請自行使用。在Openai決定改善用於訓練耳語模型的數據集之前,這必須這樣做。
另外,耳語並非旨在一次處理多個並發請求。但是,要在時間上更新字幕,則異步發送了多個請求,因此某些請求可能會返回錯誤。
如果您使用Google Colab在雲上運行Whisper和VoiceVox,則因為我們使用Ngrok和LocalTunnel託管我們的服務,因此您提供的隨機公共IP地址可能會被您的Antivirus Software列入黑名單。如果AI似乎停止工作,則可能是由於您的防病毒阻止了與這些公共IP地址的連接。您可以將這些IP地址白名單,或者只是自行風險關閉防病毒網絡保護。
使用VoiceVox的聲音的某些術語和條件,因此在使用特定揚聲器之前先閱讀這些聲音。
LanguageLeapai守則是根據MIT許可發布的。有關更多詳細信息,請參見許可證。