通过使用AI与来自全球的其他在线用户交谈,跨越语言障碍! Languageleapai的目的是为您提供一种实时语言AI助手,可以流利地理解和说出您所需的语言。 (截至目前,针对日语和德语的英语)
设置指南:https://www.youtube.com/watch?v=bn5uaekipgm
展示柜:https://www.youtube.com/watch?v=UY7SRB60WZ4
该项目集成了3个免费和开源的AI系统:
Whisperai和VoiceVox都在Dockerhub上都有Docker图像,因此我们将通过Docker组成的文件来构建和运行它们。可以通过注册免费计划并与其REST API进行互动,可与DEEPL进行互动。如果您所在的国家无法使用DeepL,则可以使用Google Translate的选择。
Languageleapai由两个主要的Python程序组成。
第一个是voice_translator.py,每当键盘上按下推销键时,请记录您的麦克风。发布此键后,它将您的声音保存在音频文件中,然后将其发送到Whisperai的抄录端点,该端点在其上运行自动语音识别(ASR)。在收到包含您的语音的响应后,然后使用DEEPL的REST API翻译此文本。
然后将翻译的文本发送到VoiceVox,该文本执行文本到语音并生成用日语配音的音频文件。然后将此文件播放到目标应用程序的麦克风输入和扬声器/耳机。
由于VoiceVox仅将日语文本作为输入,并在日语中产生语音,因此该项目在技术上仅限于日语作为目标语言。但是,可以将VoiceVox替换为语音程序的任何其他文本,这些文本可以说出您所需的语言以实现无限的可能性。
Thorsten已被添加为德国TTS计划。
第二个subtitler.py记录了您的应用程序的音频输出,并在任何语音的背景中倾听。一旦检测到一个短语/句子已经完成,它就将音频保存到WAV文件中,并将其发送到Whisperai的翻译端点,该端点将语音从目标语言转换为英语。
然后,使用Python的TKINTER模块在屏幕上显示此英文文本,本质上是字幕。
Languageleapai的目标受众是针对想要与另一种但不会说相同语言的用户。一个例子是说英语的用户在日本服务器上玩在线游戏,但尽管不知道日语,但仍希望使用语音聊天。
通过同时运行subtitler.py和voice_translator.py,他们可以通过阅读实时生成的英语字幕来理解日本队友。他们还可以说英语,而日本队友则会听到VoiceVox产生的翻译日本演讲。
但是,这并不是Languageleapai的唯一应用。
用户只是想了解所说的话而无需说话。例如,使用其他语言观看视频 /流 /电影,没有字幕。用户可以选择不运行voice_translator.py,而只需使用subtitler.py。
用户足够理解语言以倾听和理解,但由于各种原因,例如匿名 /害怕搞砸或冒犯。用户可以选择不运行subtitler.py,并且只需使用foode_translator.py即可。
设置LanguageLeapai需要3个关键步骤,因此不要错过任何一个!
要运行LanguageLeapai ,您需要首先运行Whisperai和VoiceVox。它们可以通过Docker或使用Google Colab运行。
如果您的GPU不够强大,则可能需要考虑使用Google Colab的GPU运行Whisperai和VoiceVox。
上传run_whisper_n_voicevox.ipynb文件到Google Drive,使用Google Colab打开笔记本,然后按照说明即可!
要在云上仅运行耳语或VoiceVox:使用run_whisper_colab.ipynb和run_voicevox_colab.ipynb colab文件!
如果您仍然想在计算机上同时运行耳语和VoiceVox,请在包含Docker-compose.yml文件的文件夹中运行这些命令。
同时运行Whisperai和VoiceVox:
docker-compose up -d
停止运行容器:
docker-compose down
如果您正在运行Linux(WSL)的Windows子系统,请不要忘记将其关闭以收回您的RAM。只有在您停止容器并使用程序完成后才完成此操作。
wsl --shutdown
如果要运行德语版本的VoiceVox,则需要将Docker-Compose文件更改为相应的文件。 TTS是唯一变化的东西,因此请确保还要更改.ENV文件中的TARGET_LANGUAGE_CODE
。
同时经营Whisperai和Thorsten:
docker-compose -f docker-compose-de.yml up -d
停止运行容器:
docker-compose down
在SRC/文件夹中运行这些命令。
运行音频字幕:
python subtitler.py
运行语音翻译:
python voice_translator.py
为了停止Python脚本,只需在终端中按Ctrl+C
即可。
使用LanguageLeapai时要牢记的一些重要事情。
请注意,Whisperai并不是最准确的,也不会在100%的时间上正确转录演讲,因此请自行使用。在Openai决定改善用于训练耳语模型的数据集之前,这必须这样做。
另外,耳语并非旨在一次处理多个并发请求。但是,要在时间上更新字幕,则异步发送了多个请求,因此某些请求可能会返回错误。
如果您使用Google Colab在云上运行Whisper和VoiceVox,则因为我们使用Ngrok和LocalTunnel托管我们的服务,因此您提供的随机公共IP地址可能会被您的Antivirus Software列入黑名单。如果AI似乎停止工作,则可能是由于您的防病毒阻止了与这些公共IP地址的连接。您可以将这些IP地址白名单,或者只是自行风险关闭防病毒网络保护。
使用VoiceVox的声音的某些术语和条件,因此在使用特定扬声器之前先阅读这些声音。
LanguageLeapai守则是根据MIT许可发布的。有关更多详细信息,请参见许可证。