Прыгайте через языковые барьеры, используя ИИ для общения с другими онлайн -пользователями со всего мира! LanguageLeapai стремится предоставить вам помощника по искусственному интеллекту в реальном времени, который может свободно понимать и говорить на вашем желаемом языке. (Нацелен на английский на японский и немецкий язык на данный момент)
Руководство по настройке: https://www.youtube.com/watch?v=bn5UaeKipgm
Выставка: https://www.youtube.com/watch?v=UY7SRB60WZ4
Этот проект интегрирует 3 бесплатных и открытых систем ИИ:
Wepperai и VoiceVox имеют изображения Docker, доступные на Dockerhub, поэтому мы будем строить и запускать их обоих через файл Docker Compose. DeepL можно взаимодействовать, подписываясь на бесплатный план и взаимодействуя с его API REST до 500 000 лимитов символа / месяц. Если Deepl недоступен в вашей стране, вместо этого доступен возможность использовать Google Translate.
LanguageLeapai состоит из 2 основных программ Python.
Первый, Voice_translator.py, записывает ваш микрофон всякий раз, когда на клавиатуре удерживается ключ отжимания к разоблачению. После того, как этот ключ будет выпущен, он сохраняет ваш голос в аудиофайле, который затем отправляется в конечную точку от Wepperai, которая запускает автоматическое распознавание речи (ASR). После ответа, содержащего вашу речь при получении текста, этот текст переводится с использованием API Deepl's Rest.
Затем переведенный текст отправляется в VoiceVox, который выполняет текст в речь и генерирует аудиофайл, озвученный на японском языке. Этот файл затем воспроизводится под ввод микрофона вашего целевого приложения и ваши динамики/наушники.
Поскольку VoiceVox принимает только японский текст в качестве ввода и генерирует речь на японском языке, проект технически ограничен только японцем как целевым языком. Тем не менее, VoiceVox может быть заменен любым другим текстом на речевую программу, которая может говорить на вашем желаемом языке для безграничных возможностей.
Торстен был добавлен в качестве немецкой программы TTS.
Второй, subtitler.py, записывает аудио -вывод вашего приложения и слушает в фоновом режиме для любой речи. После того, как он обнаружил, что фраза/предложение завершено, она сохраняет звук в файл WAV и отправляет его в конечную точку Whisperai, которая переводит речь с целевого языка на английский.
Этот английский текст затем отображается на экране с использованием модуля Tkinter's Python, по сути, действует как субтитры.
Целевая аудитория LanguagageApai предназначена для пользователей, которые хотят поговорить с другим, но не говорят на одном языке. Примером является англоязычный пользователь, играющий в онлайн-игру на японском сервере, но хочет использовать голосовой чат, несмотря на то, что я не знал японцев.
Запустив Subtitler.py и Voice_translator.py, они могут понять своих коллег японских товарищей по команде, прочитав английские субтитры, генерируемые в режиме реального времени. Они также могут говорить по -английски, и японские товарищи по команде вместо этого услышат переведенную японскую речь, возникающую VoiceVox.
Тем не менее, это не единственное применение Languageleapai .
Пользователь просто хочет понять, что говорится без необходимости говорить. Например, просмотр видео / поток / фильм на другом языке без субтитрах. Пользователь может не запускать Voice_translator.py и просто использовать Subtitler.py.
Пользователь понимает язык достаточно, чтобы слушать и понять, но боится говорить по языку по разным причинам, например, анонимность / страх испортить или оскорблять. Пользователь может выбрать не запускать subtitler.py и просто использовать Voice_translator.py.
Настройка LanguageLeapai требует 3 важных шагов, так что не пропустите ни один из них!
Чтобы управлять LanguageAleapai , вам нужно сначала запустить Whisperai и VoiceVox. Их можно запустить через Docker или использовать Google Colab.
Если ваш графический процессор недостаточно мощный, вы можете рассмотреть вопрос о запуске Whisperai и VoiceVox с использованием GPU Google Colab.
Загрузите run_whisper_n_voicevox.ipynb файл в Google Drive, откройте ноутбук с Google Colab и просто следуйте инструкциям!
Чтобы запустить только Whisper или VoiceVox в облаке: используйте либо файлы run_whisper_colab.ipynb и run_voicevox_colab.ipynb colab вместо этого!
Если вы все еще хотите запустить шепот и VoiceVox на своем компьютере, запустите эти команды в папке, содержащей файл docker-compose.yml.
Запустить как Wepperai, так и VoiceVox:
docker-compose up -d
Чтобы прекратить запускать контейнеры:
docker-compose down
Если вы запускаете подсистему Windows для Linux (WSL), не забудьте закрыть ее, чтобы вернуть себе оперативную память. Это должно только после того, как вы остановили контейнеры и выполняются с использованием программы.
wsl --shutdown
Если вы хотите запустить немецкую версию VoiceVox, вам необходимо изменить файл Docker-Compose на соответствующий. TTS - единственное, что меняется, поэтому обязательно измените TARGET_LANGUAGE_CODE
в вашем файле .env.
Чтобы управлять Whisperai и Thorsten:
docker-compose -f docker-compose-de.yml up -d
Чтобы прекратить запускать контейнеры:
docker-compose down
Запустите эти команды в SRC/ папке.
Чтобы запустить аудио -субтитлера:
python subtitler.py
Чтобы запустить голосовой переводчик:
python voice_translator.py
Чтобы остановить сценарии Python, просто нажмите Ctrl+C
в терминале.
Некоторые важные вещи, которые следует иметь в виду при использовании LanguageAleapai .
Обратите внимание, что Whisperai не совсем точный и не будет транскрибировать речь в 100% времени, поэтому используйте свой собственный риск. Пока Openai не решит улучшить набор данных, который использовался для обучения моделей шепота, это должно это сделать.
Кроме того, Whisper не предназначен для обработки нескольких параллельных запросов одновременно. Тем не менее, для того, чтобы субтитры были обновлены во времени, несколько запросов отправляются асинхронно, поэтому некоторые запросы могут вернуть ошибку.
Если вы запускаете Whisper и VoiceVox в облаке, используя Google Colab, поскольку мы используем NGROK и LocalTunnel для размещения наших услуг, рандомизированный общедоступный IP -адрес, который они предоставляют, может быть связан с вашим антивирусным программным обеспечением. Если ИИ, кажется, перестает работать, это может быть связано с тем, что ваш антивирус блокирует соединения с этими общедоступными IP -адресами. Вы можете в белом списке этих IP -адресов или просто отключить свою антивирусную веб -защиту на свой собственный риск .
Существуют определенные условия для использования голосов из VoiceVox, поэтому прочитайте их перед использованием конкретного динамика.
Кодекс LanguageAleapai выпускается по лицензии MIT. Смотрите лицензию для получения дополнительной информации.