Springen Sie über Sprachbarrieren, indem Sie KI verwenden, um sich mit anderen Online -Benutzern aus der ganzen Welt zu unterhalten! Languageleapai zielt darauf ab, Ihnen einen Echtzeit-KI-Assistenten zu bieten, der Ihre gewünschte Sprache fließend verstehen und sprechen kann. (Abzielt auf Englisch auf Japanisch und Deutsch ab dem Moment)
Setup -Handbuch: https://www.youtube.com/watch?v=bn5uaekipgm
Showcase: https://www.youtube.com/watch?v=uy7Srb60WZ4
Dieses Projekt integriert 3 kostenlose und Open-Source-KI-Systeme:
Whisperai und Voicevox haben beide Docker -Bilder auf DockerHub verfügbar, sodass wir beide über eine Docker -Komponierungsdatei erstellen und ausführen werden. Deeptl kann durch Anmeldung für einen kostenlosen Plan und die Interaktion mit seiner REST -API bis zu 500.000 Charakterlimit / Monat interagiert werden. Wenn Deeptl in Ihrem Land nicht verfügbar ist, ist eine Option zur Verwendung von Google Translate verfügbar.
Languageleapai besteht aus 2 Hauptpython -Programmen.
Der erste, Voice_translator.py, zeichnet Ihr Mikrofon auf, wenn eine Taste zum Taste-zu-Talk auf der Tastatur festgehalten wird. Sobald dieser Schlüssel veröffentlicht wurde, speichert er Ihre Stimme in einer Audio -Datei, die dann an den Transkribenendpunkt von Whisperai gesendet wird, der eine automatische Spracherkennung (ASR) ausführt. Nach einer Antwort, die Ihre Sprache als Text enthält, wird dieser Text mithilfe der REST -API von Deeptl übersetzt.
Der übersetzte Text wird dann an Voicevox gesendet, das Text-to-Speech ausführt und eine Audio-Datei generiert, die auf Japanisch geäußert wird. Diese Datei wird dann an den Mikrofoneingang Ihrer Zielanwendung und Ihre Lautsprecher/Kopfhörer gespielt.
Da Voicevox nur den japanischen Text als Eingabe nimmt und auf Japanisch Sprache generiert, ist das Projekt technisch nur auf Japanisch als Zielsprache beschränkt. Voicevox kann jedoch durch jeden anderen Text -zu -Sprach -Programm ersetzt werden, der Ihre gewünschte Sprache für grenzenlose Möglichkeiten sprechen kann.
Thorsten wurde als deutsches TTS -Programm hinzugefügt.
Der zweite, subtitler.py, zeichnet die Audioausgabe Ihrer Anwendung auf und hört im Hintergrund für jede Rede zu. Sobald festgestellt wurde, dass ein Satz/ein Satz abgeschlossen ist, speichert er das Audio in eine WAV -Datei und sendet sie an wisperais übersetzende Endpunkt, der die Sprache von der Zielsprache in Englisch übersetzt.
Dieser englische Text wird dann mit dem TKinter -Modul von Python auf dem Bildschirm angezeigt, das im Wesentlichen als Untertitel fungiert.
Die Zielgruppe von Languageleapai richtet sich an Benutzer, die mit einem anderen chatten möchten, aber nicht dieselbe Sprache sprechen. Ein Beispiel ist ein englischsprachiger Benutzer, der ein Online-Spiel auf dem Japan-Server spielt, möchte aber Voice-Chat verwenden, obwohl sie Japanisch nicht kennt.
Indem sie sowohl subtitler.py als auch voice_translator.py ausführen, können sie ihre japanischen Teamkollegen verstehen, indem sie die in Echtzeit erzeugten englischen Untertitel lesen. Sie können auch Englisch sprechen und die japanischen Teamkollegen werden stattdessen die übersetzte japanische Rede hören, die von Voicevox erzeugt wird.
Dies ist jedoch nicht die einzige Anwendung von Languageleapai .
Der Benutzer möchte einfach verstehen, was gesagt wird, ohne zu sprechen. ZB einen Video / Stream / Film in einer anderen Sprache ohne Untertitel ansehen. Der Benutzer kann auswählen, dass Voice_translator.py nicht ausführen und einfach subtitler.py verwenden.
Der Benutzer versteht die Sprache genug, um zuzuhören und zu verstehen, hat aber Angst, die Sprache aus verschiedenen Gründen zu sprechen, z. B. Anonymität / Angst, durcheinander zu bringen oder zu beleidigen. Der Benutzer kann wählen, ob sie subtitler.py ausführen und einfach Voice_translator.py verwenden.
Das Einrichten von Languageleapai erfordert 3 entscheidende Schritte. Verpassen Sie also nicht einen von ihnen!
Um Languageleapai zu laufen, müssen Sie zuerst Whisperai und Voicevox laufen lassen. Sie können entweder über Docker ausgeführt werden oder Google Colab verwenden.
Wenn Ihre GPU nicht leistungsfähig genug ist, möchten Sie möglicherweise in Betracht ziehen, Whisperai und Voicevox mithilfe der GPU von Google Colab auszuführen.
Upload run_whisper_n_voicevox.ipynb -Datei in Google Drive, öffnen Sie das Notebook mit Google Colab und befolgen Sie einfach die Anweisungen!
Um nur flüstert oder voicevox in der Cloud auszuführen: Verwenden Sie stattdessen entweder die Run_whisper_Colab.ipynb und run_voicevox_colab.ipynb Colab -Dateien!
Wenn Sie trotzdem sowohl Whisper als auch Voicevox auf Ihrem Computer ausführen möchten, führen Sie diese Befehle in dem Ordner aus, der die Datei docker-compose.yml enthält.
Sowohl Whisperai als auch Voicevox zu führen:
docker-compose up -d
Um die Behälter nicht mehr zu leiten:
docker-compose down
Wenn Sie Windows -Subsystem für Linux (WSL) ausführen, vergessen Sie nicht, es zu schließen, um Ihren RAM zurückzugewinnen. Dies sollte erst nachdem Sie die Container gestoppt haben und mit dem Programm fertiggestellt wurden.
wsl --shutdown
Wenn Sie eine deutsche Version von VoiceVox ausführen möchten, müssen Sie die Docker-Compose-Datei in die entsprechende ändern. Das TTS ist das einzige, was sich ändert. Ändern Sie daher auch die TARGET_LANGUAGE_CODE
in Ihrer .env -Datei.
Sowohl Whisperai als auch Thorsten laufen zu lassen:
docker-compose -f docker-compose-de.yml up -d
Um die Behälter nicht mehr zu leiten:
docker-compose down
Führen Sie diese Befehle im SRC/ Ordner aus.
Um den Audio -Subtitler auszuführen:
python subtitler.py
Um den Sprachübersetzer auszuführen:
python voice_translator.py
Um die Python -Skripte zu stoppen, drücken Sie einfach Ctrl+C
im Terminal.
Einige wichtige Dinge, die Sie bei der Verwendung von Languageleapai beachten sollten.
Beachten Sie, dass Whisperai nicht genau das genaueste ist und die Sprache zu 100% der Zeit nicht korrekt transkribiert. Verwenden Sie daher auf eigenes Risiko. Bis OpenAI beschließt, den Datensatz zu verbessern, mit dem die Flüstermodelle trainiert wurden, muss dies tun.
Außerdem ist Whisper nicht so ausgelegt, dass mehrere gleichzeitige Anfragen gleichzeitig durchgeführt werden. Damit Untertitel rechtzeitig aktualisiert werden, werden jedoch mehrere Anfragen asynchron gesendet, sodass einige Anfragen möglicherweise einen Fehler zurückgeben.
Wenn Sie mit Google Colab Whisper und Voicevox in der Cloud ausführen, da wir NGROK und LocalTunnel verwenden, um unsere Dienste zu hosten, kann die randomisierte öffentliche IP -Adresse, die sie angeben, möglicherweise von Ihrer Antivirus -Software auf die schwarze Liste gesetzt. Wenn die KI aufhören zu arbeiten scheint, kann dies darauf zurückzuführen sein, dass Ihr Antivirus die Verbindungen zu diesen öffentlichen IP -Adressen blockiert. Sie können diese IP -Adressen Whitelist können oder Ihren Antiviren -Webschutz auf eigenes Risiko ausschalten.
Es gibt bestimmte Bedingungen für die Verwendung der Stimmen von Voicevox. Lesen Sie diese vor der Verwendung eines bestimmten Sprechers.
Der Code von Languageleapai wird unter der MIT -Lizenz veröffentlicht. Weitere Informationen finden Sie unter Lizenz.