? Videoübersetzung mit synchronisiertem Audio
SonyTranslate ist eine leistungsstarke und benutzerfreundliche Webanwendung, mit der Sie Videos problemlos in verschiedene Sprachen übersetzen können. In diesem Repository wird der Code für die SonyTranslate -Web -Benutzeroberfläche gehostet, die in der Gradio -Bibliothek erstellt wurde, um ein nahtloses und interaktives Benutzererlebnis zu bieten.
Beschreibung | Link |
---|---|
? Colab Notebook | |
? Repository | |
Online -Demo |
Für ein umfassendes Verständnis des Projekts empfehlen wir dringend, dieses Video-Tutorial von Dev-Mallettes anzusehen. Sie können es auf YouTube ansehen, indem Sie auf das Miniaturbild unten klicken:
Sprachcode | Sprache |
---|---|
en | Englisch |
fr | Französisch |
de | Deutsch |
es | Spanisch |
Es | Italienisch |
Ja | japanisch |
nl | Niederländisch |
Vereinigtes Königreich | ukrainisch |
pt | Portugiesisch |
ar | Arabisch |
Zh | Chinesisch - vereinfacht |
zh-tw | Chinesisch - traditionell |
CS | tschechisch |
da | dänisch |
fi | finnisch |
El | griechisch |
Er | hebräisch |
Hu | ungarisch |
ko | Koreanisch |
Fa | persisch |
Pl | Polieren |
Ru | Russisch |
tr | Türkisch |
ur | Urdu |
Hi | Hindi |
vi | Vietnamesisch |
Ausweis | Indonesisch |
bn | Bengali |
te | Telugu |
Herr | Marathi |
ta | Tamil |
JW (oder JV) | Javaner |
ca. | katalanisch |
ne | Nepali |
th | Thai |
SV | Schwedisch |
Bin | Amharisch |
cy | Walisisch |
HR | kroatisch |
Ist | isländisch |
Ka | georgisch |
km | Khmer |
SK | slowakisch |
sq | albanisch |
sr | serbisch |
AZ | Aserbaidschani |
BG | bulgarisch |
GL | galizisch |
Gu | Gujarati |
KK | Kasach |
KN | Kannada |
lt | litauisch |
lv | lettisch |
ml | Malayalam |
ro | rumänisch |
Si | Sinhala |
su | Sundanese |
ET | estnisch |
mk | mazedonisch |
SW | Swahili |
af | Afrikaans |
BS | bosnisch |
la | lateinisch |
Mein | Myanmar Burmese |
NEIN | norwegisch |
als | Assamesen |
EU | baskisch |
Ha | Hausa |
ht | Haitianische Kreolie |
hy | Armenisch |
LO | Lao |
mg | Madagasy |
mn | mongolisch |
mt | maltesisch |
pa | Punjabi |
ps | PaShto |
sl | Slowenisch |
sn | Shona |
Also | somali |
tg | Tajik |
tk | Turkmen |
tt | Tatar |
Uz | Usbekisch |
yo | Yoruba |
Sprachcode | Sprache |
---|---|
ay | Aymara |
BM | Bambara |
CEB | Cebuano |
NY | Chichewa |
dv | Divehi |
doi | DGRI |
EE | Mutterschaf |
gn | Guarani |
Ilo | Iloko |
rw | Kinyarwanda |
Kri | Krio |
Ku | kurdisch |
Ky | Kirghiz |
lg | Ganda |
Mai | Maithili |
oder | Oriya |
om | Oromo |
Qu | Quechua |
sm | Samoaner |
ti | Tigrinya |
ts | Tsonga |
AK | Akan |
ug | Uigur |
SONITRANSLATE mit Colab -Laufzeit zu führen:
Bevor Sie mit der Installation und Verwendung von Sonitranslate beginnen, müssen Sie einige Dinge tun:
accept the license to use the models
: https://huggingface.co/pyannote/speaker-diarization und https://huggingface.co/pyannote/segmentationconda install -c anaconda git -y
in Ihrem Terminal ausführen (dies nach Schritt 1 im folgenden Abschnitt tun). Wenn Sie Schwierigkeiten haben, Git über Anaconda zu installieren, können Sie stattdessen den folgenden Link verwenden:Sobald Sie diese Schritte ausgeschlossen haben, sind Sie bereit, Sonitranslate zu installieren.
Folgen Sie die folgenden Schritte, um Sonitranslate zu installieren:
conda create -n sonitr python=3.10 -y
conda activate sonitr
python -m pip install pip==23.1.2
conda install pytorch torchvision torchaudio pytorch-cuda=11.8 -c pytorch -c nvidia
git clone https://github.com/r3gm/SoniTranslate.git
cd SoniTranslate
pip install -r requirements_base.txt -v
pip install -r requirements_extra.txt -v
pip install onnxruntime-gpu
Installieren Sie FFMPEG. FFMPEG ist ein kostenloses Softwareprojekt, das Bibliotheken und Programme zum Umgang mit Multimedia -Daten produziert. Sie benötigen es, um Audio- und Videodateien zu verarbeiten. Sie können FFMPEG mit Anaconda installieren, indem conda install -y ffmpeg
in Ihrem Terminal ausführen (empfohlen). Wenn Sie Probleme haben, FFMPEG über Anaconda zu installieren, können Sie stattdessen den folgenden Link verwenden: (https://ffmpeg.org/ffmpeg.html). Sobald es installiert ist, stellen Sie sicher, dass es in Ihrem Weg ist, indem Sie ffmpeg -h
in Ihrem Terminal ausführen. Wenn Sie keine Fehlermeldung erhalten, können Sie loslegen.
Optionale Installation:
Nach der Installation von FFMPEG können Sie diese optionalen Pakete installieren.
Piper TTS ist ein schneller lokaler Nerventextextextextex, das gut klingt und für den Raspberry Pi 4. Piper in einer Vielzahl von Projekten verwendet wird. Stimmen werden mit Vits geschult und in die Onnxruntime exportiert.
pip install -q piper-tts==1.2.0
Coqui XTTS ist ein TTS-Modell (Text-to-Speech), mit dem Sie realistische Stimmen in verschiedenen Sprachen generieren können. Es kann Stimmen mit nur einem kurzen Audioclip klonen und sogar in einer anderen Sprache sprechen! Es ist, als würde man eine persönliche Stimme für jeden Text nachahmen, den Sie gesprochen haben.
pip install -q -r requirements_xtts.txt
pip install -q TTS==0.21.1 --no-deps
Um Sonitranslate lokal zu leiten, stellen Sie sicher, dass die sonitr
Conda -Umgebung aktiv ist:
conda activate sonitr
Setzen Sie Ihr Umarmungs -Face -Token als Umgebungsvariable unter Linux:
export YOUR_HF_TOKEN="YOUR_HUGGING_FACE_TOKEN"
Navigieren Sie dann zum SoniTranslate
-Ordner und führen Sie entweder die app_rvc.py
aus
python app_rvc.py
Wenn die local URL
http://127.0.0.1:7860
im Terminal angezeigt wird, öffnen Sie diese URL einfach in Ihrem Webbrowser, um auf die SONITRANSLATE -Schnittstelle zuzugreifen.
In den meisten Umgebungen können Sie die Ausführung stoppen, indem Sie Strg+C im Terminal drücken, in dem Sie das script app_rvc.py
gestartet haben. Dies unterbricht das Programm und stoppt die Gradio -App. Um die Conda -Umgebung zu deaktivieren, können Sie den folgenden Befehl verwenden:
conda deactivate
Dies wird die derzeit aktive Conda Environment Sonitr deaktivieren und Sie werden in die Basisumgebung oder in die globale Python -Umgebung zurückkehren.
Wenn Sie von Grund auf neu anfangen müssen, können Sie den SoniTranslate
-Ordner löschen und die sonitr
Conda -Umgebung mit den folgenden Befehlen entfernen:
conda deactivate
conda env remove -n sonitr
Wenn die sonitr
-Umgebung entfernt wurde, können Sie mit einer neuen Installation von vorne beginnen.
conda activate sonitr
conda env config vars set YOUR_HF_TOKEN="YOUR_HUGGING_FACE_TOKEN_HERE"
conda deactivate
conda activate sonitr
conda env config vars set OPENAI_API_KEY="your-api-key-here"
conda deactivate
Das Skript app_rvc.py unterstützt Befehlszeilenargumente, um sein Verhalten anzupassen. Hier ist eine kurze Anleitung zur Verwendung von ihnen:
Argumentbefehl | Standard | Wert | Beschreibung |
---|---|---|---|
--Thema | Taithrah/Minimal | Saite | Legt das Thema für die Schnittstelle fest. Themen finden Sie in der Themengalerie. |
--Sprache | Englisch | Saite | Wählt die Schnittstellensprache aus. Verfügbare Optionen: Afrikaans, Arabisch, Aserbaidschani, Chinese_Zh_cn, Englisch, Französisch, Deutsch, Hindi, Indonesisch, Italienisch, Japanisch, Koreanisch, Marathi, Persisch, Polnisch, Portugiesisch, Russisch, Spanisch, Schwedisch, Türkisch, Ukrainisch, Vietnamesisch. |
--verbosity_level | Info | Saite | Legt die Ausführungsstufe des Logger fest: Debugg, Info, Warnung, Fehler oder kritisch. |
-Public_url | Boolean | Ermöglicht einen öffentlichen Link. | |
-cpu_mode | Boolean | Aktivieren Sie den CPU -Modus, um das Programm auszuführen, ohne die GPU -Beschleunigung zu verwenden. | |
--logs_in_gui | Boolean | Zeigt die in Protokolle ausgeführten Operationen (veraltet). |
Beispiel Verwendung:
python app_rvc.py --theme aliabid94/new-theme --language french
Dieser Befehl setzt das Thema auf ein benutzerdefiniertes Thema und wählt Französisch als Schnittstellensprache aus. Fühlen Sie sich frei, diese Argumente an Ihre Vorlieben und Anforderungen anzupassen.
2024/18/05: Neue Aktualisierungsdetails
kotoba-tech/kotoba-whisper-v1.1
app_rvc.py --cpu_mode
hinzugefügt2024/03/02: Dateinamen in der Ausgabe erhalten. Mehrere Archive können jetzt gleichzeitig eingereicht werden, indem ihre Wege, Verzeichnisse oder URLs von Commas getrennt angeben. Verarbeitung einer vollständigen YouTube -Wiedergabeliste. Über unterstützte Websites URL, bitte beachten Sie, dass nicht alle Websites optimal funktionieren können. Option zur Deaktivierung von Diatrisierung hinzugefügt. Implementierte weiche Untertitel. Formatausgabe (MP3, MP4, MKV, WAV und OGG) und behobene Probleme im Zusammenhang mit dem Lesen und Diatrennen von Dateien.
2024/02/22: FreeVC für Sprachimitation hinzugefügt, fester Stimmspur, Divide -Segmente. Neue Sprachenunterstützung (schwedisch, amharisch, walisisch, kroatisch, isländisch, georgisch, khmer, slowakisch, albanisch, serbisch, asserbaidschanisch, bulgarisch, galizisch, gujarati, kasachisch, Kannada, lithuanisch, latvisch, malayalam, rumänisch, romanisch, sinhala und sunduanisch). Neue Übersetzungen der GUI (Spanisch, Französisch, Deutsch, Italienisch, Japanisch, Chinesisch vereinfacht, ukrainisch, arabisch, russisch, türkisch, indonesisch, portugiesisch, hindi, vietnamesisch, polnisch, schwedisch, koreanisch, marathi und aserbaijani). Mit der Untertiteldatei ist keine Ausrichtung und die Mediendatei erforderlich, um die SRT -Datei zu verarbeiten. Untertitel in Video verbrennen. Die Warteschlange kann mehrere Aufgaben gleichzeitig akzeptieren. Schallwarnung Benachrichtigung. Fortsetzung des Prozesses vom letzten Kontrollpunkt. Beschleunigungsrate -Regulierung.
2024/01/16: Erweiterte Sprachunterstützung (Thai, Nepali, Katalaner, Javaner, Tamil, Marathi, Telugu, Bengali und Indonesisch), die Einführung von Whisper Large V3, konfigurierbare GUI-Optionen, Integration von Rinden, Facebook-MMS, Coqui Xtts und Piper-tts. Zu den zusätzlichen Funktionen gehörten Audio -Trennungs -Dienstprogramme, XTTS -WAV -Erstellungen, verwenden eine SRT -Datei als Basis für Übersetzung, Dokumentenübersetzung, manuelle Lautsprecherbearbeitung und flexible Ausgabemöglichkeiten (Video, Audio, Untertitel).
2023/10/29: Bearbeiten Sie den übersetzten Untertitel, Laden Sie ihn herunter, passen Sie die Volumen- und Geschwindigkeitsoptionen an.
2023/08/03: Die Standardoptionen geändert und die Verzeichnisansicht von Downloads hinzugefügt.
2023/08/02: Unterstützung für arabische, tschechische, dänische, finnische, griechische, hebräische, ungarische, koreanische, persische, polnische, russische, türkische, türkische, urdu-, hindi- und vietnamesische Sprachen hinzugefügt.
2023/08/01: Fügen Sie Optionen für die Verwendung von RVC -Modellen hinzu.
2023/07/27: Beheben Sie einige Fehler, die das Video und Audio verarbeiten.
2023/07/26: Neue Benutzeroberfläche und Mischoptionen hinzufügen.
Willkommen zu Beiträgen der Community! Wenn Sie Ideen, Fehlerberichte oder Feature -Anfragen haben, öffnen Sie bitte ein Problem oder senden Sie eine Pull -Anfrage. Weitere Informationen finden Sie in den Beitragsrichtlinien.
Dieses Projekt nutzt eine Reihe von Open-Source-Projekten. Wir möchten den Mitwirkenden der folgenden Repositorys anerkennen und danken:
Obwohl der Code unter Apache 2 lizenziert ist, können die Modelle oder Gewichte kommerzielle Einschränkungen aufweisen, wie es bei Pyannote -Diatrization zu sehen ist.