Englisch |中文
VideoLingo ist ein All-in-One-Tool zur Videoübersetzung, -lokalisierung und -synchronisierung mit dem Ziel, Untertitel in Netflix-Qualität zu erstellen. Es eliminiert schwerfällige maschinelle Übersetzungen und mehrzeilige Untertitel und bietet gleichzeitig hochwertige Synchronisation, was den globalen Wissensaustausch über Sprachbarrieren hinweg ermöglicht. Mit einer intuitiven Streamlit-Benutzeroberfläche können Sie einen Videolink mit nur wenigen Klicks in ein lokalisiertes Video mit hochwertigen zweisprachigen Untertiteln und Synchronisation umwandeln.
Hauptmerkmale:
YouTube-Video-Download über yt-dlp
Untertitelerkennung auf Wortebene mit WhisperX
NLP- und GPT-basierte Untertitelsegmentierung
GPT-generierte Terminologie für kohärente Übersetzung
Direkte Übersetzung, Reflexion und Anpassung in drei Schritten für Qualität auf professionellem Niveau
Nur einzeilige Untertitel nach Netflix-Standard
Synchronisierungsabgleich mit GPT-SoVITS und anderen Methoden
Ein-Klick-Start und Ausgabe in Streamlit
Detaillierte Protokollierung mit Fortschrittsfortsetzung
Umfassende Unterstützung mehrerer Sprachen
Unterschied zu ähnlichen Projekten: Nur einzeilige Untertitel, überlegene Übersetzungsqualität
Russische Übersetzungru_demo.mp4 | GPT-SoVITSsovits.mp4 | OAITTSOAITTS.mp4 |
Aktuelle Unterstützung für Eingabesprachen und Beispiele:
Eingabesprache | Übersetzungsdemo |
---|---|
Englisch | Englisch nach Chinesisch |
Russisch | Russisch nach Chinesisch |
Französisch | Französisch nach Japanisch |
Deutsch | Deutsch nach Chinesisch |
Italienisch | Italienisch nach Chinesisch |
Spanisch | Spanisch nach Chinesisch |
japanisch | Japanisch nach Chinesisch |
Chinesisch* | Chinesisch nach Englisch |
*Chinesisch erfordert eine separate Konfiguration des whisperX-Modells, die nur für die Installation des lokalen Quellcodes gilt. Informationen zum Konfigurationsprozess finden Sie in der Installationsdokumentation. Geben Sie in der Seitenleiste der Webseite unbedingt zh als Transkriptionssprache an
Die Unterstützung der Übersetzungssprache hängt von den Fähigkeiten des verwendeten großen Sprachmodells ab, während die Synchronisationssprache von der gewählten TTS-Methode abhängt.
Erleben Sie VideoLingo schnell in Colab in nur 5 Minuten:
VideoLingo unterstützt alle Hardwareplattformen und Betriebssysteme, erzielt jedoch die beste Leistung mit GPU-Beschleunigung. Detaillierte Installationsanweisungen finden Sie in der Dokumentation: Englisch | 简体中文
VideoLingo stellt eine Docker-Datei bereit. Bitte beachten Sie die Installationsdokumentation: Englisch | 简体中文
Gebrauchsanweisung: Englisch | 简体中文
Die Leistung von WhisperX variiert je nach Gerät. Version 1.7 führt zunächst eine Demucs-Sprachtrennung durch, was jedoch zu einer schlechteren Transkription nach der Trennung im Vergleich zu zuvor führen kann. Dies liegt daran, dass Whisper selbst in Umgebungen mit Hintergrundmusik trainiert wurde – vor der Trennung werden die Hintergrundmusiktexte nicht transkribiert, nach der Trennung jedoch möglicherweise.
Die Qualität der Synchronisierungsfunktion ist möglicherweise nicht perfekt , da sie sich noch in der Test- und Entwicklungsphase befindet und die Integration von MascGCT geplant ist. Um derzeit die besten Ergebnisse zu erzielen, wird empfohlen, TTS mit ähnlichen Sprachraten basierend auf der Geschwindigkeit und den Inhaltseigenschaften des Originalvideos zu wählen. Sehen Sie sich die Demo für Effekte an.
Bei der Erkennung mehrsprachiger Videotranskriptionen wird nur die Hauptsprache beibehalten . Dies liegt daran, dass whisperX beim erzwungenen Ausrichten von Untertiteln auf Wortebene ein spezielles Modell für eine einzelne Sprache verwendet und nicht erkannte Sprachen löscht.
Die separate Synchronisierung mehrerer Zeichen ist in der Entwicklung . Obwohl whisperX über VAD-Potenzial verfügt, sind spezifische Implementierungsarbeiten erforderlich und diese Funktion wird noch nicht unterstützt.
VAD zur Unterscheidung von Sprechern, Synchronisation mehrerer Zeichen
Anpassbare Übersetzungsstile
SaaS-Dienst
Lippensynchronisation für synchronisierte Videos
Dieses Projekt ist unter der Apache 2.0-Lizenz lizenziert. Beachten Sie bei der Verwendung dieses Projekts bitte die folgenden Regeln:
Bei der Veröffentlichung von Werken wird empfohlen (nicht zwingend), VideoLingo für die Untertitelerstellung anzugeben .
Befolgen Sie die Bedingungen der großen Sprachmodelle und TTS, die für eine ordnungsgemäße Zuordnung verwendet werden.
Wenn Sie den Code kopieren, fügen Sie bitte die vollständige Kopie der Apache 2.0-Lizenz bei.
Wir danken den folgenden Open-Source-Projekten herzlich für ihre Beiträge, die wichtige Unterstützung für die Entwicklung von VideoLingo geleistet haben:
whisperX
yt-dlp
json_repair
GPT-SoVITS
BELLE
Treten Sie unserem Discord bei: https://discord.gg/9F2G92CWPp
Senden Sie Probleme oder Pull-Anfragen auf GitHub
Folgen Sie mir auf Twitter: @Huanshere
Besuchen Sie die offizielle Website: docs.videolingo.io
Schicken Sie mir eine E-Mail an: [email protected]
Wenn Sie VideoLingo hilfreich finden, geben Sie uns bitte ein ️!