Téléchargement VideoLingo - Téléchargement du code source VideoLingo

VideoLingo

Autre code source

Télécharger

Connectez le monde, image par image

Anglais ｜中文

Aperçu

VideoLingo est un outil tout-en-un de traduction, de localisation et de doublage vidéo destiné à générer des sous-titres de qualité Netflix. Il élimine les traductions automatiques rigides et les sous-titres multilignes tout en ajoutant un doublage de haute qualité, permettant un partage mondial des connaissances au-delà des barrières linguistiques. Avec une interface Streamlit intuitive, vous pouvez transformer un lien vidéo en une vidéo localisée avec des sous-titres et un doublage bilingues de haute qualité en quelques clics seulement.

Principales caractéristiques :

Téléchargement de vidéos YouTube via yt-dlp
Reconnaissance des sous-titres au niveau des mots avec WhisperX
Segmentation des sous-titres basée sur le NLP et le GPT
Terminologie générée par GPT pour une traduction cohérente
Traduction directe, réflexion et adaptation en 3 étapes pour une qualité de niveau professionnel
Sous-titres sur une seule ligne standard Netflix uniquement
Alignement du doublage avec GPT-SoVITS et d'autres méthodes
Démarrage et sortie en un clic dans Streamlit
Journalisation détaillée avec reprise de la progression
Prise en charge multilingue complète

Différence par rapport à des projets similaires : sous-titres sur une seule ligne uniquement, qualité de traduction supérieure

Démo

Traduction en russe

ru_demo.mp4

GPT-SoVITS

sovits.mp4

OAITTS

OAITTS.mp4

Prise en charge linguistique :

Prise en charge actuelle des langues de saisie et exemples :

Langue d'entrée	Démo de traduction
Anglais	Anglais vers chinois
russe	Du russe vers le chinois
Français	Du français vers le japonais
Allemand	Allemand vers chinois
italien	Italien vers chinois
Espagnol	Espagnol vers chinois
japonais	Du japonais vers le chinois
Chinois*	Chinois vers anglais

*Le chinois nécessite une configuration distincte du modèle WhisperX, applicable uniquement pour l'installation du code source local. Consultez la documentation d'installation pour le processus de configuration et assurez-vous de spécifier la langue de transcription comme zh dans la barre latérale de la page Web.

La prise en charge de la langue de traduction dépend des capacités du grand modèle linguistique utilisé, tandis que la langue de doublage dépend de la méthode TTS choisie.

Démarrage rapide

Expérience en ligne

Découvrez VideoLingo rapidement dans Colab en seulement 5 minutes :

Installation locale

VideoLingo prend en charge toutes les plates-formes matérielles et systèmes d'exploitation, mais fonctionne mieux avec l'accélération GPU. Pour des instructions d'installation détaillées, veuillez vous référer à la documentation : Anglais | 简体中文

Installation du menu Docker

VideoLingo fournit un Dockerfile. Veuillez vous référer à la documentation d'installation : Anglais | 简体中文

Mode par lots

Instructions d'utilisation : anglais | 简体中文

️ Limites actuelles

Les performances de WhisperX varient selon les différents appareils. La version 1.7 effectue d'abord la séparation vocale demucs, mais cela peut entraîner une pire transcription après la séparation par rapport à avant. En effet, le chuchotement lui-même a été formé dans des environnements avec une musique de fond : avant la séparation, il ne transcrira pas les paroles de BGM, mais après la séparation, il pourrait les transcrire.
La qualité de la fonctionnalité de doublage n'est peut-être pas parfaite car elle est encore en phase de test et de développement, avec des plans pour intégrer MascGCT. Pour de meilleurs résultats actuellement, il est recommandé de choisir TTS avec des débits de parole similaires en fonction de la vitesse et des caractéristiques du contenu de la vidéo d'origine. Voir la démo pour les effets.
La reconnaissance de transcription vidéo multilingue ne conservera que la langue principale . En effet, WhisperX utilise un modèle spécialisé pour une seule langue lors de l'alignement forcé des sous-titres au niveau des mots et supprime les langues non reconnues.
Le doublage séparé de plusieurs caractères est en cours de développement . Bien que WhisperX ait un potentiel VAD, un travail de mise en œuvre spécifique est nécessaire et cette fonctionnalité n'est pas encore prise en charge.

Feuille de route

VAD pour distinguer les enceintes, doublage multi-caractères
Styles de traduction personnalisables
Service SaaS
Synchronisation labiale pour les vidéos doublées

Licence

Ce projet est sous licence Apache 2.0. Lorsque vous utilisez ce projet, veuillez suivre ces règles :

Lors de la publication d'œuvres, il est recommandé (pas obligatoire) de créditer VideoLingo pour la génération de sous-titres .
Suivez les termes des grands modèles linguistiques et TTS utilisés pour une attribution appropriée.
Si vous copiez le code, veuillez inclure la copie complète de la licence Apache 2.0.

Nous remercions sincèrement les projets open source suivants pour leurs contributions, qui ont fourni un soutien important au développement de VideoLingo :