Anglais |中文
VideoLingo est un outil tout-en-un de traduction, de localisation et de doublage vidéo destiné à générer des sous-titres de qualité Netflix. Il élimine les traductions automatiques rigides et les sous-titres multilignes tout en ajoutant un doublage de haute qualité, permettant un partage mondial des connaissances au-delà des barrières linguistiques. Avec une interface Streamlit intuitive, vous pouvez transformer un lien vidéo en une vidéo localisée avec des sous-titres et un doublage bilingues de haute qualité en quelques clics seulement.
Principales caractéristiques :
Téléchargement de vidéos YouTube via yt-dlp
Reconnaissance des sous-titres au niveau des mots avec WhisperX
Segmentation des sous-titres basée sur le NLP et le GPT
Terminologie générée par GPT pour une traduction cohérente
Traduction directe, réflexion et adaptation en 3 étapes pour une qualité de niveau professionnel
Sous-titres sur une seule ligne standard Netflix uniquement
Alignement du doublage avec GPT-SoVITS et d'autres méthodes
Démarrage et sortie en un clic dans Streamlit
Journalisation détaillée avec reprise de la progression
Prise en charge multilingue complète
Différence par rapport à des projets similaires : sous-titres sur une seule ligne uniquement, qualité de traduction supérieure
Traduction en russeru_demo.mp4 | GPT-SoVITSsovits.mp4 | OAITTSOAITTS.mp4 |
Prise en charge actuelle des langues de saisie et exemples :
Langue d'entrée | Démo de traduction |
---|---|
Anglais | Anglais vers chinois |
russe | Du russe vers le chinois |
Français | Du français vers le japonais |
Allemand | Allemand vers chinois |
italien | Italien vers Chinois |
Espagnol | Espagnol vers chinois |
japonais | Du japonais vers le chinois |
Chinois* | Chinois vers anglais |
*Le chinois nécessite une configuration distincte du modèle WhisperX, applicable uniquement pour l'installation du code source local. Consultez la documentation d'installation pour le processus de configuration et assurez-vous de spécifier la langue de transcription comme zh dans la barre latérale de la page Web.
La prise en charge de la langue de traduction dépend des capacités du grand modèle linguistique utilisé, tandis que la langue de doublage dépend de la méthode TTS choisie.
Découvrez VideoLingo rapidement dans Colab en seulement 5 minutes :
VideoLingo prend en charge toutes les plates-formes matérielles et systèmes d'exploitation, mais fonctionne mieux avec l'accélération GPU. Pour des instructions d'installation détaillées, veuillez vous référer à la documentation : Anglais | 简体中文
VideoLingo fournit un Dockerfile. Veuillez vous référer à la documentation d'installation : Anglais | 简体中文
Instructions d'utilisation : anglais | 简体中文
Les performances de WhisperX varient selon les différents appareils. La version 1.7 effectue d'abord la séparation vocale demucs, mais cela peut entraîner une pire transcription après la séparation par rapport à avant. En effet, le chuchotement lui-même a été formé dans des environnements avec une musique de fond : avant la séparation, il ne transcrira pas les paroles de BGM, mais après la séparation, il pourrait les transcrire.
La qualité de la fonctionnalité de doublage n'est peut-être pas parfaite car elle est encore en phase de test et de développement, avec des plans pour intégrer MascGCT. Pour de meilleurs résultats actuellement, il est recommandé de choisir TTS avec des débits de parole similaires en fonction de la vitesse et des caractéristiques du contenu de la vidéo d'origine. Voir la démo pour les effets.
La reconnaissance de transcription vidéo multilingue ne conservera que la langue principale . En effet, WhisperX utilise un modèle spécialisé pour une seule langue lors de l'alignement forcé des sous-titres au niveau des mots et supprime les langues non reconnues.
Le doublage séparé de plusieurs caractères est en cours de développement . Bien que WhisperX ait un potentiel VAD, un travail de mise en œuvre spécifique est nécessaire et cette fonctionnalité n'est pas encore prise en charge.
VAD pour distinguer les enceintes, doublage multi-caractères
Styles de traduction personnalisables
Service SaaS
Synchronisation labiale pour les vidéos doublées
Ce projet est sous licence Apache 2.0. Lorsque vous utilisez ce projet, veuillez suivre ces règles :
Lors de la publication d'œuvres, il est recommandé (pas obligatoire) de créditer VideoLingo pour la génération de sous-titres .
Suivez les termes des grands modèles linguistiques et TTS utilisés pour une attribution appropriée.
Si vous copiez le code, veuillez inclure la copie complète de la licence Apache 2.0.
Nous remercions sincèrement les projets open source suivants pour leurs contributions, qui ont fourni un soutien important au développement de VideoLingo :
murmureX
yt-dlp
json_repair
GPT-SoVITS
BELLE
Rejoignez notre Discord : https://discord.gg/9F2G92CWPp
Soumettre des problèmes ou des demandes de tirage sur GitHub
Suivez-moi sur Twitter : @Huanshere
Visitez le site officiel : docs.videolingo.io
Envoyez-moi un e-mail à : [email protected]
Si vous trouvez VideoLingo utile, donnez-nous un ️ !