Une équipe de recherche de l'Université de Nanjing a collaboré avec ByteDance et la Southwest University pour lancer une technologie vidéo innovante de super-résolution appelée STAR. Cette technologie combine intelligemment des méthodes d’amélioration spatio-temporelle et des modèles texte-vidéo, qui peuvent améliorer considérablement la clarté des vidéos basse résolution, en particulier celles téléchargées à partir de plateformes vidéo. La version pré-entraînée du modèle STAR a été open source sur GitHub pour la commodité des chercheurs et des développeurs. Cela marque une avancée importante dans le domaine du traitement vidéo. Le projet propose deux modèles, I2VGen-XL et CogVideoX-5B, et prend en charge plusieurs formats d'entrée et options d'invite pour répondre à différents besoins.
Afin de faciliter la tâche des chercheurs et des développeurs, l'équipe de recherche a publié la version pré-entraînée du modèle STAR sur GitHub, comprenant deux modèles, I2VGen-XL et CogVideoX-5B, ainsi que le code d'inférence associé. L'introduction de ces outils marque une avancée importante dans le domaine du traitement vidéo.
Le processus d’utilisation de ce modèle est relativement simple. Tout d'abord, les utilisateurs doivent télécharger le modèle STAR pré-entraîné depuis HuggingFace et le placer dans le répertoire spécifié. Ensuite, préparez le fichier vidéo à tester et sélectionnez les options d'invite de texte appropriées, y compris aucune invite, des invites générées automatiquement ou saisies manuellement. Les utilisateurs n'ont qu'à ajuster les paramètres de chemin dans le script pour traiter facilement la super-résolution vidéo.
Ce projet a spécialement conçu deux modèles basés sur I2VGen-XL, qui sont utilisés pour différents degrés de traitement de dégradation vidéo afin de garantir qu'ils peuvent répondre à une variété de besoins. De plus, le modèle CogVideoX-5B prend spécifiquement en charge le format d'entrée 720 x 480, offrant des options flexibles pour des scénarios spécifiques.
Cette recherche fournit non seulement de nouvelles idées pour le développement de la technologie vidéo à super-résolution, mais ouvre également de nouvelles directions de recherche aux chercheurs dans des domaines connexes. L'équipe de recherche exprime sa gratitude envers les technologies de pointe telles que I2VGen-XL, VEnhancer, CogVideoX et OpenVid-1M, qui, selon elle, ont jeté les bases de leur projet.
Entrée du projet : https://github.com/NJU-PCALab/STAR
Points forts:
La nouvelle technologie STAR combine des modèles texte-vidéo pour obtenir une super-résolution vidéo et améliorer la qualité vidéo.
L'équipe de recherche a publié des modèles et des codes d'inférence pré-entraînés, et le processus d'utilisation est simple et clair.
Fournissez des coordonnées pour encourager les utilisateurs à communiquer et à discuter avec l’équipe de recherche.
Le projet STAR est open source via GitHub, ce qui le rend facile à utiliser pour les développeurs et les chercheurs. Son processus de fonctionnement simple et facile à utiliser et ses fonctions puissantes apportent de nouvelles possibilités dans le domaine de la super-résolution vidéo et fournissent de nouvelles orientations pour les recherches futures. . Nous espérons que la technologie STAR jouera un rôle plus important dans les applications pratiques.