Ce référentiel contient le code de l'article GenHowTo du CVPR'24 : Apprendre à générer des actions et des transformations d'état à partir de vidéos pédagogiques.
Configuration de l'environnement
Dockerfile
fourni pour créer l'environnement ( docker build -t genhowto .
) ou installez les packages manuellement ( pip install diffusers==0.18.2 transformers xformers accelerate
).Télécharger les poids du modèle GenHowTo
download_weights.sh
ou téléchargez les poids GenHowTo manuellement.GenHowTo-STATES-96h-v1
pour générer des transformations d'état.GenHowTo-ACTIONS-96h-v1
pour générer des actions.Obtenez des prédictions
python genhowto.py --weights_path weights/GenHowTo-STATES-96h-v1
--input_image path/to/image.jpg
--prompt "your prompt"
--output_path path/to/output.jpg
--num_images 1
[--num_steps_to_skip 2]
--num_steps_to_skip
est le nombre d'étapes à sauter dans le processus de diffusion. Plus le nombre est élevé, plus l'image générée sera similaire à l'image d'entrée. Pour reproduire notre évaluation, veuillez suivre les instructions du répertoire d'évaluation.
@inproceedings { soucek2024genhowto ,
title = { GenHowTo: Learning to Generate Actions and State Transformations from Instructional Videos } ,
author = { Souv{c}ek, Tom'{a}v{s} and Damen, Dima and Wray, Michael and Laptev, Ivan and Sivic, Josef } ,
booktitle = { Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR) } ,
month = { June } ,
year = { 2024 }
}
Ce travail a été en partie soutenu par le programme Horizon Europe de l'UE dans le cadre du projet EXA4MIND (n° 101092944) et le ministère de l'Éducation, de la Jeunesse et des Sports de la République tchèque via e-INFRA CZ (ID : 90140). Une partie de ce travail a été réalisée dans le cadre du programme de recherche d'été 2023 sur l'apprentissage automatique et la vision par ordinateur (MaVi) de l'Université de Bristol. La recherche à l'Université de Bristol est soutenue par l'EPSRC UMPIRE (EP/T004991/1) et l'EPSRC PG Visual AI (EP/ T028572/1).