Este repositorio contiene código para el artículo GenHowTo de CVPR'24: aprender a generar acciones y transformaciones de estado a partir de videos instructivos.
Configuración del entorno
Dockerfile
proporcionado para crear el entorno ( docker build -t genhowto .
) o instale los paquetes manualmente ( pip install diffusers==0.18.2 transformers xformers accelerate
).Descargar pesos modelo GenHowTo
download_weights.sh
o descargue los pesos GenHowTo manualmente.GenHowTo-STATES-96h-v1
para generar transformaciones de estado.GenHowTo-ACTIONS-96h-v1
para generar acciones.Obtener predicciones
python genhowto.py --weights_path weights/GenHowTo-STATES-96h-v1
--input_image path/to/image.jpg
--prompt "your prompt"
--output_path path/to/output.jpg
--num_images 1
[--num_steps_to_skip 2]
--num_steps_to_skip
es el número de pasos a omitir en el proceso de difusión. Cuanto mayor sea el número, más similar será la imagen generada a la imagen de entrada. Para replicar nuestra evaluación, siga las instrucciones en el directorio de evaluación.
@inproceedings { soucek2024genhowto ,
title = { GenHowTo: Learning to Generate Actions and State Transformations from Instructional Videos } ,
author = { Souv{c}ek, Tom'{a}v{s} and Damen, Dima and Wray, Michael and Laptev, Ivan and Sivic, Josef } ,
booktitle = { Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR) } ,
month = { June } ,
year = { 2024 }
}
Este trabajo fue financiado en parte por el programa Horizonte Europa de la UE en el marco del proyecto EXA4MIND (Nº 101092944) y el Ministerio de Educación, Juventud y Deportes de la República Checa a través de e-INFRA CZ (ID:90140). Parte de este trabajo se realizó dentro del Programa de investigación de verano de 2023 sobre aprendizaje automático y visión por computadora (MaVi) de la Universidad de Bristol. La investigación en la Universidad de Bristol cuenta con el apoyo de EPSRC UMPIRE (EP/T004991/1) y EPSRC PG Visual AI (EP/ T028572/1).