Este repositório contém código para o artigo GenHowTo do CVPR'24: Aprendendo a gerar ações e transformações de estado a partir de vídeos instrucionais.
Configuração do ambiente
Dockerfile
fornecido para construir o ambiente ( docker build -t genhowto .
) ou instale os pacotes manualmente ( pip install diffusers==0.18.2 transformers xformers accelerate
).Baixe os pesos do modelo GenHowTo
download_weights.sh
ou baixe os pesos GenHowTo manualmente.GenHowTo-STATES-96h-v1
para gerar transformações de estado.GenHowTo-ACTIONS-96h-v1
para gerar ações.Obtenha previsões
python genhowto.py --weights_path weights/GenHowTo-STATES-96h-v1
--input_image path/to/image.jpg
--prompt "your prompt"
--output_path path/to/output.jpg
--num_images 1
[--num_steps_to_skip 2]
--num_steps_to_skip
é o número de etapas a serem ignoradas no processo de difusão. Quanto maior o número, mais semelhante será a imagem gerada à imagem de entrada. Para replicar nossa avaliação, siga as instruções no diretório de avaliação.
@inproceedings { soucek2024genhowto ,
title = { GenHowTo: Learning to Generate Actions and State Transformations from Instructional Videos } ,
author = { Souv{c}ek, Tom'{a}v{s} and Damen, Dima and Wray, Michael and Laptev, Ivan and Sivic, Josef } ,
booktitle = { Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR) } ,
month = { June } ,
year = { 2024 }
}
Este trabalho foi parcialmente apoiado pelo Programa Horizonte Europa da UE no âmbito do projeto EXA4MIND (nº 101092944) e pelo Ministério da Educação, Juventude e Desporto da República Checa através do e-INFRA CZ (ID:90140). Parte deste trabalho foi realizada no âmbito do Programa de Pesquisa de Verão 2023 de Aprendizado de Máquina e Visão Computacional (MaVi) da Universidade de Bristol. A pesquisa na Universidade de Bristol é apoiada por EPSRC UMPIRE (EP/T004991/1) e EPSRC PG Visual AI (EP/ T028572/1).