В этом репозитории содержится код для документа CVPR'24 GenHowTo: Обучение генерированию действий и преобразований состояний из обучающих видеороликов.
Настройка среды
Dockerfile
для создания среды ( docker build -t genhowto .
) или установите пакеты вручную ( pip install diffusers==0.18.2 transformers xformers accelerate
).Скачать вес модели GenHowTo
download_weights.sh
или загрузите веса GenHowTo вручную.GenHowTo-STATES-96h-v1
для генерации преобразований состояний.GenHowTo-ACTIONS-96h-v1
для создания действий.Получить прогнозы
python genhowto.py --weights_path weights/GenHowTo-STATES-96h-v1
--input_image path/to/image.jpg
--prompt "your prompt"
--output_path path/to/output.jpg
--num_images 1
[--num_steps_to_skip 2]
--num_steps_to_skip
— количество шагов, которые нужно пропустить в процессе распространения. Чем выше число, тем больше сгенерированное изображение будет похоже на входное изображение. Чтобы повторить нашу оценку, следуйте инструкциям в каталоге оценок.
@inproceedings { soucek2024genhowto ,
title = { GenHowTo: Learning to Generate Actions and State Transformations from Instructional Videos } ,
author = { Souv{c}ek, Tom'{a}v{s} and Damen, Dima and Wray, Michael and Laptev, Ivan and Sivic, Josef } ,
booktitle = { Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR) } ,
month = { June } ,
year = { 2024 }
}
Эта работа была частично поддержана программой EU Horizon Europe в рамках проекта EXA4MIND (№ 101092944) и Министерством образования, молодежи и спорта Чешской Республики через e-INFRA CZ (ID:90140). Часть этой работы была выполнена в рамках летней исследовательской программы 2023 года по машинному обучению и компьютерному зрению (MaVi) Бристольского университета. Исследования в Бристольском университете поддерживаются EPSRC UMPIRE (EP/T004991/1) и EPSRC PG Visual AI (EP/ Т028572/1).