根指南
1.0.0
该存储库包含 CVPR'24 论文 GenHowTo:学习从教学视频生成动作和状态转换的代码。
环境设置
Dockerfile
构建环境 ( docker build -t genhowto .
) 或手动安装软件包 ( pip install diffusers==0.18.2 transformers xformers accelerate
)。下载 GenHowTo 模型权重
download_weights.sh
脚本或手动下载 GenHowTo 权重。GenHowTo-STATES-96h-v1
用于生成状态转换。GenHowTo-ACTIONS-96h-v1
用于生成操作。获取预测
python genhowto.py --weights_path weights/GenHowTo-STATES-96h-v1
--input_image path/to/image.jpg
--prompt "your prompt"
--output_path path/to/output.jpg
--num_images 1
[--num_steps_to_skip 2]
--num_steps_to_skip
是扩散过程中要跳过的步骤数。数字越高,生成的图像与输入图像越相似。 要复制我们的评估,请按照评估目录中的说明进行操作。
@inproceedings { soucek2024genhowto ,
title = { GenHowTo: Learning to Generate Actions and State Transformations from Instructional Videos } ,
author = { Souv{c}ek, Tom'{a}v{s} and Damen, Dima and Wray, Michael and Laptev, Ivan and Sivic, Josef } ,
booktitle = { Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR) } ,
month = { June } ,
year = { 2024 }
}
这项工作得到了 EXA4MIND 项目下的欧盟地平线欧洲计划(编号:101092944)和捷克共和国教育、青年和体育部通过 e-INFRA CZ(ID:90140)的部分支持。这项工作的一部分是在布里斯托大学 2023 年机器学习和计算机视觉 (MaVi) 夏季研究计划内完成的。布里斯托大学的研究得到了 EPSRC UMPIRE (EP/T004991/1) 和 EPSRC PG Visual AI (EP/ T028572/1)。