根指南
1.0.0
此儲存庫包含 CVPR'24 論文 GenHowTo:學習從教學影片產生動作和狀態轉換的程式碼。
環境設定
Dockerfile
建置環境 ( docker build -t genhowto .
) 或手動安裝軟體包 ( pip install diffusers==0.18.2 transformers xformers accelerate
)。下載 GenHowTo 模型權重
download_weights.sh
腳本或手動下載 GenHowTo 權重。GenHowTo-STATES-96h-v1
用於產生狀態轉換。GenHowTo-ACTIONS-96h-v1
用於產生操作。取得預測
python genhowto.py --weights_path weights/GenHowTo-STATES-96h-v1
--input_image path/to/image.jpg
--prompt "your prompt"
--output_path path/to/output.jpg
--num_images 1
[--num_steps_to_skip 2]
--num_steps_to_skip
是擴散過程中要跳過的步驟數。數字越高,產生的影像與輸入影像越相似。 若要複製我們的評估,請按照評估目錄中的說明進行操作。
@inproceedings { soucek2024genhowto ,
title = { GenHowTo: Learning to Generate Actions and State Transformations from Instructional Videos } ,
author = { Souv{c}ek, Tom'{a}v{s} and Damen, Dima and Wray, Michael and Laptev, Ivan and Sivic, Josef } ,
booktitle = { Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR) } ,
month = { June } ,
year = { 2024 }
}
這項工作得到了 EXA4MIND 計畫下的歐盟地平線歐洲計畫(編號:101092944)和捷克共和國教育、青年和體育部透過 e-INFRA CZ(ID:90140)的部分支持。這項工作的一部分是在布里斯託大學2023 年機器學習和電腦視覺(MaVi) 夏季研究計畫內完成的。 (EP/ T028572/1)。