GenHowTo
1.0.0
พื้นที่เก็บข้อมูลนี้จำกัดโค้ดสำหรับรายงาน CVPR'24 GenHowTo: การเรียนรู้เพื่อสร้างการดำเนินการและการเปลี่ยนแปลงสถานะจากวิดีโอแนะนำ
การตั้งค่าสภาพแวดล้อม
Dockerfile
ที่ให้มาเพื่อสร้างสภาพแวดล้อม ( docker build -t genhowto .
) หรือติดตั้งแพ็คเกจด้วยตนเอง ( pip install diffusers==0.18.2 transformers xformers accelerate
)ดาวน์โหลดตุ้มน้ำหนักโมเดล GenHowTo
download_weights.sh
หรือดาวน์โหลดตุ้มน้ำหนัก GenHowTo ด้วยตนเองGenHowTo-STATES-96h-v1
สำหรับการสร้างการแปลงสถานะGenHowTo-ACTIONS-96h-v1
สำหรับการสร้างการดำเนินการรับคำทำนาย
python genhowto.py --weights_path weights/GenHowTo-STATES-96h-v1
--input_image path/to/image.jpg
--prompt "your prompt"
--output_path path/to/output.jpg
--num_images 1
[--num_steps_to_skip 2]
--num_steps_to_skip
คือจำนวนขั้นตอนที่ต้องข้ามในกระบวนการแพร่ ยิ่งตัวเลขสูง รูปภาพที่สร้างขึ้นก็จะคล้ายกับรูปภาพอินพุตมากขึ้นเท่านั้น หากต้องการจำลองการประเมินของเรา โปรดปฏิบัติตามคำแนะนำในไดเรกทอรีการประเมินผล
@inproceedings { soucek2024genhowto ,
title = { GenHowTo: Learning to Generate Actions and State Transformations from Instructional Videos } ,
author = { Souv{c}ek, Tom'{a}v{s} and Damen, Dima and Wray, Michael and Laptev, Ivan and Sivic, Josef } ,
booktitle = { Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR) } ,
month = { June } ,
year = { 2024 }
}
งานนี้ได้รับการสนับสนุนบางส่วนโดยโครงการ EU Horizon Europe ภายใต้โครงการ EXA4MIND (หมายเลข 101092944) และกระทรวงศึกษาธิการ เยาวชน และการกีฬาของสาธารณรัฐเช็ก ผ่านทาง e-INFRA CZ (ID:90140) ส่วนหนึ่งของงานนี้จัดทำขึ้นภายในโครงการวิจัยภาคฤดูร้อนด้านการเรียนรู้ของเครื่องและคอมพิวเตอร์วิทัศน์ (MaVi) ของมหาวิทยาลัยบริสตอล ปี 2023 การวิจัยที่มหาวิทยาลัยบริสตอลได้รับการสนับสนุนจาก EPSRC UMPIRE (EP/T004991/1) และ EPSRC PG Visual AI (EP/ T028572/1).