GenHowTo
1.0.0
Repositori ini memuat kode untuk makalah CVPR'24 GenHowTo: Belajar Menghasilkan Tindakan dan Transformasi Keadaan dari Video Instruksional.
Pengaturan lingkungan
Dockerfile
yang disediakan untuk membangun lingkungan ( docker build -t genhowto .
) atau instal paket secara manual ( pip install diffusers==0.18.2 transformers xformers accelerate
).Unduh bobot model GenHowTo
download_weights.sh
atau unduh bobot GenHowTo secara manual.GenHowTo-STATES-96h-v1
untuk menghasilkan transformasi keadaan.GenHowTo-ACTIONS-96h-v1
untuk menghasilkan tindakan.Dapatkan prediksi
python genhowto.py --weights_path weights/GenHowTo-STATES-96h-v1
--input_image path/to/image.jpg
--prompt "your prompt"
--output_path path/to/output.jpg
--num_images 1
[--num_steps_to_skip 2]
--num_steps_to_skip
adalah jumlah langkah yang harus dilewati dalam proses difusi. Semakin tinggi angkanya maka semakin mirip pula citra yang dihasilkan dengan citra masukan. Untuk meniru evaluasi kami, silakan ikuti petunjuk di direktori evaluasi.
@inproceedings { soucek2024genhowto ,
title = { GenHowTo: Learning to Generate Actions and State Transformations from Instructional Videos } ,
author = { Souv{c}ek, Tom'{a}v{s} and Damen, Dima and Wray, Michael and Laptev, Ivan and Sivic, Josef } ,
booktitle = { Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR) } ,
month = { June } ,
year = { 2024 }
}
Pekerjaan ini sebagian didukung oleh EU Horizon Europe Program di bawah proyek EXA4MIND (No. 101092944) dan Kementerian Pendidikan, Pemuda dan Olahraga Republik Ceko melalui e-INFRA CZ (ID:90140). Sebagian dari pekerjaan ini dilakukan dalam Program Penelitian Musim Panas Pembelajaran Mesin dan Visi Komputer (MaVi) Universitas Bristol 2023. Penelitian di Universitas Bristol didukung oleh EPSRC UMPIRE (EP/T004991/1) dan EPSRC PG Visual AI (EP/ T028572/1).