GenHowTo
1.0.0
يحظر هذا المستودع التعليمات البرمجية الخاصة بمقالة CVPR'24 GenHowTo: تعلم إنشاء الإجراءات وتحولات الحالة من مقاطع الفيديو التعليمية.
إعداد البيئة
Dockerfile
المقدم لبناء البيئة ( docker build -t genhowto .
) أو قم بتثبيت الحزم يدويًا ( pip install diffusers==0.18.2 transformers xformers accelerate
).تحميل نموذج GenHowTo للأوزان
download_weights.sh
أو قم بتنزيل أوزان GenHowTo يدويًا.GenHowTo-STATES-96h-v1
لإنشاء تحويلات الحالة.GenHowTo-ACTIONS-96h-v1
لإنشاء الإجراءات.احصل على تنبؤات
python genhowto.py --weights_path weights/GenHowTo-STATES-96h-v1
--input_image path/to/image.jpg
--prompt "your prompt"
--output_path path/to/output.jpg
--num_images 1
[--num_steps_to_skip 2]
--num_steps_to_skip
هو عدد الخطوات التي يجب تخطيها في عملية النشر. كلما زاد الرقم، زادت تشابه الصورة التي تم إنشاؤها مع الصورة المدخلة. لتكرار تقييمنا، يرجى اتباع التعليمات الموجودة في دليل التقييم.
@inproceedings { soucek2024genhowto ,
title = { GenHowTo: Learning to Generate Actions and State Transformations from Instructional Videos } ,
author = { Souv{c}ek, Tom'{a}v{s} and Damen, Dima and Wray, Michael and Laptev, Ivan and Sivic, Josef } ,
booktitle = { Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR) } ,
month = { June } ,
year = { 2024 }
}
تم دعم هذا العمل جزئيًا من قبل برنامج الاتحاد الأوروبي Horizon Europe في إطار مشروع EXA4MIND (رقم 101092944) ووزارة التعليم والشباب والرياضة في الجمهورية التشيكية من خلال e-INFRA CZ (ID:90140). تم إنجاز جزء من هذا العمل ضمن برنامج البحث الصيفي للتعلم الآلي ورؤية الكمبيوتر (MaVi) لعام 2023 بجامعة بريستول. يتم دعم البحث في جامعة بريستول بواسطة EPSRC UMPIRE (EP/T004991/1) وEPSRC PG Visual AI (EP/ T028572/1).