Dieses Repository enthält Code für das CVPR'24-Papier GenHowTo: Learning to Generate Actions and State Transformations from Instructional Videos.
Umgebungseinrichtung
Dockerfile
um die Umgebung zu erstellen ( docker build -t genhowto .
) oder installieren Sie die Pakete manuell ( pip install diffusers==0.18.2 transformers xformers accelerate
).Laden Sie die Modellgewichte von GenHowTo herunter
download_weights.sh
oder laden Sie die GenHowTo-Gewichte manuell herunter.GenHowTo-STATES-96h-v1
zum Generieren von Zustandstransformationen.GenHowTo-ACTIONS-96h-v1
zum Generieren von Aktionen.Erhalten Sie Vorhersagen
python genhowto.py --weights_path weights/GenHowTo-STATES-96h-v1
--input_image path/to/image.jpg
--prompt "your prompt"
--output_path path/to/output.jpg
--num_images 1
[--num_steps_to_skip 2]
--num_steps_to_skip
ist die Anzahl der Schritte, die im Diffusionsprozess übersprungen werden sollen. Je höher die Zahl, desto ähnlicher ist das generierte Bild dem Eingabebild. Um unsere Bewertung nachzubilden, folgen Sie bitte den Anweisungen im Bewertungsverzeichnis.
@inproceedings { soucek2024genhowto ,
title = { GenHowTo: Learning to Generate Actions and State Transformations from Instructional Videos } ,
author = { Souv{c}ek, Tom'{a}v{s} and Damen, Dima and Wray, Michael and Laptev, Ivan and Sivic, Josef } ,
booktitle = { Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR) } ,
month = { June } ,
year = { 2024 }
}
Diese Arbeit wurde teilweise vom EU-Programm Horizon Europe im Rahmen des Projekts EXA4MIND (Nr. 101092944) und vom Ministerium für Bildung, Jugend und Sport der Tschechischen Republik über e-INFRA CZ (ID:90140) unterstützt. Ein Teil dieser Arbeit wurde im Rahmen des Sommerforschungsprogramms 2023 für maschinelles Lernen und Computer Vision (MaVi) der Universität Bristol durchgeführt. Die Forschung an der Universität Bristol wird von EPSRC UMPIRE (EP/T004991/1) und EPSRC PG Visual AI (EP/) unterstützt. T028572/1).