GenHowTo
1.0.0
このリポジトリには、CVPR'24 論文 GenHowTo: Learning to Generate Actions and State Transformations from Educational Video のコードが含まれています。
環境設定
Dockerfile
使用して環境を構築するか ( docker build -t genhowto .
)、パッケージを手動でインストールします ( pip install diffusers==0.18.2 transformers xformers accelerate
)。GenHowTo モデルの重みをダウンロードする
download_weights.sh
スクリプトを使用するか、GenHowTo 重みを手動でダウンロードします。GenHowTo-STATES-96h-v1
。GenHowTo-ACTIONS-96h-v1
。予測を取得する
python genhowto.py --weights_path weights/GenHowTo-STATES-96h-v1
--input_image path/to/image.jpg
--prompt "your prompt"
--output_path path/to/output.jpg
--num_images 1
[--num_steps_to_skip 2]
--num_steps_to_skip
は、拡散プロセスでスキップするステップの数です。数値が大きいほど、生成された画像は入力画像に似たものになります。 評価を再現するには、評価ディレクトリの指示に従ってください。
@inproceedings { soucek2024genhowto ,
title = { GenHowTo: Learning to Generate Actions and State Transformations from Instructional Videos } ,
author = { Souv{c}ek, Tom'{a}v{s} and Damen, Dima and Wray, Michael and Laptev, Ivan and Sivic, Josef } ,
booktitle = { Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR) } ,
month = { June } ,
year = { 2024 }
}
この研究は、プロジェクト EXA4MIND (No. 101092944) および e-INFRA CZ (ID:90140) を通じてチェコ共和国教育・青少年・スポーツ省の EU Horizon Europe Program によって部分的に支援されました。この研究の一部は、ブリストル大学の機械学習およびコンピューター ビジョン (MaVi) 2023 年夏季研究プログラム内で行われました。ブリストル大学での研究は、EPSRC UMPIRE (EP/T004991/1) および EPSRC PG Visual AI (EP/ T028572/1)。