GenHowTo
1.0.0
이 저장소에는 CVPR'24 논문 GenHowTo: 교육 비디오에서 동작 및 상태 변환 생성 방법 학습에 대한 코드가 포함되어 있습니다.
환경설정
Dockerfile
사용하여 환경을 구축하거나( docker build -t genhowto .
) 패키지를 수동으로 설치합니다( pip install diffusers==0.18.2 transformers xformers accelerate
).GenHowTo 모델 가중치 다운로드
download_weights.sh
스크립트를 사용하거나 GenHowTo 가중치를 수동으로 다운로드하세요.GenHowTo-STATES-96h-v1
.GenHowTo-ACTIONS-96h-v1
.예측 받기
python genhowto.py --weights_path weights/GenHowTo-STATES-96h-v1
--input_image path/to/image.jpg
--prompt "your prompt"
--output_path path/to/output.jpg
--num_images 1
[--num_steps_to_skip 2]
--num_steps_to_skip
은 확산 프로세스에서 건너뛸 단계 수입니다. 숫자가 높을수록 생성된 이미지가 입력 이미지와 더 유사해집니다. 평가를 재현하려면 평가 디렉터리의 지침을 따르십시오.
@inproceedings { soucek2024genhowto ,
title = { GenHowTo: Learning to Generate Actions and State Transformations from Instructional Videos } ,
author = { Souv{c}ek, Tom'{a}v{s} and Damen, Dima and Wray, Michael and Laptev, Ivan and Sivic, Josef } ,
booktitle = { Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR) } ,
month = { June } ,
year = { 2024 }
}
이 작업은 EXA4MIND 프로젝트(No. 101092944)에 따른 EU Horizon Europe 프로그램과 e-INFRA CZ(ID:90140)를 통해 체코 교육청년스포츠부에서 부분적으로 지원되었습니다. 이 작업의 일부는 브리스톨 대학교의 기계 학습 및 컴퓨터 비전(MaVi) 여름 연구 프로그램 2023 내에서 수행되었습니다. 브리스톨 대학교의 연구는 EPSRC UMPIRE(EP/T004991/1) 및 EPSRC PG Visual AI(EP/ T028572/1).