Unduhan GenHowTo - Unduhan kode sumber GenHowTo

GenHowTo

Kode sumber lainnya

1.0.0

Unduh

GenHowTo: Belajar Menghasilkan Tindakan dan Transformasi Keadaan dari Video Instruksional

[Situs Web Proyek ] [Kertas?] [Kode]

Repositori ini memuat kode untuk makalah CVPR'24 GenHowTo: Belajar Menghasilkan Tindakan dan Transformasi Keadaan dari Video Instruksional.

Jalankan model pada gambar dan perintah Anda

Pengaturan lingkungan
- Gunakan Dockerfile yang disediakan untuk membangun lingkungan ( docker build -t genhowto . ) atau instal paket secara manual ( pip install diffusers==0.18.2 transformers xformers accelerate ).
- Kode diuji dengan PyTorch 2.0.
Unduh bobot model GenHowTo
- Gunakan skrip download_weights.sh atau unduh bobot GenHowTo secara manual.
- Kami menyediakan bobot sebagai berikut:
  - GenHowTo-STATES-96h-v1 untuk menghasilkan transformasi keadaan.
  - GenHowTo-ACTIONS-96h-v1 untuk menghasilkan tindakan.

Dapatkan prediksi

Jalankan perintah berikut untuk mendapatkan prediksi untuk gambar Anda dan prompt.

 python genhowto.py --weights_path weights/GenHowTo-STATES-96h-v1
                   --input_image path/to/image.jpg
                   --prompt "your prompt"
                   --output_path path/to/output.jpg
                   --num_images 1
                   [--num_steps_to_skip 2]

--num_steps_to_skip adalah jumlah langkah yang harus dilewati dalam proses difusi. Semakin tinggi angkanya maka semakin mirip pula citra yang dihasilkan dengan citra masukan.

Evaluasi

Untuk meniru evaluasi kami, silakan ikuti petunjuk di direktori evaluasi.

Kutipan

 @inproceedings { soucek2024genhowto ,
    title = { GenHowTo: Learning to Generate Actions and State Transformations from Instructional Videos } ,
    author = { Souv{c}ek, Tom'{a}v{s} and Damen, Dima and Wray, Michael and Laptev, Ivan and Sivic, Josef } ,
    booktitle = { Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR) } ,
    month = { June } ,
    year = { 2024 }
}

Ucapan Terima Kasih

Pekerjaan ini sebagian didukung oleh Program EU Horizon Europe di bawah proyek EXA4MIND (No. 101092944) dan Kementerian Pendidikan, Pemuda dan Olahraga Republik Ceko melalui e-INFRA CZ (ID:90140). Sebagian dari pekerjaan ini dilakukan dalam Program Penelitian Musim Panas Pembelajaran Mesin dan Visi Komputer (MaVi) Universitas Bristol 2023. Penelitian di Universitas Bristol didukung oleh EPSRC UMPIRE (EP/T004991/1) dan EPSRC PG Visual AI (EP/ T028572/1).

Memperluas

Informasi Tambahan

Versi 1.0.0
Tipe Kode sumber lainnya
Waktu Pembaruan 2024-12-04
ukuran 565.72KB
Berasal dari Github

Aplikasi Terkait

waymo open dataset

2024-11-18
SmartTube

2024-12-14
Sunamu

2024-12-14
MySchedule.py

2024-12-15
viptools for eslam

2024-12-15
VITAident

2024-12-15

Direkomendasikan untuk Anda

chat.petals.dev

Kode sumber lainnya

1.0.0
GPT Prompt Templates

Kode sumber lainnya

1.0.0
GPTyped

Kode sumber lainnya

GPTyped 1.0.5
waymo open dataset

Kode sumber lainnya

December 2023 Update
SmartTube

Kode sumber lainnya

24.71 Stable
Sunamu

Kode sumber lainnya

Release 2.2.0
waymo open dataset

Kode sumber lainnya

December 2023 Update
wp functions

Kategori lainnya

1.0.0
termwind

Kategori lainnya

v2.3.0

Informasi Terkait Semua