Makalah: Pada Saat Uji Coba Generalisasi Zero-Shot Model Vision-Language: Apakah Kita Benar-benar Membutuhkan Pembelajaran yang Cepat? .
Penulis: Maxime Zanella, Ismail Ben Ayed.
Ini adalah repositori resmi GitHub untuk makalah kami yang diterima di CVPR '24. Karya ini memperkenalkan metode MeanShift Test-time Augmentation (MTA), yang memanfaatkan model Vision-Language tanpa memerlukan pembelajaran cepat. Metode kami secara acak menambah satu gambar menjadi N tampilan yang ditambah, lalu bergantian antara dua langkah utama (lihat mta.py dan Detail di bagian kode.):
Langkah ini melibatkan penghitungan skor untuk setiap tampilan yang diperbesar untuk menilai relevansi dan kualitasnya (skor inlierness).
Gambar 1: Perhitungan skor untuk setiap tampilan yang diperbesar.
Berdasarkan skor yang dihitung pada langkah sebelumnya, kami mencari mode titik data (MeanShift).
Gambar 2: Mencari mode, diberi bobot berdasarkan skor inlierness.
Kami mengikuti instalasi dan pra-pemrosesan TPT. Ini memastikan bahwa kumpulan data Anda diformat dengan tepat. Anda dapat menemukan repositori mereka di sini. Jika lebih nyaman Anda dapat mengubah nama folder setiap dataset di kamus ID_to_DIRNAME di data/datautils.py (baris 20).
Jalankan MTA pada dataset ImageNet dengan seed acak 1 dan prompt 'foto' dengan memasukkan perintah berikut:
python main.py --data /path/to/your/data --mta --testsets I --seed 1
Atau 15 dataset sekaligus:
python main.py --data /path/to/your/data --mta --testsets I/A/R/V/K/DTD/Flower102/Food101/Cars/SUN397/Aircraft/Pets/Caltech101/UCF101/eurosat --seed 1
Informasi lebih lanjut tentang prosedur di mta.py.
gaussian_kernel
solve_mta
y
) secara seragam.Jika Anda merasa proyek ini bermanfaat, harap kutip sebagai berikut:
@inproceedings { zanella2024test ,
title = { On the test-time zero-shot generalization of vision-language models: Do we really need prompt learning? } ,
author = { Zanella, Maxime and Ben Ayed, Ismail } ,
booktitle = { Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition } ,
pages = { 23783--23793 } ,
year = { 2024 }
}
Kami mengucapkan terima kasih kepada penulis TPT atas kontribusi sumber terbuka mereka. Anda dapat menemukan repositori mereka di sini.