Kode untuk makalah kami: Stellar: Evaluasi Sistematis Metode Teks-ke-Gambar yang Dipersonalisasi dan Berpusat pada Manusia
Penulis: Panos Achlioptas, Alexandros Benetatos, Iordanis Fostiropoulos, Dimitris Skourtis
Basis kode dikelola oleh Iordanis Fostiropoulos. Jika ada pertanyaan, silakan hubungi kami.
Sebelum mengunduh atau menggunakan bagian apa pun dari kode dalam repositori ini, harap tinjau dan pahami syarat dan ketentuan yang ditetapkan dalam "Ketentuan Lisensi" dan "Ketentuan Lisensi Pihak Ketiga" yang disertakan dalam repositori ini. Melanjutkan mengunduh dan menggunakan bagian mana pun dari kode dalam repositori ini menegaskan bahwa Anda menyetujui syarat dan ketentuan ini.
Catatan: "Gambar Masukan" dan "Gambar Tambahan" yang ditampilkan terdapat dalam kumpulan data CELEBMaksHQ.
Karya ini didasarkan pada naskah teknis kami Stellar: Evaluasi Sistematis Metode Teks-ke-Gambar yang Dipersonalisasi dan Berpusat pada Manusia. Kami mengusulkan 5 metrik untuk mengevaluasi model Teks-2-Gambar personalisasi yang berpusat pada manusia. Repositori ini menyediakan implementasi 8 metrik dasar tambahan untuk metode Text-2-Image dan Image-2-Image.
Ada beberapa metrik yang disediakan dari literatur. Kami menunjukkannya dengan yang diperkenalkan oleh karya kami.
Kami menyediakan implementasi kami sendiri atas metrik yang ada dan merujuk pengguna ke makalah mereka untuk mengetahui detail teknis pekerjaan mereka.
Nama | Jenis Evaluasi | Nama Kode | Referensi |
---|---|---|---|
estetika. | Gambar2Gambar | aesth | Link |
Gambar2Gambar | clip | Link | |
Sim Mimpi | Gambar2Gambar | dreamsim | Link |
Teks2Gambar | clip | Link | |
HPSv1 | Teks2Gambar | hps | Link |
HPSv2 | Teks2Gambar | hps | Link |
Hadiah Gambar | Teks2Gambar | im_reward | Link |
Pilih Skor | Teks2Gambar | pick | Link |
APS | Teks2Gambar yang Dipersonalisasi | aps | Link |
GoA | Berpusat pada objek | goa | Link |
IPS | Teks2Gambar yang Dipersonalisasi | ips | Link |
Berpusat pada hubungan | rfs | Link | |
Kak | Teks2Gambar yang Dipersonalisasi | sis | Link |
pip install git+https://github.com/stellar-gen-ai/stellar-metrics.git
Kami ingin menghitung metrik untuk setiap gambar. Dengan demikian, ini dapat membantu mendiagnosis kasus kegagalan suatu metode.
$ python -m stellar_metrics --metric code_name --stellar-path ./stellar-dataset --syn-path ./model-output --save-dir ./save-dir
Opsional Anda dapat menentukan --device
, --batch-size
dan --clip-version
untuk tulang punggung
CATATAN harus ada korespondensi satu-ke-satu antara keluaran model dan kumpulan data bintang. stellar-dataset
digunakan untuk menghitung beberapa metrik, seperti pelestarian identitas yang memerlukan gambar asli. Kesalahan konfigurasi antara syn-path
dan stellar-path
dapat menyebabkan hasil yang salah.
Hitung IPS
$ python -m stellar_metrics --metric ips --stellar-path ./tests/assets/mock_stellar_dataset --syn-path ./tests/assets/stellar_net --save-dir ./save-dir
Hitung KLIP
$ python -m stellar_metrics --metric clip --stellar-path ./tests/assets/mock_stellar_dataset --syn-path ./tests/assets/stellar_net --save-dir ./save-dir
$ python -m stellar_metrics.analysis --save-dir ./save-dir
Menilai kemiripan wajah antara identitas masukan dan gambar yang dihasilkan dengan cara yang agak kasar namun terspesialisasi. Metrik kami menggunakan detektor wajah untuk mengisolasi wajah identitas dalam gambar masukan dan gambar yang dihasilkan. Kemudian menggunakan model deteksi wajah khusus untuk mengekstraksi embeddings representasi wajah dari wilayah yang terdeteksi.
Menilai seberapa baik gambar yang dihasilkan mempertahankan atribut spesifik dari identitas yang dimaksud, seperti usia, jenis kelamin, dan fitur wajah invarian lainnya (misalnya,~tulang pipi yang tinggi). Dengan memanfaatkan anotasi pada gambar Stellar, kita dapat mengevaluasi karakteristik wajah biner ini.
Berfungsi sebagai ukuran untuk menentukan sejauh mana sensitivitas model terhadap gambaran berbeda dari individu yang sama ; lebih lanjut mempromosikan model di mana identitas subjek secara konsisten tertangkap dengan baik terlepas dari variasi masukan gambar yang tidak relevan (misalnya, kondisi pencahayaan, pose subjek).
Untuk mencapai tujuan ini, SIS
memerlukan akses ke beberapa gambar subjek manusia (suatu kondisi yang memang sengaja dipenuhi dalam kumpulan data Stellar); dan merupakan satu-satunya metrik evaluasi kami dengan persyaratan yang lebih menuntut.
Kami memperkenalkan metrik khusus dan dapat ditafsirkan untuk mengevaluasi dua aspek utama keselarasan antara gambar dan perintah; kesetiaan representasi objek dan kesetiaan hubungan yang digambarkan.
Evaluasi keberhasilan merepresentasikan interaksi objek cepat yang diinginkan pada gambar yang dihasilkan. Mengingat sulitnya model Scene Graph Generation (SGG) khusus untuk memahami hubungan visual, metrik ini memperkenalkan wawasan lokal yang berharga tentang kemampuan model yang dipersonalisasi untuk menggambarkan hubungan yang diminta dengan tepat.