Dengan pesatnya perkembangan teknologi AI generatif, cara mengevaluasi kinerjanya secara objektif telah menjadi masalah yang mendesak untuk dipecahkan. Khusus untuk model diagram Vincent, metode evaluasi tradisional memiliki subjektivitas dan keterbatasan, sehingga sulit untuk mencerminkan pengaruh model yang sebenarnya secara akurat. Editor Downcodes akan memperkenalkan kepada Anda program evaluasi grafik Vinsensian baru yang diluncurkan bersama oleh Universitas Carnegie Mellon dan peneliti Meta - VQAScore, dan tolok ukur evaluasi baru - GenAI-Bench, dan bagaimana mereka akan mengubah standar evaluasi di bidang grafik Vinsensian .
Metode evaluasi tradisional mengandalkan mata manusia, yang terlalu subjektif; atau menggunakan beberapa indikator sederhana, seperti CLIPScore, namun indikator ini sering kali tidak dapat menangkap detail dalam petunjuk teks yang kompleks, seperti hubungan antara objek dan penalaran logis, dll. Hal ini menyebabkan hasil evaluasi banyak model grafik Vinsensian tidak akurat, dan bahkan terjadi beberapa situasi lucu. Gambar yang dihasilkan jelas salah, tetapi skornya cukup tinggi.
Untuk mengatasi masalah ini, para peneliti dari Universitas Carnegie Mellon dan Meta baru-baru ini bekerja sama untuk meluncurkan program evaluasi grafik Vinsensian baru-VQAScore. Ide inti dari solusi ini adalah dengan menggunakan model visual question-answering (VQA) untuk menilai model grafik Vincent.
Secara khusus, VQAScore pertama-tama akan mengubah perintah teks menjadi pertanyaan sederhana, seperti "Apakah ada kucing yang mengejar tikus di gambar ini?", lalu melemparkan gambar yang dihasilkan dan pertanyaan ini ke model VQA. Model VQA akan menilai apakah jawaban pertanyaan adalah "ya" atau "tidak" berdasarkan isi gambar, dan VQAScore akan menilai model diagram Vincent berdasarkan probabilitas model VQA menilai "ya".
Cara ini kelihatannya sederhana, namun ternyata efeknya bagus. Para peneliti menggunakan VQAScore untuk menguji delapan tolok ukur evaluasi grafik Vincent yang berbeda. Hasilnya menemukan bahwa akurasi dan keandalan VQAScore jauh melebihi metode evaluasi tradisional, dan bahkan sebanding dengan metode yang menggunakan model yang sangat besar seperti GPT-4V.
Yang lebih hebatnya lagi adalah VQAScore tidak hanya dapat digunakan untuk mengevaluasi gambar Vincent, tetapi juga untuk mengevaluasi video Vincent dan model 3D Vincent. Hal ini karena inti dari VQAScore adalah model VQA, dan model VQA itu sendiri dapat menangani berbagai jenis konten visual.
Untuk lebih mendorong kemajuan di bidang grafik Vinsensian, para peneliti juga membuat tolok ukur evaluasi grafik Vinsensian baru-GenAI-Bench. Tolok ukur ini berisi 1.600 perintah teks kompleks yang mencakup berbagai kemampuan penalaran bahasa visual, seperti perbandingan, penghitungan, penalaran logis, dll. Para peneliti juga mengumpulkan lebih dari 15.000 anotasi manual untuk mengevaluasi efektivitas berbagai model diagram Vincent.
Secara umum, kemunculan VQAScore dan GenAI-Bench telah membawa vitalitas baru pada bidang grafik Vincent. VQAScore menyediakan metode evaluasi yang lebih akurat dan andal yang dapat membantu peneliti mengevaluasi kelebihan dan kekurangan berbagai model dengan lebih baik. GenAI-Bench memberikan tolok ukur evaluasi yang lebih komprehensif dan menantang, yang dapat mendorong pengembangan model grafik Vincent ke arah yang lebih cerdas dan manusiawi.
Tentu saja VQAScore juga memiliki beberapa keterbatasan. Saat ini, VQAScore terutama mengandalkan model VQA open source, dan performa model ini tidak sebaik model sumber tertutup seperti GPT-4V. Di masa depan, seiring dengan peningkatan model VQA, kinerja VQAScore akan semakin ditingkatkan.
Alamat proyek: https://linzhiqiu.github.io/papers/vqascore/
Kemunculan VQAScore dan GenAI-Bench memberikan cara baru untuk mengevaluasi model grafik Vinsensian secara objektif dan mendorong pengembangan teknologi dan inovasi aplikasi di bidang ini. Dipercaya bahwa metode evaluasi yang lebih maju akan muncul di masa depan untuk lebih meningkatkan kinerja dan nilai penerapan model diagram Vincent. Menantikan kemajuan berkelanjutan di bidang ini!