Model bahasa visual (VLM) memainkan peran penting dalam tugas multimodal, namun memiliki kekurangan yang signifikan dalam memahami negasi. Model yang ada sering kali mengalami kesulitan dalam membedakan kalimat positif dan negatif, hal ini sangat mengkhawatirkan dalam aplikasi yang memerlukan pemahaman semantik yang tepat, seperti diagnosis medis dan pemantauan keamanan. Akar permasalahannya adalah bias pada data pra-pelatihan yang menyebabkan model mengacaukan pernyataan negatif dengan pernyataan positif. Artikel ini akan memperkenalkan kerangka kerja baru yang disebut NegBench, yang bertujuan untuk memecahkan masalah kurangnya kemampuan VLM untuk memahami negasi.
Model bahasa visual (VLM) memainkan peran penting dalam tugas multi-modal, seperti pengambilan gambar, deskripsi gambar, dan diagnosis medis. Tujuan dari model ini adalah untuk menyelaraskan data visual dengan data linguistik untuk memungkinkan pemrosesan informasi yang lebih efisien. Namun, VLM saat ini masih menghadapi tantangan yang signifikan dalam memahami negasi.
Negasi sangat penting dalam banyak penerapan, seperti membedakan antara "ruangan tanpa jendela" dan "ruangan dengan jendela". Meskipun ada kemajuan yang signifikan dalam VLM, kinerja model yang ada turun secara signifikan ketika berhadapan dengan pernyataan negatif. Keterbatasan ini sangat penting dalam bidang-bidang yang berisiko tinggi seperti pengawasan keamanan dan layanan kesehatan.
VLM yang ada, seperti CLIP, menggunakan ruang penyematan bersama untuk menyelaraskan representasi visual dan tekstual. Meskipun model ini bekerja dengan baik pada tugas-tugas seperti pengambilan lintas modal dan pembuatan teks gambar, model ini gagal saat menangani kalimat negatif. Akar masalah ini adalah bias dalam data pra-pelatihan, yang sebagian besar terdiri dari contoh-contoh positif, sehingga menyebabkan model memperlakukan pernyataan negatif dan positif sebagai hal yang sama. Oleh karena itu, tolok ukur yang ada, seperti CREPE dan CC-Neg, menggunakan contoh templat sederhana yang tidak dapat benar-benar mencerminkan kekayaan dan kedalaman negasi dalam bahasa alami. Hal ini membuat VLM menghadapi tantangan besar saat menjalankan aplikasi pemahaman bahasa yang tepat, seperti menanyakan kondisi kompleks dalam database pencitraan medis.
Untuk mengatasi masalah ini, peneliti dari MIT, Google DeepMind, dan Universitas Oxford mengusulkan kerangka kerja NegBench untuk mengevaluasi dan meningkatkan kemampuan VLM dalam memahami negasi. Kerangka kerja ini mengevaluasi dua tugas dasar: Pengambilan dan Negasi (Retrieval-Neg), yang menguji kemampuan model untuk mengambil gambar berdasarkan deskripsi positif dan negatif; dan Pertanyaan dan Negasi Pilihan Ganda (MCQ-Neg), yang mengevaluasi kinerja model secara halus memahami. NegBench menggunakan kumpulan data sintetis berukuran besar, seperti CC12M-NegCap dan CC12M-NegMCQ, yang berisi jutaan judul yang mencakup banyak skenario negatif untuk meningkatkan pelatihan dan evaluasi model.
Dengan menggabungkan kumpulan data nyata dan sintetis, NegBench secara efektif mengatasi keterbatasan model yang ada dan secara signifikan meningkatkan performa model dan kemampuan generalisasi. Model yang disempurnakan menunjukkan peningkatan yang signifikan dalam tugas pengambilan dan pemahaman, terutama ketika menangani pertanyaan negatif, di mana ingatan model meningkat sebesar 10%. Dalam tugas pilihan ganda, akurasi meningkat sebanyak 40%, menunjukkan kemampuan yang jauh lebih baik untuk membedakan antara judul positif dan negatif.
Proposal NegBench mengisi kesenjangan utama VLM dalam memahami negasi dan membuka jalan untuk membangun sistem kecerdasan buatan yang lebih kuat, yang sangat penting dalam bidang-bidang utama seperti diagnosis medis dan pengambilan konten semantik.
Makalah: https://arxiv.org/abs/2501.09425
Kode: https://github.com/m1k2zoo/negbench
Menyorot:
Peneliti mengungkapkan bahwa kekurangan model bahasa visual dalam memahami negasi terutama berasal dari bias dalam data pelatihan.
Kerangka kerja NegBench secara signifikan meningkatkan kinerja model pada tugas pengambilan dan pemahaman dengan memperkenalkan banyak contoh negatif.
Ketika model yang disempurnakan menangani pertanyaan negatif, tingkat akurasi dan perolehan kembali meningkat secara signifikan, sehingga mendorong kemajuan sistem kecerdasan buatan.
Munculnya kerangka NegBench memberikan solusi efektif terhadap masalah model bahasa visual dalam memahami negasi. Hal ini sangat penting dalam meningkatkan kinerja model dan mendorong pengembangan kecerdasan buatan, dan layak untuk penelitian dan penerapan lebih lanjut.