Editor Downcodes akan mengajak Anda mempelajari LLM2CLIP: teknologi inovatif yang meningkatkan kinerja model CLIP! Sebagai model dasar multi-modal yang penting, CLIP bekerja dengan baik dalam tugas-tugas seperti pengambilan teks gambar, namun memiliki kekurangan dalam memproses teks yang panjang. Peneliti dari Microsoft dan Universitas Tongji mengusulkan metode LLM2CLIP, yang secara cerdik menggunakan model bahasa besar (LLM) untuk meningkatkan kemampuan pembelajaran representasi visual CLIP dan mengatasi keterbatasan model CLIP asli.
CLIP, sebagai mesin pencari, dapat mendukung berbagai tugas seperti klasifikasi zero-shot, deteksi, segmentasi, dan pengambilan gambar-teks. Pada saat yang sama, sebagai ekstraktor fitur, ia mendominasi hampir semua tugas representasi lintas-modal, seperti pemahaman gambar, pemahaman video, dan pembuatan teks-ke-gambar atau video. Kekuatan CLIP terletak pada kemampuannya menghubungkan gambar dengan bahasa alami dan menangkap pengetahuan manusia, berkat pelatihannya pada data web berskala besar yang berisi deskripsi tekstual terperinci.
Namun, CLIP memiliki keterbatasan tertentu dalam menangani deskripsi teks yang panjang dan kompleks. Untuk mengatasi masalah tersebut, peneliti dari Microsoft dan Tongji University mengusulkan metode LLM2CLIP yang bertujuan untuk meningkatkan pembelajaran representasi visual dengan mengintegrasikan model bahasa besar (LLM). Metode ini dengan berani menggantikan encoder teks CLIP asli dan menggunakan pengetahuan LLM yang kaya untuk meningkatkan kinerja encoder visual CLIP. Penelitian menemukan bahwa mengintegrasikan LLM langsung ke CLIP mengakibatkan penurunan kinerja, sehingga tantangan ini perlu diatasi.
Metode LLM2CLIP sangat meningkatkan kemampuan LLM untuk memisahkan keterangan gambar dengan memperkenalkan teknologi "penyesuaian kontras keterangan", sehingga mencapai peningkatan kinerja yang signifikan.
Para peneliti melakukan eksperimen penyesuaian menggunakan kumpulan data dengan ukuran berbeda, termasuk CC-3M kecil, CC-3M dan CC-12M berukuran sedang, serta CC-3M, CC-12M, YFCC-15M dan Recaption-1B berukuran besar. . Hasilnya menunjukkan bahwa model yang dilatih menggunakan LLM2CLIP memiliki performa lebih baik dibandingkan model CLIP dan EVA tradisional dalam tugas pengambilan gambar-ke-teks dan teks-ke-gambar.
Dengan menggabungkan model seperti Llava1.5 untuk pelatihan multi-modal, LLM2CLIP berkinerja baik di hampir semua pengujian benchmark, terutama saat memproses tugas pengambilan teks panjang dan pendek, sehingga meningkatkan performa model EVA02 sebelumnya sebesar 16,5%. Pendekatan inovatif ini tidak hanya mengubah CLIP dari sekedar memproses data berbahasa Inggris menjadi model lintas bahasa yang kuat, namun juga meletakkan dasar untuk penelitian masa depan mengenai pelatihan CLIP.
Model: https://huggingface.co/collections/microsoft/llm2clip-672323a266173cfa40b32d4c
Kode: https://github.com/microsoft/LLM2CLIP/
Makalah: https://arxiv.org/abs/2411.04997
Kemunculan LLM2CLIP telah membawa arah baru dalam pengembangan model multi-modal, dan terobosannya dalam memproses teks panjang dan tugas lintas bahasa patut mendapat perhatian. Untuk informasi lebih lanjut silakan kunjungi tautan yang tersedia di artikel. Menantikan lebih banyak aplikasi berdasarkan LLM2CLIP yang muncul di masa depan!