Peningkatan model besar multimodal Scholar Puyu Lingbi ke versi 2.5 mendukung pemahaman gambar dan video konteks yang lebih panjang, menunjuk langsung ke GPT4V

Penulis：Eve Cole Waktu Pembaruan：2024-12-15 09:32:01

Laboratorium Kecerdasan Buatan Shanghai baru-baru ini mengumumkan bahwa model besar multi-modal InternLM-XComposer yang dikembangkannya telah ditingkatkan ke versi 2.5 (IXC-2.5). Versi ini telah membuat terobosan besar dalam pemahaman konteks panjang, pemahaman bahasa visual dan perluasan aplikasi, meningkatkan pemahaman gambar teks dan kemampuan pembuatan secara signifikan, dan melampaui model sumber terbuka yang ada dalam beberapa pengujian benchmark sebanding. IXC-2.5 menunjukkan kinerja yang kuat dan potensi aplikasi yang luas, menetapkan tolok ukur baru untuk pengembangan model multimodal besar.

Baru-baru ini, model besar multi-modal InternLM-XComposer ditingkatkan ke versi 2.5. Model ini, yang dikembangkan oleh Laboratorium Kecerdasan Buatan Shanghai, telah meningkatkan pemahaman teks dan gambar dengan kemampuan masukan dan keluaran konteks panjang yang sangat baik serta penerapan kreatif terobosan revolusioner.

IXC-2.5 mampu menangani konteks panjang hingga 96K dengan mudah, berkat data gambar-teks 24K yang disisipkan yang digunakan dalam pelatihannya. Kemampuan konteks panjang ini memungkinkan IXC-2.5 bekerja dengan baik dalam tugas-tugas yang memerlukan konteks masukan dan keluaran yang luas.

Dibandingkan dengan versi sebelumnya, IXC-2.5 memiliki tiga peningkatan besar dalam pemahaman bahasa visual:

Pemahaman resolusi sangat tinggi: IXC-2.5 mendukung gambar resolusi tinggi dengan rasio aspek apa pun melalui encoder visual asli 560×560ViT.

Pemahaman video yang mendetail: Perlakukan video sebagai gambar komposit beresolusi sangat tinggi yang terdiri dari puluhan hingga ratusan bingkai, menangkap detail melalui pengambilan sampel yang padat dan resolusi yang lebih tinggi.

Dialog multi-putaran dan multi-gambar: Mendukung dialog multi-putaran dan multi-gambar bentuk bebas untuk interaksi alami dengan manusia.

Selain peningkatan pemahaman, IXC-2.5 juga memperluas dua aplikasi menarik menggunakan parameter LoRA tambahan untuk pembuatan gambar teks:

Membuat halaman web: Berdasarkan instruksi gambar teks, IXC-2.5 dapat menulis kode sumber HTML, CSS dan JavaScript untuk membuat halaman web.

Tulis artikel grafis berkualitas tinggi: Gunakan teknologi Chain-of-Thought (CoT) dan Direct Preference Optimization (DPO) yang dirancang khusus untuk meningkatkan kualitas konten tulisan Anda secara signifikan.

IXC-2.5 dievaluasi pada 28 benchmark, dan mengungguli model open source canggih yang ada pada 16 benchmark. Selain itu, ia menyamai atau melampaui GPT-4V dan Gemini Pro dalam 16 tugas utama. Pencapaian ini sepenuhnya membuktikan kinerja yang kuat dan potensi penerapan IXC-2.5 yang luas.

Alamat makalah: https://arxiv.org/pdf/2407.03320

Alamat proyek: https://github.com/InternLM/InternLM-XComposer

Secara keseluruhan, peluncuran versi IXC-2.5 menandai kemajuan signifikan dalam teknologi model besar multi-modal, dan kinerjanya yang kuat serta skenario aplikasi yang kaya menunjukkan masa depan yang cerah bagi pengembangan teknologi kecerdasan buatan di masa depan. Menantikan pembaruan fitur yang lebih canggih di masa mendatang!