Artikel ini terutama memperkenalkan pembaruan GPT4.5 dan kemajuan penelitian multimodal yang ditimbulkannya. Diantaranya, kemunculan kerangka X-InstructBLIP telah mengurangi biaya penalaran lintas modal, dan tim peneliti menggunakan DisCRn untuk memverifikasi kemampuan kemunculannya. Semua ini mencerminkan kemajuan signifikan model-model besar dalam pemrosesan tugas multi-modal dan menandai arah pengembangan baru di bidang kecerdasan buatan.
Pembaruan GPT4.5 memimpin penelitian multimodal, dan kerangka kerja X-InstructBLIP memungkinkan penalaran lintas modal berbiaya rendah. Tim peneliti membangun DisCRn untuk memverifikasi kemampuan kemunculannya. Model besar telah membuat kemajuan penting dalam menangani tugas multimodal.
Secara keseluruhan, pembaruan GPT4.5 dan hasil penelitian terkait menandai sebuah terobosan dalam bidang kecerdasan buatan multi-modal, yang diharapkan dapat diterapkan di lebih banyak bidang di masa depan dan memberikan lebih banyak kemudahan bagi kehidupan masyarakat. Kami menantikan munculnya hasil yang lebih inovatif di masa depan.