Peneliti meta AI dan mitra akademik telah mengembangkan sistem inovatif, MILS (Solver LLM Multimodal Iterative), yang mengajarkan model bahasa besar untuk memproses gambar, video, dan audio tanpa pelatihan khusus. MILS bergantung pada kemampuan pemecahan masalah alami dari model bahasa daripada sejumlah besar pelatihan data, menunjukkan keunggulan uniknya.
MILS bekerja dengan memasangkan dua model AI untuk melakukan solusi tugas: satu adalah "generator", yang bertanggung jawab untuk mengusulkan solusi tugas, dan yang lainnya adalah "peringkat", yang digunakan untuk mengevaluasi efektivitas solusi yang dihasilkan. Umpan balik yang diberikan oleh pencetak gol dapat membantu generator terus mengoptimalkan jawaban sampai mencapai hasil yang memuaskan. Misalnya, dalam tugas deskripsi gambar, MIL secara bertahap dapat memperbaiki deskripsi gambar, sehingga secara akurat menggambarkan detail gambar di berbagai tingkatan.
MILS berkinerja sangat baik dalam deskripsi gambar. Dengan menggunakan model LLAMA-3.1-8B sebagai generator dan model klip sebagai pencetak gol, MILS dapat membuat deskripsi gambar yang sebanding dengan metode terkemuka saat ini, meskipun klip tidak secara khusus dilatih untuk tugas deskripsi gambar. Selain itu, MILS juga meningkatkan kemampuan pembuatan teks-ke-gambar dengan menyempurnakan permintaan teks, dan dapat menggabungkan petunjuk yang dihasilkan AI dengan alat pemrosesan gambar untuk menangani tugas pengeditan gambar seperti konversi gaya.
Keakuratan deskripsi gambar meningkat dengan jumlah langkah antara generator dan pencetak gol. | Foto: Ashutosh, dll.
Kemampuan MILS tidak terbatas pada gambar, juga meluas ke bidang video dan audio. Saat diuji menggunakan dataset video MSR-VTT, MIL mengungguli model yang ada dalam deskripsi konten video. Karena MILS tidak memodifikasi parameter model selama operasi, ia dapat mengubah berbagai jenis data menjadi teks yang dapat dibaca, mendukung penggabungan dan konversi informasi dari berbagai sumber seperti gambar dan audio ke dalam format yang diinginkan, sehingga membuat informasi konvergasi informasi multimoda terbuka baru terbuka baru terbuka kemungkinan.
Tes menunjukkan bahwa menggunakan generator yang lebih besar dan model penilaian dapat menghasilkan hasil yang lebih akurat, dan meningkatkan jumlah solusi potensial dapat secara signifikan meningkatkan kinerja. Para peneliti juga menemukan bahwa meluas ke model bahasa yang lebih besar tidak hanya meningkatkan kualitas hasil, tetapi juga secara signifikan meningkatkan kinerja.
Lansekap berevolusi dari deskripsi dasar sederhana ke representasi lansekap yang kompleks dengan detail yang lebih tepat dan elemen yang lebih alami. | Foto: Ashutosh, dll.
Strategi inovatif yang diadopsi oleh MIL ini sejalan dengan tren bidang kecerdasan buatan saat ini terhadap kemampuan penalaran yang lebih cerdas. Tim meta juga mengatakan bahwa MILS dapat menunjukkan potensi besar di masa depan di bidang -bidang seperti pemrosesan data 3D, lebih lanjut mempromosikan pengembangan AI multimodal.
Dengan perkembangan cepat GPT-4 Openai dan alternatif open source lainnya, seperti Meta's Llama 3.2, Mistral's Pixtral, dan Deepseek's Janus Pro, sistem AI multimoda yang muncul ini mempercepat aplikasi mereka untuk kehidupan sehari-hari. pengembangan kecerdasan buatan.