Tim Face Hugging merilis dua model AI ringan: SMOLVLM-256M dan SMOLVLM-500M, dengan parameter 256 juta dan 500 juta masing-masing. Kedua model ini sangat cocok untuk perangkat dengan memori kurang dari 1GB, memberikan pengembang solusi pemrosesan data dengan biaya rendah dan efisiensi tinggi. Kinerja yang efisien melampaui banyak model skala besar dalam berbagai tolok ukur, terutama dalam berurusan dengan grafik sains sekolah dasar, menunjukkan potensi besar dalam pendidikan dan penelitian.
Baru-baru ini, tim Hugging Face, platform pengembangan kecerdasan buatan, merilis dua model AI baru, SMOLVLM-256M dan SMOLVLM-500M. Mereka dengan percaya diri mengklaim bahwa kedua model sejauh ini merupakan model AI terkecil yang mampu memproses gambar, video pendek dan data teks secara bersamaan, terutama cocok untuk perangkat dengan memori kurang dari 1GB, seperti laptop. Inovasi ini memungkinkan pengembang untuk mencapai efisiensi yang lebih tinggi dengan biaya lebih rendah saat memproses data dalam jumlah besar.
Parameter dari kedua model ini masing -masing adalah 256 juta dan 500 juta, yang berarti bahwa kemampuan mereka untuk menyelesaikan masalah juga telah meningkat. Tugas yang dapat dilakukan oleh seri SMOLVLM termasuk menggambarkan gambar atau klip video, dan menjawab pertanyaan tentang dokumen PDF dan kontennya, seperti memindai teks dan bagan. Ini membuat mereka memiliki berbagai prospek aplikasi di banyak bidang seperti pendidikan dan penelitian.
Selama pelatihan model, tim wajah pelukan memanfaatkan 50 kumpulan data gambar dan teks berkualitas tinggi yang disebut "The Cauldron", serta pemindaian file dan kumpulan data pasangan terperinci yang disebut DocMatix. Kedua dataset dikembangkan dengan memeluk tim M4 Face dan berfokus pada pengembangan teknologi AI multimodal. Perlu dicatat bahwa SMOLVLM-256M dan SMOLVLM-500M mengungguli banyak model yang lebih besar dalam berbagai tes benchmark, seperti IDEFICS80B, dan terutama dalam tes AI2D, mereka melakukan secara luar biasa dalam kemampuan untuk menganalisis grafik ilmiah untuk siswa sekolah dasar.
Namun, meskipun terjangkau dan serbaguna, model kecil mungkin tidak melakukan serta model besar pada tugas inferensi yang kompleks. Sebuah studi dari Google DeepMind, Microsoft Research Institute dan Mila Institute di Quebec menunjukkan bahwa banyak model kecil melakukan dengan mengecewakan pada tugas -tugas kompleks ini. Para peneliti berspekulasi bahwa ini mungkin karena kecenderungan model kecil untuk mengidentifikasi fitur permukaan data, dan mereka tampaknya tidak bermoral ketika menerapkan pengetahuan ini dalam situasi baru.
Keluarga model SMOLVLM yang memeluk Face tidak hanya alat AI kecil, tetapi juga menunjukkan kemampuan yang mengesankan ketika berhadapan dengan berbagai tugas. Ini tidak diragukan lagi merupakan pilihan yang baik bagi pengembang yang ingin mencapai pemrosesan data yang efisien dengan biaya rendah.
Munculnya serangkaian model SMOLVLM telah membawa kemungkinan baru untuk aplikasi AI ringan. Meskipun masih ada ruang untuk perbaikan dalam tugas -tugas kompleks, ambang batas rendah dan efisiensi tinggi menjadikannya pilihan bahwa banyak pengembang pantas mendapat perhatian. Di masa depan, kami berharap dapat melihat aplikasi dan optimalisasi lebih lanjut dari model seri SMOLVLM di lebih banyak bidang.