Hugging Face merilis model bahasa visual ringan yang menakjubkan SMOLVLM, yang berukuran kecil dan dapat berjalan pada perangkat kecil seperti ponsel, tetapi kinerjanya melebihi model IDEFICS80B 300 kali lipat lebih besar. Kemajuan terobosan ini menandai kemajuan aplikasi AI menuju era penyebaran berbiaya yang lebih luas, menghemat banyak biaya komputasi dan meningkatkan efisiensi pemrosesan. Munculnya SMOLVLM memberikan peluang yang belum pernah terjadi sebelumnya untuk usaha kecil dan startup untuk dengan cepat mengembangkan aplikasi visi komputer yang kompleks dengan biaya lebih rendah.
Hugging Face telah meluncurkan model AI yang luar biasa - SMOLVLM. Model bahasa visual ini cukup kecil untuk dijalankan pada perangkat kecil seperti ponsel dan mengungguli pendahulu yang membutuhkan dukungan dari pusat data besar.
Persyaratan memori GPU dari model SMOLVLM-256M kurang dari 1GB, tetapi kinerjanya melebihi model pendahulunya Idefics80b, yang 300 kali lebih besar dari ukurannya, menandai kemajuan yang signifikan dalam penyebaran AI praktis.
Menurut Andres Malafiotti, seorang insinyur riset pembelajaran mesin di Hugging Face, model SMOLVLM juga membawa pengurangan biaya komputasi yang signifikan ke perusahaan saat sedang diperkenalkan ke pasar. "IDEFICS80B yang sebelumnya kami rilis adalah model bahasa video open source pertama pada Agustus 2023, sementara peluncuran SMOLVLM mencapai pengurangan ukuran 300 kali lipat dan peningkatan kinerja."
Peluncuran model SMOLVLM bertepatan dengan momen kritis ketika perusahaan menghadapi biaya komputasi yang tinggi dalam mengimplementasikan sistem AI. Model baru ini mencakup dua skala parameter, 256m dan 500m, memungkinkan gambar dan konten visual diproses dengan kecepatan yang sebelumnya tidak terpikirkan. Versi minimum dapat memproses hingga 16 contoh per detik dan hanya membutuhkan memori 15GB, membuatnya sangat cocok untuk bisnis yang perlu memproses sejumlah besar data visual. Untuk perusahaan menengah yang memproses 1 juta gambar per bulan, ini berarti penghematan biaya komputasi tahunan yang cukup besar.
Selain itu, IBM juga telah mencapai kemitraan dengan memeluk wajah untuk mengintegrasikan model 256m ke dalam perangkat lunak pemrosesan dokumen yang mengepalai. Meskipun IBM memiliki sumber daya komputasi yang berlimpah, menggunakan model yang lebih kecil membuatnya efisien dalam memproses jutaan file dengan biaya lebih rendah.
Tim wajah pelukan berhasil mengurangi ukuran model tanpa kehilangan kinerja melalui inovasi teknologi dalam pemrosesan visual dan komponen bahasa. Mereka mengganti encoder visual parameter 400m asli dengan versi parameter 93m dan menerapkan teknologi kompresi token yang lebih agresif. Inovasi ini memungkinkan usaha kecil dan startup untuk meluncurkan produk visi komputer yang kompleks dalam waktu singkat, dan biaya infrastruktur berkurang secara signifikan.
Dataset pelatihan SMOLVLM berisi 170 juta contoh pelatihan, hampir setengahnya digunakan untuk pemrosesan dokumen dan anotasi gambar. Perkembangan ini tidak hanya mengurangi biaya, tetapi juga membawa kemungkinan aplikasi baru ke perusahaan, meningkatkan kemampuan mereka dalam pencarian visual ke tingkat yang belum pernah terjadi sebelumnya.
Kemajuan ini dengan memeluk wajah menantang persepsi tradisional tentang hubungan antara ukuran model dan kemampuan. SMOLVLM membuktikan bahwa arsitektur kecil dan efisien juga dapat mencapai kinerja yang sangat baik.
Model: https://huggingface.co/blog/smolervlm
Poin:
Model SMOLVLM yang diluncurkan dengan memeluk wajah dapat berjalan di ponsel dan memiliki kinerja lebih dari 300 kali lebih besar dari model IDEFICS80B.
Model SMOLVLM membantu perusahaan secara signifikan mengurangi biaya komputasi, dengan kecepatan pemrosesan 16 contoh per detik.
Inovasi teknologi model ini memungkinkan usaha kecil dan startup untuk meluncurkan produk visi komputer yang kompleks dalam waktu singkat.
Munculnya SMOLVLM menunjukkan bahwa aplikasi AI akan menjadi lebih populer, dan usaha kecil dan pengembang individu dapat dengan mudah memanfaatkan teknologi AI yang kuat untuk mempromosikan inovasi dan pengembangan kecerdasan buatan di lebih banyak bidang. Karakteristiknya yang ringan dan berkinerja tinggi tidak diragukan lagi akan mengubah pemahaman kita tentang model kecerdasan buatan dan menunjukkan jalur baru untuk arah pengembangan teknologi AI di masa depan.