Dalam beberapa tahun terakhir, terdapat peningkatan permintaan terhadap model AI yang ringan, terutama pada platform dengan sumber daya terbatas seperti perangkat seluler dan komputer pribadi. Cara mengurangi ukuran model dan biaya komputasi sekaligus memastikan kinerja telah menjadi arah penelitian yang penting. Artikel ini akan memperkenalkan SmolVLM yang baru-baru ini dirilis oleh Hugging Face, model bahasa visual parameter 2B yang dirancang khusus untuk inferensi sisi perangkat. Model ini telah membuat terobosan signifikan dalam kecepatan dan efisiensi, dan memberikan solusi untuk penerapan tugas bahasa visual pada sumber daya rendah perangkat.
Dalam beberapa tahun terakhir, terdapat peningkatan permintaan terhadap penerapan model pembelajaran mesin dalam tugas penglihatan dan bahasa, namun sebagian besar model memerlukan sumber daya komputasi yang besar dan tidak dapat berjalan secara efisien di perangkat pribadi. Terutama perangkat kecil seperti laptop, GPU konsumen, dan perangkat seluler menghadapi tantangan besar saat memproses tugas bahasa visual.
Mengambil Qwen2-VL sebagai contoh, meskipun memiliki kinerja yang sangat baik, ia memiliki persyaratan perangkat keras yang tinggi, sehingga membatasi kegunaannya dalam aplikasi waktu nyata. Oleh karena itu, mengembangkan model ringan untuk dijalankan dengan sumber daya yang lebih rendah telah menjadi kebutuhan yang penting.
Hugging Face baru-baru ini merilis SmolVLM, model bahasa visual parameter 2B yang dirancang khusus untuk penalaran sisi perangkat. SmolVLM mengungguli model serupa lainnya dalam hal penggunaan memori GPU dan kecepatan pembuatan token. Fitur utamanya adalah kemampuan untuk berjalan secara efisien pada perangkat yang lebih kecil, seperti laptop atau GPU kelas konsumen, tanpa mengorbankan kinerja. SmolVLM menemukan keseimbangan ideal antara kinerja dan efisiensi, memecahkan masalah yang sulit diatasi pada model serupa sebelumnya.
Dibandingkan dengan Qwen2-VL2B, SmolVLM menghasilkan token 7,5 hingga 16 kali lebih cepat, berkat arsitekturnya yang dioptimalkan, yang memungkinkan inferensi ringan. Efisiensi ini tidak hanya membawa manfaat praktis bagi pengguna akhir, namun juga sangat meningkatkan pengalaman pengguna.
Dari sudut pandang teknis, SmolVLM memiliki arsitektur optimal yang mendukung inferensi sisi perangkat yang efisien. Pengguna bahkan dapat dengan mudah melakukan penyesuaian di Google Colab, sehingga sangat menurunkan ambang batas untuk eksperimen dan pengembangan.
Karena jejak memorinya yang kecil, SmolVLM dapat berjalan dengan lancar pada perangkat yang sebelumnya tidak dapat menampung model serupa. Saat menguji video YouTube 50-frame, SmolVLM berkinerja baik, mencetak 27,14%, dan mengungguli dua model yang lebih intensif sumber daya dalam hal konsumsi sumber daya, menunjukkan kemampuan beradaptasi dan fleksibilitas yang kuat.
SmolVLM merupakan tonggak penting dalam bidang model bahasa visual. Peluncurannya memungkinkan tugas-tugas bahasa visual yang kompleks dijalankan pada perangkat sehari-hari, mengisi kesenjangan penting dalam alat AI saat ini.
SmolVLM tidak hanya unggul dalam kecepatan dan efisiensi, tetapi juga memberi pengembang dan peneliti alat yang ampuh untuk memfasilitasi pemrosesan bahasa visual tanpa biaya perangkat keras yang mahal. Seiring dengan semakin populernya teknologi AI, model seperti SmolVLM akan membuat kemampuan pembelajaran mesin yang canggih menjadi lebih mudah diakses.
demo: https://huggingface.co/spaces/HuggingFaceTB/SmolVLM
https://huggingface.co/spaces/HuggingFaceTB/SmolVLM
Menyorot:
SmolVLM adalah model bahasa visual parameter 2B yang diluncurkan oleh Hugging Face yang dirancang khusus untuk penalaran sisi perangkat. Ini berjalan secara efisien dan tidak memerlukan perangkat keras kelas atas.
Kecepatan pembuatan tokennya 7,5 hingga 16 kali lipat dari model serupa, sehingga sangat meningkatkan pengalaman pengguna dan efisiensi aplikasi.
Dalam pengujian tersebut, SmolVLM menunjukkan kemampuan beradaptasi yang kuat dan mampu mencapai skor yang baik bahkan tanpa pelatihan data video.
Kemunculan SmolVLM menandai terobosan penting dalam pengembangan model bahasa visual yang ringan. Ini tidak hanya meningkatkan pengalaman pengguna, tetapi juga menyediakan alat yang lebih nyaman bagi pengembang dan peneliti. Di masa depan, model yang efisien dan ringan seperti SmolVLM akan berperan dalam lebih banyak skenario dan mendorong penerapan teknologi kecerdasan buatan secara lebih luas.