Editor Downcodes memberi Anda informasi teknologi terkini! Startup asal Seattle, Moondream, telah meluncurkan moondream2, model bahasa visual kompak yang luar biasa, yang membuat gebrakan di industri dengan ukurannya yang kecil dan kinerja yang kuat. Model sumber terbuka ini berkinerja baik dalam berbagai pengujian benchmark, bahkan mengungguli pesaing dengan parameter lebih besar dalam beberapa aspek, sehingga menghadirkan kemungkinan baru untuk pengenalan gambar lokal pada ponsel cerdas. Mari kita lihat lebih dekat apa yang membuat moondream2 unik dan inovasi teknologi di baliknya.
Baru-baru ini, Moondream, sebuah startup di Seattle, meluncurkan model bahasa visual ringkas yang disebut moondream2. Meskipun ukurannya kecil, model ini berkinerja baik dalam berbagai tes benchmark dan menarik banyak perhatian. Sebagai model sumber terbuka, moondream2 berjanji untuk mengaktifkan kemampuan pengenalan gambar lokal pada ponsel pintar.
Moondream2 resmi dirilis pada bulan Maret. Model ini dapat memproses input teks dan gambar, serta memiliki kemampuan menjawab pertanyaan, ekstraksi teks (OCR), penghitungan objek, dan klasifikasi item. Sejak dirilis, tim Moondream terus memperbarui model tersebut, dan terus meningkatkan kinerja dasarnya. Rilis bulan Juli menunjukkan peningkatan signifikan dalam OCR dan pemahaman dokumen, khususnya dalam analisis data ekonomi historis. Skor model di DocVQA, TextVQA, dan GQA semuanya melebihi 60%, menunjukkan kemampuannya yang kuat ketika dijalankan secara lokal.
Fitur penting dari moondream2 adalah ukurannya yang ringkas: hanya terdapat 1,6 miliar parameter, yang memungkinkannya berjalan tidak hanya di server cloud, tetapi juga di komputer lokal dan bahkan beberapa perangkat berperforma rendah seperti ponsel cerdas atau komputer papan tunggal.
Meskipun ukurannya kecil, kinerjanya sebanding dengan beberapa model pesaing dengan miliaran parameter, dan bahkan mengungguli model yang lebih besar ini pada beberapa tolok ukur.
Dalam perbandingan model bahasa visual perangkat seluler, para peneliti menunjukkan bahwa meskipun moondream2 hanya memiliki 170 juta parameter, kinerjanya setara dengan model 700 juta parameter, dan kinerjanya hanya sedikit lebih rendah daripada kumpulan data SQA. Hal ini menunjukkan bahwa meskipun model kecil memiliki kinerja yang baik, model tersebut masih menghadapi tantangan dalam memahami konteks tertentu.
Vikhyat Korrapati, pengembang model tersebut, mengatakan bahwa moondream2 dibangun di atas model lain seperti SigLIP, kumpulan data pelatihan Microsoft Phi-1.5 dan LLaVA. Model open source sekarang tersedia untuk diunduh gratis di GitHub, dengan versi demo ditampilkan di Hugging Face. Pada platform pengkodean, moondream2 juga menarik perhatian luas dari komunitas pengembang, menerima lebih dari 5.000 ulasan bintang.
Keberhasilan tersebut menarik investor: Moondream mengumpulkan $4,5 juta dalam putaran awal yang dipimpin oleh Felicis Ventures, dana M12GitHub Microsoft, dan Ascend. CEO perusahaan, Jay Allen, telah bekerja di Amazon Web Services (AWS) selama bertahun-tahun dan memimpin startup yang sedang berkembang.
Peluncuran moondream2 menandai lahirnya serangkaian model sumber terbuka yang dioptimalkan secara profesional yang memerlukan lebih sedikit sumber daya sekaligus memberikan kinerja serupa dengan model lama yang lebih besar. Meskipun ada beberapa model lokal kecil di pasaran, seperti asisten pintar Apple dan Gemini Nano dari Google, kedua produsen ini masih melakukan outsourcing tugas-tugas yang lebih kompleks ke cloud.
wajah berpelukan: https://huggingface.co/vikhyatk/moondream2
github:https://github.com/vikhyat/moondream
Kemunculan moondream2 menandai pesatnya perkembangan model AI ringan, memberikan kemungkinan baru untuk aplikasi AI lokal. Sifatnya yang open source juga mendorong partisipasi aktif komunitas pengembang dan memberikan vitalitas baru ke dalam pengembangan teknologi AI. Kami menantikan lebih banyak inovasi serupa di masa depan!