Startup Seattle Moondream merilis model bahasa visual kompak Moondream2, yang hanya memiliki 1,6 miliar parameter, tetapi telah berkinerja baik dalam berbagai tes benchmark, bahkan lebih baik daripada beberapa model dengan parameter yang lebih besar. Sebagai model open source, Moondream2 dapat berjalan secara lokal pada perangkat berkinerja rendah seperti smartphone, dan memiliki kemampuan pemrosesan gambar dan teks yang kuat, termasuk Q&A, OCR, penghitungan objek dan klasifikasi. Skornya lebih dari 60% pada DOCVQA, TextVQA dan GQA, menunjukkan kemampuannya yang kuat ketika dieksekusi secara lokal. Moondream telah menerima $ 4,5 juta dalam putaran benih dan terus memperbarui model untuk meningkatkan kinerjanya.
Baru -baru ini, Moondream, startup Seattle, meluncurkan model bahasa visual yang ringkas yang disebut Moondream2. Meskipun ukurannya kecil, model ini telah berkinerja baik dalam berbagai tolok ukur dan telah menarik banyak perhatian. Sebagai model open source, Moondream2 diharapkan untuk menerapkan pengenalan gambar lokal pada smartphone.
Moondream2 secara resmi dirilis pada bulan Maret. Sejak dirilis, tim Moondream terus memperbarui model untuk terus meningkatkan kinerja tolok ukurnya. Edisi Juli menunjukkan peningkatan yang signifikan dalam OCR dan pemahaman dokumentasi, terutama dalam analisis data ekonomi historis. Model ini mencetak lebih dari 60% pada DOCVQA, TextVQA dan GQA, menunjukkan kemampuannya yang kuat ketika dieksekusi secara lokal.
Fitur khas Moondream2 adalah ukurannya yang ringkas: hanya 1,6 miliar parameter, yang membuatnya berjalan tidak hanya pada server cloud, tetapi juga pada komputer lokal dan bahkan beberapa perangkat berkinerja rendah seperti smartphone atau komputer papan tunggal.
Terlepas dari ukurannya yang kecil, kinerjanya sebanding dengan beberapa model kompetitif dengan miliaran parameter, dan bahkan mengungguli model yang lebih besar ini dalam beberapa tolok ukur.
Sebagai perbandingan model bahasa visual perangkat seluler, para peneliti menunjukkan bahwa meskipun Moondream2 hanya memiliki 170 juta parameter, kinerjanya sebanding dengan model 700 juta parameter, dan hanya berkinerja sedikit lebih rendah daripada dataset SQA. Ini menunjukkan bahwa terlepas dari kinerja model kecil yang sangat baik, ada tantangan dalam memahami konteks tertentu.
Vikhyat Korrapati, pengembang model, mengatakan Moondream2 dibangun di atas model lain seperti Siglip, kumpulan data pelatihan Microsoft PHI-1.5 dan LLAVA. Model open source sekarang tersedia secara gratis di GitHub dan memiliki versi demo pada wajah memeluk. Pada platform pengkodean, Moondream2 juga telah menarik perhatian luas dari komunitas pengembang dan telah menerima lebih dari 5.000 peringkat bintang.
Keberhasilan menarik perhatian para investor: Moondream berhasil mengumpulkan $ 4,5 juta dalam putaran benih yang dipimpin oleh Felicis Ventures, Dana M12Github Microsoft dan Ascend. CEO perusahaan Jay Allen telah bekerja untuk Amazon Web Services (AWS) selama bertahun -tahun dan memimpin startup yang berkembang.
Peluncuran Moondream2 menandai kelahiran berbagai model open source yang dioptimalkan secara profesional yang membutuhkan lebih sedikit sumber daya ketika memberikan kinerja yang sama dengan model yang lebih tua dan lebih tua. Meskipun ada beberapa model lokal kecil di pasaran, seperti asisten pintar Apple dan Google Gemini Nano, kedua produsen ini masih melakukan outsourcing tugas yang lebih kompleks ke cloud untuk dipecahkan.
HuggingFace: https: //huggingface.co/vikhyatk/moondream2
github: https: //github.com/vikhyat/moondream
Poin -Poin Kunci:
Moondream telah meluncurkan Moondream2, model bahasa visual dengan hanya 160 juta parameter, yang dapat berjalan pada perangkat kecil seperti smartphone.
Model ini memiliki kemampuan pemrosesan teks dan gambar yang kuat, dapat menjawab pertanyaan, melakukan OCR, menghitung objek, dan mengklasifikasikan tolok ukur, dan melakukan tolok ukur yang sangat baik.
Moondream berhasil mengumpulkan $ 4,5 juta dalam pendanaan, dan CEO bekerja di Amazon, dan tim terus memperbarui dan meningkatkan kinerja model.
Munculnya Moondream2 telah membawa kemungkinan baru ke aplikasi AI seluler, dan fitur open source -nya juga telah mempromosikan partisipasi aktif dan inovasi komunitas pengembang. Di masa depan, dengan pengembangan teknologi yang berkelanjutan, model AI kecil dan efisien seperti Moondream2 akan memainkan peran penting dalam lebih banyak bidang.