يقدم لك محرر Downcodes أحدث المعلومات التقنية! أطلقت شركة Moondream الناشئة في سياتل Moondream2، وهو نموذج لغة بصرية مدمج ومذهل، والذي أحدث ضجة في الصناعة بحجمه الصغير وأدائه القوي. كان أداء هذا النموذج مفتوح المصدر جيدًا في العديد من الاختبارات المعيارية، حتى أنه تجاوز المنافسين ذوي المعلمات الأكبر في بعض الجوانب، مما يوفر إمكانيات جديدة للتعرف على الصور المحلية على الهواتف الذكية. دعونا نلقي نظرة فاحصة على ما يجعل Moondream2 فريدًا من نوعه والابتكار التكنولوجي الذي يقف وراءه.
في الآونة الأخيرة، أطلقت شركة Moondream، وهي شركة ناشئة في سياتل، نموذجًا مدمجًا للغة المرئية يسمى Moondream2. على الرغم من صغر حجمه، إلا أن أداء النموذج كان جيدًا في العديد من الاختبارات المعيارية وجذب الكثير من الاهتمام. كنموذج مفتوح المصدر، يعد Moondream2 بتمكين قدرات التعرف على الصور المحلية على الهواتف الذكية.
تم إصدار Moondream2 رسميًا في شهر مارس، ويمكن للنموذج معالجة مدخلات النص والصور، ويتمتع بإمكانيات الإجابة على الأسئلة واستخراج النص (OCR) وإحصاء الكائنات وتصنيف العناصر. منذ إصداره، واصل فريق Moondream تحديث النموذج، وتحسين أدائه الأساسي باستمرار. يُظهر إصدار يوليو تحسينات كبيرة في التعرف الضوئي على الحروف وفهم المستندات، خاصة في تحليل البيانات الاقتصادية التاريخية. تتجاوز درجات النموذج في DocVQA وTextVQA وGQA جميعها 60%، مما يوضح قدرته القوية عند تنفيذه محليًا.
من الميزات البارزة في Moondream2 هو حجمه الصغير: لا يوجد سوى 1.6 مليار معلمة، مما يسمح له بالعمل ليس فقط على الخوادم السحابية، ولكن أيضًا على أجهزة الكمبيوتر المحلية وحتى بعض الأجهزة ذات الأداء المنخفض مثل الهواتف الذكية أو أجهزة الكمبيوتر ذات اللوحة الواحدة.
وعلى الرغم من صغر حجمه، إلا أن أداءه يمكن مقارنته ببعض النماذج المنافسة بمليارات المعلمات، بل ويتفوق على هذه النماذج الأكبر حجمًا في بعض المعايير.
وفي مقارنة نماذج اللغة المرئية للأجهزة المحمولة، أشار الباحثون إلى أنه على الرغم من أن Moondream2 يحتوي على 170 مليون معلمة فقط، فإن أدائه يعادل أداء نموذج مكون من 700 مليون معلمة، وأدائه أقل قليلاً من مجموعة بيانات SQA. وهذا يوضح أنه على الرغم من أن النماذج الصغيرة تؤدي أداءً جيدًا، إلا أنها لا تزال تواجه تحديات في فهم سياقات محددة.
قال Vikhyat Korrapati، مطور النموذج، إن Moondream2 مبني على نماذج أخرى مثل SigLIP ومجموعات بيانات التدريب Phi-1.5 وLLaVA من Microsoft. النموذج مفتوح المصدر متاح الآن للتنزيل مجانًا على GitHub، مع إصدار تجريبي معروض على Hugging Face. على منصة البرمجة، اجتذب Moondream2 أيضًا اهتمامًا واسع النطاق من مجتمع المطورين، حيث تلقى أكثر من 5000 تقييم نجمي.
اجتذب النجاح المستثمرين: جمعت Moondream مبلغ 4.5 مليون دولار في جولة تأسيسية بقيادة Felicis Ventures، وصندوق M12GitHub التابع لشركة Microsoft، وAscend. عمل الرئيس التنفيذي للشركة، جاي ألين، في Amazon Web Services (AWS) لسنوات عديدة ويقود الشركة الناشئة المتنامية.
يمثل إطلاق Moondream2 ميلاد سلسلة من النماذج مفتوحة المصدر المحسنة بشكل احترافي والتي تتطلب موارد أقل مع تقديم أداء مماثل للنماذج الأكبر والأقدم. على الرغم من وجود بعض النماذج المحلية الصغيرة في السوق، مثل المساعد الذكي من Apple وGemini Nano من Google، إلا أن هاتين الشركتين لا تزالان تستعينان بمصادر خارجية للقيام بمهام أكثر تعقيدًا إلى السحابة.
معانقة الوجه:https://huggingface.co/vikhyatk/moondream2
جيثب: https://github.com/vikhyat/moondream
يبشر ظهور Moondream2 بالتطور القوي لنماذج الذكاء الاصطناعي خفيفة الوزن، مما يوفر إمكانيات جديدة لتطبيقات الذكاء الاصطناعي المحلية. كما تعمل طبيعتها مفتوحة المصدر على تعزيز المشاركة النشطة لمجتمع المطورين وتضخ حيوية جديدة في تطوير تكنولوجيا الذكاء الاصطناعي. ونحن نتطلع إلى المزيد من الابتكارات المماثلة في المستقبل!