مع التطور السريع لتكنولوجيا الذكاء الاصطناعي ، أصبح دمج بيانات الرؤية والنص تحديًا مهمًا. النماذج التقليدية لها العديد من القيود عند التعامل مع المستندات المرئية المنظمة ، والتي تؤثر على استخراج المحتوى التلقائي وفهمه. يعد Granite-Vision-Vision-33.1-2b الذي تم إصداره مؤخرًا من قبل IBM نموذجًا لغة مرئية مصمم لحل هذه المشكلة.
مع التطوير المستمر لتكنولوجيا الذكاء الاصطناعي ، أصبح دمج البيانات والبيانات النصية تحديًا معقدًا. غالبًا ما تواجه النماذج التقليدية صعوبة في تحليل المستندات البصرية المنظمة بدقة مثل الجداول والمخططات والرسوم البيانية والرسوم التوضيحية. في مواجهة هذا الطلب ، أصدر IBM مؤخرًا Granite-Vision-33.1-2b ، وهو نموذج لغة مرئية صغيرة مصممة لفهم الوثائق.
Granite-Vision-3.1-2b قادر على استخراج المحتوى من مجموعة متنوعة من التنسيقات المرئية ، بما في ذلك الجداول والمخططات والرسوم التوضيحية. يتم تدريب النموذج على مجموعة بيانات تم اختيارها بعناية ، مع مصادر البيانات بما في ذلك المصادر العامة والاصطناعية ، قادرة على التعامل مع مجموعة متنوعة من المهام المتعلقة بالوثائق. كنسخة محسّنة من نموذج اللغة Granite الكبير ، فإنه يدمج طرقي الصورة والنص ، وبالتالي تحسين قدرة التفسير للنموذج وهو مناسب لمجموعة متنوعة من سيناريوهات التطبيق العملي.
يتكون النموذج من ثلاثة مكونات رئيسية: أولاً ، يشجع المرسم المرئي البيانات المرئية وترميزها باستخدام Siglip ؛ المعلومات المرئية مع المعلومات النصية ؛ أخيرًا ، يحتوي نموذج لغة كبير ، على أساس Granite-3.1-2b-instruct ، على طول سياق 128 كيلو ، والذي يمكنه التعامل مع المدخلات المعقدة والضخمة.
أثناء التدريب ، يعتمد Granite-Vision-3.1-2b على LLAVA ويجمع بين خصائص المشفرات متعددة الطبقات ، بالإضافة إلى دقة الشبكة الكثيفة في أي شيء. تعزز هذه التحسينات قدرة النموذج على فهم المحتوى المرئي التفصيلي ، مما يتيح له أداء مهام المستندات المرئية بشكل أكثر دقة ، مثل تحليل الجداول والمخططات ، وأداء التعرف على الأحرف البصرية (OCR) ، والاستفسارات القائمة على المستندات.
تُظهر نتائج التقييم أن الجرانيت--3.1-2B كان أداءً جيدًا في معايير متعددة ، خاصة في فهم الوثائق. في معيار Chartqa ، سجل النموذج 0.86 ، متجاوزًا النماذج الأخرى مع المعلمات في نطاق 1B-4B. في معيار TextVQA ، تبلغ النتيجة 0.76 ، مما يدل على قدرة قوية على تحليل المعلومات النصية والإجابة عليها. تسلط هذه النتائج الضوء على إمكانات النموذج لمعالجة البيانات المرئية والنصية الدقيقة في تطبيقات المؤسسة.
يمثل Granite-Vision-Vision-33.1-2b من IBM تقدمًا مهمًا في نموذج اللغة البصرية ويوفر حلًا متوازنًا في فهم المستندات المرئية. تمكنها أساليب الهندسة المعمارية والتدريب من تحليل وتحليل البيانات المرئية والنصية المعقدة بكفاءة. بفضل دعمها الأصلي للمحولات و VLLM ، يمكن تكييف النموذج مع مجموعة متنوعة من حالات الاستخدام ويمكن نشرها في البيئات السحابية مثل Colab T4 ، مما يوفر للباحثين والمهنيين أداة عملية لتعزيز قدرات معالجة المستندات التي تعتمد على AI.
النموذج: https://huggingface.co/ibm-granite/granite-vision-3.1-2b-preview
النقاط الرئيسية:
Granite-Vision-3.1-2b هو نموذج صغير للغة بصرية مصمم خصيصًا لفهم المستندات من قبل IBM ، والذي يمكنه التعامل مع استخراج المحتوى بتنسيقات مرئية متعددة.
يتكون النموذج من ثلاثة أجزاء: التشفير البصري وموصل اللغة البصرية ونموذج اللغة الكبيرة ، مما يحسن فهم المدخلات المعقدة.
ممتاز في المعايير المتعددة ، وخاصة في مجال فهم الوثائق ، مما يدل على إمكانات تطبيق المؤسسة القوية.
لا يحسن Granite-Vision-Vision-4-2b من IBM القدرة على دمج البيانات المرئية والنصية فحسب ، بل يوفر أيضًا للمؤسسات أدوات معالجة المستندات القوية ، مما يدل على الإمكانات الضخمة لتكنولوجيا الذكاء الاصطناعي في التطبيقات العملية.