تتعاون NVIDIA مع فرق البحث في Georgia Tech وUMD وHKPU لإطلاق نموذج لغة مرئية جديد NVEagle. يمكن لنموذج اللغة الكبيرة متعدد الوسائط (MLLM) فهم الصور وإجراء محادثات اللغة الطبيعية، مما يجعله مساعدًا فائقًا يمكنه "الرؤية والتحدث". إنه يحسن بشكل كبير فهم المعلومات المرئية عن طريق تحويل الصور إلى علامات مرئية ودمجها مع تضمينات النص، ويحقق أداءً جيدًا في معايير متعددة، مثل تحقيق متوسط درجة 85.9 على OCRBench، متجاوزًا العديد من النماذج الرائدة. يوفر NVEagle ثلاثة إصدارات لتلبية متطلبات المهام المختلفة، من بينها إصدار 13B-Chat المُحسّن خصيصًا للذكاء الاصطناعي للمحادثة.
على سبيل المثال، يمكنه التعرف بدقة على الأشخاص الموجودين في الصور والإجابة على أسئلة مثل "Huang Renxun". ومع ذلك، فإن بناء مثل هذا النموذج القوي يأتي أيضًا مع تحديات، مثل ظاهرة "الهلوسة" في معالجة الصور عالية الدقة. نجح فريق البحث في التغلب على هذه الصعوبات وحقق معالجة دقيقة للمعلومات المرئية المعقدة من خلال استكشاف مختلف التشفيرات المرئية واستراتيجيات الدمج، خاصة باستخدام آلية الخبراء المختلطين (MoE). تم إصدار NVEagle على منصة Hugging Face لتوفير الراحة للباحثين والمطورين. يُظهر أدائه الممتاز في مهام مثل OCR وTextVQA وGQA فهمه البصري القوي وقدراته على إنشاء اللغة، مما يضع معيارًا جديدًا لتطوير نماذج اللغة المرئية.
مدخل المشروع: https://top.aibase.com/tool/eagle
العرض التوضيحي: https://huggingface.co/spaces/NVEagle/Eagle-X5-13B-Chat
تسليط الضوء على:
NVEagle هو جيل جديد من نماذج اللغة المرئية التي أطلقتها NVIDIA، وهو مصمم لتحسين فهم المعلومات المرئية المعقدة.
يحتوي النموذج على ثلاثة إصدارات مناسبة لمهام مختلفة. يركز إصدار 13B-Chat على الذكاء الاصطناعي للمحادثة.
عبر معايير متعددة، يتفوق نموذج إيجل على العديد من النماذج الرائدة الموجودة، مما يدل على الأداء المتفوق.
بشكل عام، يمثل ظهور NVEagle إنجازًا كبيرًا في تكنولوجيا نماذج اللغة المرئية، وسيؤدي أدائها القوي وسهولة استخدامها إلى جلب الابتكار إلى العديد من سيناريوهات التطبيقات وتعزيز التطوير الإضافي لتكنولوجيا الذكاء الاصطناعي. ونحن نتطلع إلى تطبيقات أوسع وإجراء المزيد من الأبحاث المتعمقة حول NVEagle في المستقبل.