حقق نموذج اللغة المرئية ScreenAI الذي تم إصداره حديثًا من Google تقدمًا كبيرًا في مهام الفهم المتعددة، مسجلاً رقمًا قياسيًا جديدًا في SOTA. يستخدم هذا النموذج طريقة توليد البيانات التلقائية PaLM 2-S المبتكرة، والتي تعمل بشكل فعال على تحسين تنوع وتعقيد مجموعة البيانات مع ضمان الكفاءة العالية. بفضل بنية التشفير متعدد الوسائط، يمكن لـ ScreenAI إكمال مهام تحويل النص + الصورة إلى نص بشكل ممتاز وإظهار الأداء الرائد في مهام مثل ضمان جودة الشاشة والرسوم البيانية وفهم المستندات، مما يجلب تطورات جديدة إلى مجال إمكانية نماذج اللغة المرئية.
أصدرت Google مؤخرًا نموذج اللغة المرئية ScreenAI، والذي يستخدم PaLM 2-S لإنشاء البيانات تلقائيًا، وكسر سجلات SOTA لمهام الفهم المتعددة. يستخدم النموذج بنية تشفير متعددة الوسائط لتحقيق حل مهام النص + الصورة إلى النص. يستخدم الباحثون أساليب توليد البيانات الآلية لزيادة تنوع وتعقيد مجموعات البيانات مع ضمان الكفاءة. يحقق النموذج أداءً رائدًا في ضمان الجودة على الشاشة والرسوم البيانية ومهام فهم المستندات.
يمثل ظهور ScreenAI تقدمًا كبيرًا في تكنولوجيا نماذج اللغة المرئية، وتوفر طريقة توليد البيانات الفعالة والأداء الرائد اتجاهًا جديدًا لتطوير الذكاء الاصطناعي في المستقبل. توفر تقنية توليد البيانات تلقائيًا أيضًا أفكارًا ومراجعًا جديدة لتدريب نماذج الذكاء الاصطناعي الأخرى. ونحن نتطلع إلى إظهار ScreenAI لقدراتها القوية في سيناريوهات تطبيقية أكثر عملية.