أطلقت جامعة آنهوي الهندسية وجامعة نانيانغ التكنولوجية وجامعة ليهاي بشكل مشترك نموذجًا كبيرًا متعدد الوسائط ملفتًا للنظر - TinyGPT-V. الميزة البارزة لهذا النموذج هي فعاليته المذهلة من حيث التكلفة: حيث يمكن مقارنة أدائه بالنماذج التي تحتوي على عشرات المليارات من المعلمات، ولكنه لا يتطلب سوى وحدة معالجة رسومات 24G لإكمال التدريب، مما يقلل بشكل كبير من حد الموارد. يعد هذا بلا شك فائدة كبيرة للأفراد والمؤسسات الذين يرغبون في إجراء أبحاث وتطبيقات نموذجية واسعة النطاق بموارد محدودة. تتكون بنية TinyGPT-V بشكل أساسي من نموذج اللغة الكبير Phi-2، والتشفير المرئي وطبقة الإسقاط الخطي، كما تُظهر نتائج تقييم الأداء متعدد الزوايا قوتها القوية في مهام اللغة المرئية المتعددة.
قام باحثون من جامعة آنهوي الهندسية وجامعة نانيانغ التكنولوجية وجامعة ليهاي بفتح نموذج كبير متعدد الوسائط - TinyGPT-V، حيث يمكن مقارنة أدائه بالنماذج التي تحتوي على عشرات المليارات من المعلمات، ولا يتطلب التدريب سوى وحدة معالجة رسومات 24G لإكماله. يتكون TinyGPT-V بشكل أساسي من ثلاث كتل رئيسية: نموذج اللغة الكبير Phi-2، والمشفر البصري، وطبقة الإسقاط الخطي. أجرى الباحثون تقييمًا متعدد الزوايا لأداء TinyGPT-V، حيث أظهروا أدائه القوي في مهام اللغة المرئية المتعددة.
يوفر المصدر المفتوح لـ TinyGPT-V أفكارًا وإمكانيات جديدة للبحث وتطبيق النماذج الكبيرة متعددة الوسائط، ويمثل أيضًا تقدمًا كبيرًا في خفض عتبة التدريب على النماذج الكبيرة. في المستقبل، يمكننا أن نتوقع ظهور المزيد من النماذج الكبيرة المماثلة عالية الكفاءة ومنخفضة التكلفة، مما يزيد من تعزيز تعميم تكنولوجيا الذكاء الاصطناعي وتطويرها. وقد جلب أدائها الفعال في البيئات المحدودة الموارد أخبارا طيبة لكل من الأوساط الأكاديمية والصناعة.