أطلقت Microsoft نموذجًا جديدًا خفيف الوزن ومتعدد الوسائط للذكاء الاصطناعي Phi-3.5-vision، وهو عضو جديد في عائلة Phi-3 وهو مصمم لمعالجة النص والمدخلات المرئية. يعمل النموذج بشكل جيد في البيئات المحدودة الموارد ويدعم طول سياق يبلغ 128 كيلو بايت، مما يجعله مثاليًا للتطبيقات التجارية والبحثية. تدمج Phi-3.5-vision فهم الصور والتعرف الضوئي على الحروف وتحليل الرسوم البيانية ووظائف أخرى، وقد أثبتت أداءً ممتازًا في اختبارات قياس الأداء المتعددة. إن طبيعته مفتوحة المصدر وتصميمه الفعال يجعله خيارًا مثاليًا لمختلف تطبيقات الذكاء الاصطناعي.
يتميز نموذج Phi-3.5-vision بفهم شامل للصور، والتعرف البصري على الأحرف (OCR)، وتحليل المخططات والجدول، وتلخيص الصور المتعددة أو مقاطع الفيديو، والمزيد. أظهر النموذج تحسينات كبيرة في الأداء فيما يتعلق بالمعايير المتعلقة بمعالجة الصور والفيديو.
يتكون نموذج Phi-3.5-vision من نظام معلمات يبلغ 4.2 مليار، بما في ذلك أجهزة تشفير الصور والموصلات وأجهزة العرض ونماذج لغة Phi-3Mini. ويتم تدريبه باستخدام بيانات تعليمية عالية الجودة، وبيانات تركيبية، ووثائق عامة تم فحصها بدقة، مما يضمن جودة البيانات والخصوصية.
يحتوي Phi-3.5-vision على ثلاثة نماذج:
تعليمات Phi-3.5Mini: نموذج AI خفيف الوزن، مناسب للبيئات ذات الذاكرة المحدودة أو موارد الحوسبة.
Phi-3.5MoE (خليط من الخبراء): أول نموذج من Microsoft لـ "خليط من الخبراء"، وهو جيد في التعامل مع المهام المعقدة.
Phi-3.5Vision Instruct: نموذج متعدد الوسائط يدمج وظائف معالجة النص والصور.
الميزات الرئيسية
تشمل الميزات الوظيفية الرئيسية لنموذج Phi-3.5-vision فهم الصور، والتعرف الضوئي على الحروف، وفهم المخططات والجدول، ومقارنة الصور المتعددة، وملخص الصور المتعددة أو مقاطع الفيديو، وقدرات التفكير الفعالة، وزمن الوصول المنخفض وتحسين الذاكرة.
كان أداء Phi-3.5-vision جيدًا في اختبارات قياس الأداء المتعددة، مثل MMMU وMMBench وTextVQA واختبارات قدرة معالجة الفيديو، بالإضافة إلى اختبار BLINK القياسي، مما يدل على أدائه القوي في المهام متعددة الوسائط والمهام المرئية.
يوفر إصدار نموذج Phi-3.5-vision من Microsoft خيارات جديدة لمجال الذكاء الاصطناعي، خاصة فيما يتعلق بالتشغيل من جانب الجهاز والتفكير البصري المعقد. تتيح له ميزاته مفتوحة المصدر وتصميمه الأمثل الأداء الجيد في البيئات المحدودة الموارد، مما يوفر دعمًا قويًا لمجموعة متنوعة من التطبيقات التي تعتمد على الذكاء الاصطناعي.
عنوان تنزيل النموذج: https://huggingface.co/microsoft/Phi-3.5-vision-instruct
بشكل عام، توفر Phi-3.5-vision أداة قوية لمطوري الذكاء الاصطناعي والباحثين بفضل خصائصها خفيفة الوزن ومتعددة الوسائط وعالية الأداء، مما يعزز تطبيق الذكاء الاصطناعي في المزيد من المجالات. كما تعمل طبيعتها مفتوحة المصدر على تعزيز مشاركة تكنولوجيا الذكاء الاصطناعي وتطويرها.