مثال:
تم إنشاء التسمية التوضيحية: حصان أسود يركض في حقل عشبي
يحتوي هذا المستودع على مشروع يستكشف مهمة التعليق على الصور باستخدام Vision Transformers (ViTs). يهدف المشروع إلى إنشاء تعليقات وصفية للصور من خلال الجمع بين قوة المحولات ورؤية الكمبيوتر. إنه يستفيد من أحدث نماذج ViT المدربة مسبقًا ويستخدم تقنيات مثل آليات الانتباه ونمذجة اللغة لإنشاء تسميات توضيحية دقيقة وذات صلة بالسياق.
رابط المقالة: https://www.analyticsvidhya.com/blog/2023/06/vision-transformers/
يعد التعليق على الصور مشكلة صعبة تتضمن إنشاء أوصاف تشبه وصف الإنسان للصور. من خلال استخدام محولات الرؤية، يهدف هذا المشروع إلى تحسين فهم الصور وإنشاء التعليقات. أظهر الجمع بين رؤية الكمبيوتر والمحولات نتائج واعدة في العديد من مهام معالجة اللغة الطبيعية، ويستكشف هذا المشروع تطبيقها على التعليقات التوضيحية للصور.
يمكنك العثور على مزيد من التفاصيل حول كيفية استخدام Litserve للتعامل مع إنشاء خادم التسميات التوضيحية للصور هنا: Litserve .
تتكون مجموعة البيانات المستخدمة لهذا المشروع من بيانات التسمية التوضيحية للصورة المقترنة. ترتبط كل صورة بتسميات توضيحية وصفية واحدة أو أكثر. لم يتم تضمين مجموعة البيانات في هذا المستودع، ولكن يمكنك العثور على مجموعات بيانات التسميات التوضيحية الشائعة للصور مثل MS COCO أو Flickr30k أو Conceptual Captions للتجريب.
يمكنك العثور على دفتر الملاحظات الخاص بـ Finetuning في مجموعة البيانات الخاصة بك في دليل Finetuning: هنا
لاستخدام الكود الموجود في هذا المستودع، اتبع الخطوات التالية:
git clone https://github.com/your-username/image-captioning-vision-transformers.git
cd image-captioning-vision-transformers
pip install -r requirements.txt
يتم استخدام الأساليب والتقنيات التالية في هذا المشروع:
يتم تنفيذ المشروع بلغة بايثون ويستخدم المكتبات التالية:
المساهمات في هذا المشروع هي موضع ترحيب. للمساهمة اتبع الخطوات التالية:
git checkout -b feature/your-feature
git commit -m 'Add some feature'
git push origin feature/your-feature
هذا المشروع مرخص بموجب ترخيص MIT.
رابط المدونة: https://www.analyticsvidhya.com/blog/2023/06/vision-transformers/
اتبع لمزيد من المشاريع المثيرة للاهتمام