رمز ورقتنا البحثية: Stellar: التقييم المنهجي لطرق تحويل النص إلى صورة الشخصية التي تتمحور حول الإنسان
المؤلفون: بانوس أكليوبتاس، ألكسندروس بينيتاتوس، يوردانيس فوستيروبولوس، ديميتريس سكورتيس
تتم صيانة قاعدة التعليمات البرمجية بواسطة Iordanis Fostiropoulos. لأية أسئلة يرجى التواصل.
قبل تنزيل أو استخدام أي جزء من التعليمات البرمجية الموجودة في هذا المستودع، يرجى مراجعة الشروط والأحكام المنصوص عليها في كل من "شروط الترخيص" و"شروط ترخيص الطرف الثالث" المضمنة في هذا المستودع والموافقة عليها. إن الاستمرار في تنزيل واستخدام أي جزء من الكود الموجود في هذا المستودع يؤكد موافقتك على هذه الشروط والأحكام.
ملاحظة: تم العثور على "صورة الإدخال" و"الصورة الإضافية" المعروضة في مجموعة بيانات CELEBMaksHQ.
يستند هذا العمل إلى مخطوطتنا الفنية Stellar: التقييم المنهجي لطرق تحويل النص إلى صورة الشخصية التي تتمحور حول الإنسان. لقد اقترحنا 5 مقاييس لتقييم نماذج التخصيص التي تتمحور حول الإنسان، وهي نص-2-صورة. يوفر المستودع تنفيذ 8 مقاييس أساسية إضافية لطرق Text-2-Image وImage-2-Image.
هناك العديد من المقاييس المقدمة من الأدب. ونشير مع تلك التي قدمها عملنا.
نحن نقدم تطبيقنا الخاص للمقاييس الحالية ونحيل المستخدم إلى ورقته للحصول على التفاصيل الفنية لعمله.
اسم | نوع التقييم | اسم الرمز | مرجع |
---|---|---|---|
جمال. | Image2Image | aesth | وصلة |
Image2Image | clip | وصلة | |
دريم سيم | Image2Image | dreamsim | وصلة |
Text2Image | clip | وصلة | |
HPSv1 | Text2Image | hps | وصلة |
HPSv2 | Text2Image | hps | وصلة |
ImageReward | Text2Image | im_reward | وصلة |
PickScore | Text2Image | pick | وصلة |
وكالة الأنباء الجزائرية | شخصية Text2Image | aps | وصلة |
جوا | تتمحور حول الكائن | goa | وصلة |
IPS | شخصية Text2Image | ips | وصلة |
تتمحور حول العلاقات | rfs | وصلة | |
SIS | شخصية Text2Image | sis | وصلة |
pip install git+https://github.com/stellar-gen-ai/stellar-metrics.git
نريد حساب المقياس لكل صورة على حدة. على هذا النحو، يمكن أن يساعد في تشخيص حالات فشل إحدى الطرق.
$ python -m stellar_metrics --metric code_name --stellar-path ./stellar-dataset --syn-path ./model-output --save-dir ./save-dir
اختياريًا، يمكنك تحديد --device
و --batch-size
و --clip-version
للعمود الفقري
ملحوظة: يجب أن يكون هناك توافق واحد لواحد بين مخرجات النموذج ومجموعة البيانات النجمية. يتم استخدام stellar-dataset
لحساب بعض المقاييس، مثل الحفاظ على الهوية حيث تكون الصورة الأصلية مطلوبة. يمكن أن يؤدي التكوين الخاطئ بين syn-path
stellar-path
إلى نتائج غير صحيحة.
حساب IPS
$ python -m stellar_metrics --metric ips --stellar-path ./tests/assets/mock_stellar_dataset --syn-path ./tests/assets/stellar_net --save-dir ./save-dir
حساب مقطع
$ python -m stellar_metrics --metric clip --stellar-path ./tests/assets/mock_stellar_dataset --syn-path ./tests/assets/stellar_net --save-dir ./save-dir
$ python -m stellar_metrics.analysis --save-dir ./save-dir
قم بتقييم تشابه الوجه بين هوية الإدخال والصور التي تم إنشاؤها بطريقة خشنة إلى حد ما ولكنها متخصصة. يستخدم مقياسنا كاشف الوجه لعزل وجه الهوية في كل من الصور المدخلة والمولدة. ثم يستخدم نموذجًا متخصصًا للكشف عن الوجه لاستخراج تضمينات تمثيل الوجه من المناطق المكتشفة.
قم بتقييم مدى احتفاظ الصور التي تم إنشاؤها بسمات محددة دقيقة للهوية المعنية، مثل العمر والجنس وملامح الوجه الثابتة الأخرى (على سبيل المثال، عظام الخد العالية). من خلال الاستفادة من التعليقات التوضيحية في الصور النجمية، يمكننا تقييم خصائص الوجه الثنائية هذه.
يعمل كمقياس لتحديد مدى حساسية النموذج للصور المختلفة لنفس الفرد؛ مزيد من الترويج للنماذج حيث يتم التقاط هوية الموضوع بشكل جيد باستمرار بغض النظر عن الاختلافات غير ذات الصلة في صورة الإدخال (على سبيل المثال، ظروف الإضاءة ووضعية الموضوع).
ولتحقيق هذا الهدف، يتطلب SIS
الوصول إلى صور متعددة للموضوع البشري (وهو شرط يتم استيفاؤه في مجموعة بيانات Stellar حسب التصميم)؛ وهو مقياس التقييم الوحيد لدينا مع مثل هذا المطلب الأكثر تطلبًا.
نحن نقدم مقاييس متخصصة وقابلة للتفسير لتقييم جانبين رئيسيين للمحاذاة بين الصورة والموجه؛ صدق تمثيل الكائن وإخلاص العلاقات المصورة.
تقييم نجاح تمثيل تفاعلات الكائنات السريعة المطلوبة على الصورة التي تم إنشاؤها. وبالنظر إلى صعوبة نماذج إنشاء الرسم البياني للمشهد (SGG) المتخصصة في فهم العلاقات المرئية، يقدم هذا المقياس رؤية محلية قيمة حول قدرة النموذج المخصص على تصوير العلاقات المطلوبة بأمانة.