· الورق · المعيار · الصفحة الرئيسية · المستند ·
✅ [2024/07/25] يبدأ Visual PEFT Benchmark في إصدار مجموعة البيانات والكود وما إلى ذلك.
✅ [2024/06/20] تم إنشاء الصفحة الرئيسية لـ Visual PEFT Benchmark.
✅ [2024/06/01] تم إنشاء مستودع قياس PEFT المرئي.
مقدمة
ابدء
هيكل الكود
بداية سريعة
النتائج ونقاط التفتيش
المجتمع والاتصال
الاقتباس
تُظهر أساليب التعلم النقلي ذو كفاءة المعلمات (PETL) نتائج واعدة في تكييف نموذج تم تدريبه مسبقًا مع العديد من المهام النهائية مع تدريب عدد قليل فقط من المعلمات. في مجال الرؤية الحاسوبية (CV)، تم اقتراح العديد من خوارزميات PETL، لكن توظيفها المباشر أو مقارنتها لا تزال غير ملائمة. ولمواجهة هذا التحدي، نقوم ببناء معيار PETL المرئي الموحد (V-PETL Bench) لمجال السيرة الذاتية من خلال اختيار 30 مجموعة بيانات متنوعة ومليئة بالتحديات وشاملة من التعرف على الصور والتعرف على إجراءات الفيديو ومهام التنبؤ الكثيفة . في مجموعات البيانات هذه، نقوم بشكل منهجي بتقييم 25 خوارزمية PETL المهيمنة ونفتح المصدر لقاعدة تعليمات برمجية معيارية وقابلة للتوسيع لإجراء تقييم عادل لهذه الخوارزميات.
مهام التصنيف البصري الدقيقة (FGVC)
يشتمل FGVC على 5 مجموعات بيانات تصنيف بصرية دقيقة. يمكن تنزيل مجموعات البيانات باتباع الروابط الرسمية. نقوم بتقسيم بيانات التدريب إذا لم تكن مجموعة التحقق العامة متاحة. يمكن العثور على مجموعة البيانات المقسمة هنا: رابط التنزيل.
كيوب200 2011
NABirds
زهور أكسفورد
كلاب ستانفورد
سيارات ستانفورد
معيار تكيف المهام المرئية (VTAB)
يضم VTAB 19 مجموعة بيانات تصنيف مرئية متنوعة. لقد قمنا بمعالجة جميع مجموعة البيانات ويمكن تنزيل البيانات هنا: رابط التنزيل. للحصول على إجراءات ونصائح معالجة محددة، يرجى مراجعة VTAB_SETUP.
الحركية-400
قم بتنزيل مجموعة البيانات من رابط التنزيل أو رابط التنزيل.
قم بالمعالجة المسبقة لمجموعة البيانات عن طريق تغيير حجم الحافة القصيرة للفيديو إلى 320 بكسل . يمكنك الرجوع إلى معيار بيانات MMAction2.
قم بإنشاء التعليقات التوضيحية اللازمة لبرنامج تحميل البيانات ("train.csv
و val.csv
و test.csv
. تنسيق الملف *.csv
يشبه:
video_1.mp4 label_1 video_2.mp4 label_2 video_3.mp4 label_3 ... video_N.mp4 label_N
شيء-شيء V2 (SSv2)
قم بتنزيل مجموعة البيانات من رابط التنزيل.
قم بالمعالجة المسبقة لمجموعة البيانات عن طريق تغيير امتداد الفيديو من webm
إلى .mp4
بالارتفاع الأصلي وهو 240 بكسل . يمكنك الرجوع إلى معيار بيانات MMAction2.
قم بإنشاء التعليقات التوضيحية اللازمة لبرنامج تحميل البيانات ("train.csv
و val.csv
و test.csv
. تنسيق الملف *.csv
يشبه:
video_1.mp4 label_1 video_2.mp4 label_2 video_3.mp4 label_3 ... video_N.mp4 label_N
مس-كوكو
يتوفر MS-COCO من رابط التنزيل هذا.
20 ألف درهم إماراتي
يمكن تنزيل مجموعة التدريب والتحقق من ADE20K من رابط التنزيل هذا. يمكننا أيضًا تنزيل مجموعة الاختبار من رابط التنزيل.
باسكال المركبات العضوية المتطايرة
يمكن تنزيل Pascal VOC 2012 من رابط التنزيل. علاوة على ذلك، فإن أحدث الأعمال على مجموعة بيانات Pascal VOC عادةً ما تستغل بيانات التعزيز الإضافية، والتي يمكن العثور عليها في رابط التنزيل.
قم بتنزيل نموذج ViT-B/16 المُدرب مسبقًا ووضعه على /path/to/pretrained_models
.
mkdir pretrained_models wget https://storage.googleapis.com/vit_models/imagenet21k/ViT-B_16.npz
أو يمكنك تنزيل نموذج Swin-B المُدرب مسبقًا. لاحظ أنك تحتاج أيضًا إلى إعادة تسمية Swin-B ckpt الذي تم تنزيله من swin_base_patch4_window7_224_22k.pth
إلى Swin-B_16.pth
.
mkdir pretrained_models wget https://github.com/SwinTransformer/storage/releases/download/v1.0.0/swin_base_patch4_window7_224_22k.pth mv swin_base_patch4_window7_224_22k.pth Swin_B_16.pth
هناك طريقة أخرى وهي تنزيل النماذج المُدربة مسبقًا من الرابط أدناه ووضعها في /path/to/pretrained_models
.
العمود الفقري المدربين مسبقًا | هدف تم تدريبه مسبقًا | مجموعة البيانات المدربة مسبقًا | نقطة تفتيش |
---|---|---|---|
فيت-ب/16 | تحت الإشراف | إيماجينت-21K | رابط التحميل |
فيت-L/16 | تحت الإشراف | إيماجينت-21K | رابط التحميل |
فيتامين-H/16 | تحت الإشراف | إيماجينت-21K | رابط التحميل |
سوين-ب | تحت الإشراف | إيماج نت-22 ك | رابط التحميل |
سوين-L | تحت الإشراف | إيماج نت-22 ك | رابط التحميل |
فيتامين ب (VideoMAE) | الإشراف الذاتي | الحركية-400 | رابط التحميل |
فيديو سوين-بي | تحت الإشراف | الحركية-400 | رابط التحميل |
ImageClassification/configs
: يعالج معلمات التكوين للتجارب.
ImageClassification/config/vtab/cifar100.yaml
: إعدادات التكوين الرئيسية للتجارب وشرح لكل مجموعة بيانات.
.....
ImageClassification/dataloader
: تحميل وإعداد مجموعات بيانات الإدخال
ImageClassification/dataloader/transforms
: تحويلات الصور.
ImageClassification/dataloader/loader
: إنشاء أداة تحميل البيانات لمجموعة البيانات المحددة.
ImageClassification/models
: يتعامل مع الأقواس والرؤوس الأساسية لبروتوكولات الضبط الدقيق المختلفة
ImageClassification/models/vision_transformer_adapter.py
: يحتوي المجلد على نفس العناصر الأساسية في مجلد vit_backbones
، المحدد للمحول.
ImageClassification/models/vision_transformer_sct.py
: يحتوي المجلد على نفس العناصر الأساسية في مجلد vit_backbones
، المحدد لـ SCT.
.....
ImageClassification/train
: مجلد يحتوي على مجلد training file
،
ImageClassification/train/train_model_adapter.py
: قم باستدعاء هذا النموذج للتدريب وتقييم النموذج بنوع نقل محدد، محدد للمحول.
ImageClassification/train/train_model_sct.py
: قم باستدعاء هذا النموذج للتدريب وتقييم النموذج بنوع نقل محدد، محدد لـ SCT.
.....
ImageClassification/scripts
: مجلد يحتوي على مجلد scripts file
،
ImageClassification/scripts/run_vit_adapter.sh
: يمكنك تشغيل طريقة المحول على جميع مجموعات البيانات مرة واحدة.
ImageClassification/scripts/run_vit_sct.sh
: يمكنك تشغيل طريقة المحول على جميع مجموعات البيانات مرة واحدة.
.....
ImageClassification/Visualize
: أدوات التصور.
ImageClassification/Visualize/AttentionMap.py
: تصور خريطة الانتباه.
ImageClassification/Visualize/TSNE.py
: تصور T-SNE.
ImageClassification/utils
: إنشاء المُسجل، وتعيين البذور، وما إلى ذلك.
❗️ملاحظة❗️: إذا كنت تريد إنشاء خوارزمية PETL الخاصة بك، انتبه إلى `ImageClassification/models`.
هذا مثال على كيفية إعداد V-PETL Bench محليًا.
للحصول على نسخة محلية، اتبع الخطوات البسيطة التالية.
استنساخ بوابة https://github.com/synbol/Parameter-Efficient-Transfer-Learning-Benchmark.git
تم تصميم V-PETL Bench على pytorch، مع torchvision، torchaudio، وtimm، إلخ.
لتثبيت الحزم المطلوبة، يمكنك إنشاء بيئة conda.
conda create --name v-petl-bench python=3.8
تفعيل بيئة كوندا.
كوندا تفعيل v-petl-bench
استخدم النقطة لتثبيت الحزم المطلوبة.
cd المعلمة-كفاءة-نقل-التعلم-المعيار تثبيت النقطة -r متطلبات.txt
نحن نقدم عرضًا توضيحيًا محددًا للتدريب والتقييم، مع أخذ LoRA على VTAB Cifar100 كمثال.
نظام الاستيراد sys.path.append("معيار نقل التعلم بكفاءة المعلمة") استيراد الشعلة من أدوات استيراد ImageClassification من ImageClassification.dataloader استيراد vtab من ImageClassification.train استيراد القطار # الحصول على أساليب لورا من timm.scheduler.cosine_lr import CosineLRScheduler من ImageClassification.models قم باستيراد Vision_transformer_lora استيراد مسار timm# لحفظ النموذج وlogsexp_base_path = '../output'utils.mkdirss(exp_base_path)# create loggerlogger = utils.create_logger(log_path=exp_base_path, log_name='training')# معلمة تكوين مجموعة البيانات = utils.get_config(' model_lora', 'vtab', 'cifar100')# get vtab datasetdata_path = '/home/ma-user/work/haozhe/synbol/vtab-1k'train_dl, test_dl = vtab.get_data(data_path, 'cifar100', المسجل, تقييم=False, Train_aug=config['train_aug'], Batch_size=config['batch_size'])# الحصول على نموذج نموذجي تم تدريبه مسبقًا = timm.models.create_model('vit_base_patch16_224_in21k_lora', Checkpoint_path='./released_models/ViT-B_16.npz' ، drop_path_rate = 0.1، tuning_mode = 'lora') model.reset_classifier(config['class_num'])# معلمات التدريبtrainable = []for n, p في model.named_parameters(): إذا كان "linear_a" في n أو "linear_b" في n أو "head" في n: قابل للتدريب.إلحاق (ع) logger.info(str(n)) آخر: p.requires_grad = خطأ opt = torch.optim.AdamW(قابل للتدريب، lr=1e-4،weight_decay=5e-2) جدولة = CosineLRScheduler(opt, t_initial=config['epochs'], Warmup_t=config['warmup_epochs'], lr_min=1e-5, Warmup_lr_init=1e-6,cycle_decay = 0.1)# crossEntropyLoss functioncriterion = torch.nn.CrossEntropyLoss( )# نموذج التدريب = Train.train(config, model, criterion, Train_dl, opt, جدولة, المسجل, config['epochs'], 'vtab', 'cifar100')# ratingeval_acc = Train.test(model, test_dl, 'vtab ')
يمكنك التدريب باستخدام خوارزمية PETL على مجموعة بيانات.
python python Train/train_model_sct.py --dataset cifar100 --task vtab --lr 0.012 --wd 0.6 --eval True --dpr 0.1 --tuning_mode $tuning_mode --model_type $model_type --model $model --model_checkpoint $ model_checkpoint
أو يمكنك التدريب باستخدام خوارزمية PETL على جميع مجموعات البيانات
مخطوطات باش/run_model_sct.sh
نقوم بتقييم 13 خوارزمية PETL على خمس مجموعات بيانات باستخدام نماذج ViT-B/16 التي تم تدريبها مسبقًا على ImageNet-21K.
للحصول على نقطة التفتيش، يرجى تحميل البرنامج على رابط التحميل.
طريقة | شبل-200-2011 | NABirds | زهور أكسفورد | كلاب ستانفورد | سيارات ستانفورد | يقصد | بارامس. | باور بوينت |
---|---|---|---|---|---|---|---|---|
ضبط كامل | 87.3 | 82.7 | 98.8 | 89.4 | 84.5 | 88.54 | 85.8 م | - |
التحقيق الخطي | 85.3 | 75.9 | 97.9 | 86.2 | 51.3 | 79.32 | 0 م | 0.79 |
محول | 87.1 | 84.3 | 98.5 | 89.8 | 68.6 | 85.66 | 0.41 م | 0.84 |
AdaptFormer | 88.4 | 84.7 | 99.2 | 88.2 | 81.9 | 88.48 | 0.46 م | 0.87 |
ضبط البادئة | 87.5 | 82.0 | 98.0 | 74.2 | 90.2 | 86.38 | 0.36 م | 0.85 |
ضبط U | 89.2 | 85.4 | 99.2 | 84.1 | 92.1 | 90.00 | 0.36 م | 0.89 |
بيتفيت | 87.7 | 85.2 | 99.2 | 86.5 | 81.5 | 88.02 | 0.10 م | 0.88 |
VPT-الضحلة | 86.7 | 78.8 | 98.4 | 90.7 | 68.7 | 84.66 | 0.25 م | 0.84 |
VPT-عميق | 88.5 | 84.2 | 99.0 | 90.2 | 83.6 | 89.10 | 0.85 م | 0.86 |
SSF | 89.5 | 85.7 | 99.6 | 89.6 | 89.2 | 90.72 | 0.39 م | 0.89 |
لورا | 85.6 | 79.8 | 98.9 | 87.6 | 72.0 | 84.78 | 0.77 م | 0.82 |
نظام تحديد المواقع | 89.9 | 86.7 | 99.7 | 92.2 | 90.4 | 91.78 | 0.66 م | 0.90 |
HST | 89.2 | 85.8 | 99.6 | 89.5 | 88.2 | 90.46 | 0.78 م | 0.88 |
آخر | 88.5 | 84.4 | 99.7 | 86.0 | 88.9 | 89.50 | 0.66 م | 0.87 |
سنف | 90.2 | 87.4 | 99.7 | 89.5 | 86.9 | 90.74 | 0.25 م | 0.90 |
النتائج المعيارية على VTAB. نقوم بتقييم 18 خوارزمية PETL على 19 مجموعة بيانات باستخدام نماذج ViT-B/16 التي تم تدريبها مسبقًا على ImageNet-21K.
للحصول على نقطة التفتيش، يرجى تحميل البرنامج على رابط التحميل.
طريقة | سيفار-100 | معهد كاليفورنيا للتكنولوجيا101 | دتد | زهور102 | حيوانات أليفة | SVHN | صن397 | باتش كاميليون | يوروسات | مقاومة45 | اعتلال الشبكية | ذكي / العد | ذكي / المسافة | DMLab | كيتي / المسافة | dSprites/loc | dSprites/أوري | صغيرNORB/azi | صغيرNORB/ele | يقصد | بارامس. | باور بوينت |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
ضبط كامل | 68.9 | 87.7 | 64.3 | 97.2 | 86.9 | 87.4 | 38.8 | 79.7 | 95.7 | 84.2 | 73.9 | 56.3 | 58.6 | 41.7 | 65.5 | 57.5 | 46.7 | 25.7 | 29.1 | 65.57 | 85.8 م | - |
التحقيق الخطي | 63.4 | 85.0 | 63.2 | 97.0 | 86.3 | 36.6 | 51.0 | 78.5 | 87.5 | 68.6 | 74.0 | 34.3 | 30.6 | 33.2 | 55.4 | 12.5 | 20.0 | 9.6 | 19.2 | 52.94 | 0 م | 0.53 |
محول | 69.2 | 90.1 | 68.0 | 98.8 | 89.9 | 82.8 | 54.3 | 84.0 | 94.9 | 81.9 | 75.5 | 80.9 | 65.3 | 48.6 | 78.3 | 74.8 | 48.5 | 29.9 | 41.6 | 71.44 | 0.16 م | 0.71 |
VPT-الضحلة | 77.7 | 86.9 | 62.6 | 97.5 | 87.3 | 74.5 | 51.2 | 78.2 | 92.0 | 75.6 | 72.9 | 50.5 | 58.6 | 40.5 | 67.1 | 68.7 | 36.1 | 20.2 | 34.1 | 64.85 | 0.08 م | 0.65 |
VPT-عميق | 78.8 | 90.8 | 65.8 | 98.0 | 88.3 | 78.1 | 49.6 | 81.8 | 96.1 | 83.4 | 68.4 | 68.5 | 60.0 | 46.5 | 72.8 | 73.6 | 47.9 | 32.9 | 37.8 | 69.43 | 0.56 م | 0.68 |
بيتفيت | 72.8 | 87.0 | 59.2 | 97.5 | 85.3 | 59.9 | 51.4 | 78.7 | 91.6 | 72.9 | 69.8 | 61.5 | 55.6 | 32.4 | 55.9 | 66.6 | 40.0 | 15.7 | 25.1 | 62.05 | 0.10 م | 0.61 |
لورا | 67.1 | 91.4 | 69.4 | 98.8 | 90.4 | 85.3 | 54.0 | 84.9 | 95.3 | 84.4 | 73.6 | 82.9 | 69.2 | 49.8 | 78.5 | 75.7 | 47.1 | 31.0 | 44.0 | 72.25 | 0.29 م | 0.71 |
AdaptFormer | 70.8 | 91.2 | 70.5 | 99.1 | 90.9 | 86.6 | 54.8 | 83.0 | 95.8 | 84.4 | 76.3 | 81.9 | 64.3 | 49.3 | 80.3 | 76.3 | 45.7 | 31.7 | 41.1 | 72.32 | 0.16 م | 0.72 |
SSF | 69.0 | 92.6 | 75.1 | 99.4 | 91.8 | 90.2 | 52.9 | 87.4 | 95.9 | 87.4 | 75.5 | 75.9 | 62.3 | 53.3 | 80.6 | 77.3 | 54.9 | 29.5 | 37.9 | 73.10 | 0.21 م | 0.72 |
نوح | 69.6 | 92.7 | 70.2 | 99.1 | 90.4 | 86.1 | 53.7 | 84.4 | 95.4 | 83.9 | 75.8 | 82.8 | 68.9 | 49.9 | 81.7 | 81.8 | 48.3 | 32.8 | 44.2 | 73.25 | 0.43 م | 0.72 |
SCT | 75.3 | 91.6 | 72.2 | 99.2 | 91.1 | 91.2 | 55.0 | 85.0 | 96.1 | 86.3 | 76.2 | 81.5 | 65.1 | 51.7 | 80.2 | 75.4 | 46.2 | 33.2 | 45.7 | 73.59 | 0.11 م | 0.73 |
حقيقة | 70.6 | 90.6 | 70.8 | 99.1 | 90.7 | 88.6 | 54.1 | 84.8 | 96.2 | 84.5 | 75.7 | 82.6 | 68.2 | 49.8 | 80.7 | 80.8 | 47.4 | 33.2 | 43.0 | 73.23 | 0.07 م | 0.73 |
RepAdapter | 72.4 | 91.6 | 71.0 | 99.2 | 91.4 | 90.7 | 55.1 | 85.3 | 95.9 | 84.6 | 75.9 | 82.3 | 68.0 | 50.4 | 79.9 | 80.4 | 49.2 | 38.6 | 41.0 | 73.84 | 0.22 م | 0.72 |
هيدرا | 72.7 | 91.3 | 72.0 | 99.2 | 91.4 | 90.7 | 55.5 | 85.8 | 96.0 | 86.1 | 75.9 | 83.2 | 68.2 | 50.9 | 82.3 | 80.3 | 50.8 | 34.5 | 43.1 | 74.21 | 0.28 م | 0.73 |
LST | 59.5 | 91.5 | 69.0 | 99.2 | 89.9 | 79.5 | 54.6 | 86.9 | 95.9 | 85.3 | 74.1 | 81.8 | 61.8 | 52.2 | 81.0 | 71.7 | 49.5 | 33.7 | 45.2 | 71.70 | 2.38 م | 0.65 |
دي تي ال | 69.6 | 94.8 | 71.3 | 99.3 | 91.3 | 83.3 | 56.2 | 87.1 | 96.2 | 86.1 | 75.0 | 82.8 | 64.2 | 48.8 | 81.9 | 93.9 | 53.9 | 34.2 | 47.1 | 74.58 | 0.04 م | 0.75 |
HST | 76.7 | 94.1 | 74.8 | 99.6 | 91.1 | 91.2 | 52.3 | 87.1 | 96.3 | 88.6 | 76.5 | 85.4 | 63.7 | 52.9 | 81.7 | 87.2 | 56.8 | 35.8 | 52.1 | 75.99 | 0.78 م | 0.74 |
نظام تحديد المواقع | 81.1 | 94.2 | 75.8 | 99.4 | 91.7 | 91.6 | 52.4 | 87.9 | 96.2 | 86.5 | 76.5 | 79.9 | 62.6 | 55.0 | 82.4 | 84.0 | 55.4 | 29.7 | 46.1 | 75.18 | 0.22 م | 0.74 |
آخر | 66.7 | 93.4 | 76.1 | 99.6 | 89.8 | 86.1 | 54.3 | 86.2 | 96.3 | 86.8 | 75.4 | 81.9 | 65.9 | 49.4 | 82.6 | 87.9 | 46.7 | 32.3 | 51.5 | 74.15 | 0.66 م | 0.72 |
سنف | 84.0 | 94.0 | 72.7 | 99.3 | 91.3 | 90.3 | 54.9 | 87.2 | 97.3 | 85.5 | 74.5 | 82.3 | 63.8 | 49.8 | 82.5 | 75.8 | 49.2 | 31.4 | 42.1 | 74.10 | 0.25 م | 0.73 |
النتائج المعيارية على SSv2 وHMDB51. نقوم بتقييم 5 خوارزميات PETL باستخدام ViT-B من VideoMAE وVideo Swin Transformer.
للحصول على نقطة التفتيش، يرجى تحميل البرنامج على رابط التحميل.
طريقة | نموذج | التدريب المسبق | بارامس. | SSv2 (أعلى 1) | SSv2 (PPT) | HMDB51 (أعلى 1) | HMDB51 (باور بوينت) |
---|---|---|---|---|---|---|---|
ضبط كامل | فيتامين ب | الحركية 400 | 85.97 م | 53.97% | - | 46.41% | - |
المجمدة | فيتامين ب | الحركية 400 | 0 م | 29.23% | 0.29 | 49.84% | 0.50 |
AdaptFormer | فيتامين ب | الحركية 400 | 1.19 م | 59.02% | 0.56 | 55.69% | 0.53 |
بابات | فيتامين ب | الحركية 400 | 2.06 م | 57.78% | 0.53 | 57.18% | 0.53 |
ضبط كامل | فيديو سوين-بي | الحركية 400 | 87.64 م | 50.99% | - | 68.07% | - |
المجمدة | فيديو سوين-بي | الحركية 400 | 0 م | 24.13% | 0.24 | 71.28% | 0.71 |
لورا | فيديو سوين-بي | الحركية 400 | 0.75 م | 38.34% | 0.37 | 62.12% | 0.60 |
بيتفيت | فيديو سوين-بي | الحركية 400 | 1.09 م | 45.94% | 0.44 | 68.26% | 0.65 |
AdaptFormer | فيديو سوين-بي | الحركية 400 | 1.56 م | 40.80% | 0.38 | 68.66% | 0.64 |
ضبط البادئة | فيديو سوين-بي | الحركية 400 | 6.37 م | 39.46% | 0.32 | 56.13% | 0.45 |
بابات | فيديو سوين-بي | الحركية 400 | 6.18 م | 53.36% | 0.43 | 71.93% | 0.58 |
النتائج المرجعية على COCO. نقوم بتقييم 9 خوارزميات PETL باستخدام نماذج Swin-B المدربة مسبقًا على ImageNet-22K.
للحصول على نقطة التفتيش، يرجى تنزيلها على Coming Sow.
سوين-ب | بارامس. | ذاكرة | كوكو ( | كوكو (PPT) | كوكو ( | كوكو (PPT) |
---|---|---|---|---|---|---|
ضبط كامل | 86.75 م | 17061 ميجا بايت | 51.9% | - | 45.0% | - |
المجمدة | 0.00 م | 7137 ميجا بايت | 43.5% | 0.44 | 38.6% | 0.39 |
بيتفيت | 0.20 م | 13657 ميجا بايت | 47.9% | 0.47 | 41.9% | 0.42 |
لحن LN | 0.06 م | 12831 ميجابايت | 48.0% | 0.48 | 41.4% | 0.41 |
جزئي-1 | 12.60 م | 7301 ميجابايت | 49.2% | 0.35 | 42.8% | 0.30 |
محول | 3.11 م | 12557 ميجابايت | 50.9% | 0.45 | 43.8% | 0.39 |
لورا | 3.03 م | 11975 ميجابايت | 51.2% | 0.46 | 44.3% | 0.40 |
AdaptFormer | 3.11 م | 13186 ميجا بايت | 51.4% | 0.46 | 44.5% | 0.40 |
لوراند | 1.20 م | 13598 ميجابايت | 51.0% | 0.49 | 43.9% | 0.42 |
E$^3$VA | 1.20 م | 7639 ميجابايت | 50.5% | 0.48 | 43.8% | 0.42 |
منى | 4.16 م | 13996 ميجابايت | 53.4% | 0.46 | 46.0% | 0.40 |
النتائج المعيارية على PASCAL VOC وADE20K. نقوم بتقييم 9 خوارزميات PETL باستخدام نماذج Swin-L المدربة مسبقًا على ImageNet-22K.
للحصول على نقطة التفتيش، يرجى تنزيلها على Coming Sow.
سوين-L | بارامس. | الذاكرة (المركبات العضوية المتطايرة) | باسكال المركبات العضوية المتطايرة ( | باسكال المركبات العضوية المتطايرة (PPT) | 20 ألف درهم ( | ADE20 ألف (باور بوينت) |
---|---|---|---|---|---|---|
ضبط كامل | 198.58 م | 15679 ميجابايت | 83.5% | - | 52.10% | - |
المجمدة | 0.00 م | 3967 ميجا بايت | 83.6% | 0.84 | 46.84% | 0.47 |
بيتفيت | 0.30 م | 10861 ميجابايت | 85.7% | 0.85 | 48.37% | 0.48 |
لحن LN | 0.09 م | 10123 ميجا بايت | 85.8% | 0.86 | 47.98% | 0.48 |
جزئي-1 | 28.34 م | 3943 ميجابايت | 85.4% | 0.48 | 47.44% | 0.27 |
محول | 4.66 م | 10793 ميجابايت | 87.1% | 0.74 | 50.78% | 0.43 |
لورا | 4.57 م | 10127 ميجا بايت | 87.5% | 0.74 | 50.34% | 0.43 |
AdaptFormer | 4.66 م | 11036 ميجابايت | 87.3% | 0.74 | 50.83% | 0.43 |
لوراند | 1.31 م | 11572 ميجا بايت | 86.8% | 0.82 | 50.76% | 0.48 |
E$^3$VA | 1.79 م | 4819 ميجابايت | 86.5% | 0.81 | 49.64% | 0.46 |
منى | 5.08 م | 11958 ميجابايت | 87.3% | 0.73 | 51.36% | 0.43 |
تتم صيانة مجتمع V-PETL Bench بواسطة:
يي شين ([email protected])، جامعة نانجينغ.
سيكي لوه ([email protected])، جامعة شنغهاي جياو تونغ.
إذا وجدت أن الاستبيان والمستودع الخاص بنا مفيدان لبحثك، فيرجى ذكرهما أدناه:
@article{xin2024bench, title={V-PETL Bench: معيار تعليمي موحد للنقل الفعال للمعلمات المرئية}، المؤلف={Yi Xin، Siqi Luo، Xuyang Liu، Haodi Zhou، Xinyu Cheng، Christina Luoluo Lee، Junlong Du، Yuntao دو.، هاوزهي وانغ، مينغكاي تشين، تينغ ليو، غيمين هو، تشونغوي وان، رونغشاو تشانغ، أوكسو لي، مينغيانغ يي، شياو هونغ ليو}، العام={2024}}