Link Context Learning Download - Link Context Learning Source Code Download

Link Context Learning

شفرة المصدر الأخرى

تنزيل

Link-Context Learning for Multimodal LLMS [CVPR 2024]

Yan Tai ^{*، 2،3،4} Weichen Fan ^{*، † ، 3} Zhao Zhang ³ Ziwei Liu ^{✉ ، 1}

¹ S-LAB ، جامعة نانيانغ التكنولوجية ² شنغهاي جياو تونغ جامعة ³ أبحاث في وقت
⁴ معهد نينغبو للتوأم الرقمي ، المعهد الشرقي للتكنولوجيا ، نينغبو ، الصين

^* مساهمة متساوية ^† تقدم المشروع ^✉ المؤلف المقابل

تنفيذ Pytorch الرسمي لـ "Link-Context Learning for Multimodal LLMS" [CVPR 2024].

التحديثات

28 فبراير ، 2024 ؟؟ تم قبول ورقةنا من قبل CVPR 2024! ؟
05 سبتمبر ، 2023 : نصدر الكود والبيانات ونقطة تفتيش LCL-2Way.
24 أغسطس ، 2023 : نصدر العرض التوضيحي عبر الإنترنت في؟ LCL-DEMO؟.
17 أغسطس ، 2023 : نطلق سراح مجموعتي Isekai (Isekai-10 و Isekai-Pair) في [Hugging Face؟].

يحتوي هذا المستودع على التنفيذ الرسمي ومجموعة بيانات الورقة التالية:

تعلم الارتباط التعلم لـ LLMs متعدد الوسائط
https://arxiv.org/abs/2308.07891
الخلاصة: القدرة على التعلم من السياق مع مفاهيم جديدة ، وتقديم الاستجابات المناسبة ضرورية في المحادثات الإنسانية. على الرغم من أن نماذج اللغة الكبيرة المتعددة الوسائط الحالية (MLLMS) ونماذج اللغة الكبيرة (LLMs) يتم تدريبها على مجموعات البيانات الضخمة على نطاق واسع ، لا يزال التعرف على الصور غير المرئية أو فهم مفاهيم جديدة بطريقة خالية من التدريب. يستكشف التعلم داخل السياق (ICL) التعلم الخالي من التدريب ، حيث يتم تشجيع النماذج على "تعلم التعلم" من المهام المحدودة والتعميم على المهام غير المرئية. في هذا العمل ، نقترح التعلم السياق للربط (LCL) ، والذي يؤكد "التفكير من السبب والتأثير" لزيادة قدرات التعلم من MLLMs. تتجاوز LCL ICL التقليدي عن طريق تعزيز العلاقة السببية بين مجموعة الدعم ومجموعة الاستعلام بشكل صريح. من خلال توفير المظاهرات مع الروابط السببية ، يرشد LCL النموذج لتمييز ليس فقط القياس ولكن أيضًا الارتباطات السببية الأساسية بين نقاط البيانات ، والتي تمكن MLLMs من التعرف على الصور غير المرئية وفهم المفاهيم الجديدة بشكل أكثر فعالية. لتسهيل تقييم هذا النهج الجديد ، نقدم مجموعة بيانات Isekai ، التي تضم حصريًا من أزواج غير مرئية من سلام الصور المصممة لتعلم السياق. تبين التجارب الواسعة أن LCL-MLLM لدينا يعرض إمكانات التعلم القوية لارتباط الارتباطات لمفاهيم جديدة على MLLMs الفانيليا.

تودو

حرر ISEKAI-10 و ISEKAI-PAIR.
حرر استخدام مجموعة البيانات.
الافراج عن العرض التوضيحي.
حرر الرموز ونقاط التفتيش.
حرر مجموعة بيانات Isekai الكاملة.
تحرير نقاط التفتيش التي تدعم الكشف عن القليل من المهام ومهام VQA.

ابدأ

ثَبَّتَ
نقطة التفتيش
مجموعة البيانات
العرض التوضيحي

ثَبَّتَ

conda create -n lcl python=3.10
conda activate lcl
pip install -r requirements.txt

تكوين تسريع

accelerate config

مجموعة البيانات

ImageNet

نقوم بتدريب إعداد LCL على مجموعة Rebuild ImageNet-900 ، ونقيم النموذج على مجموعة ImageNet-100. يمكنك الحصول على مجموعة البيانات JSON هنا.

Isekai

نقوم بتقييم النموذج على ISEKAI-10 و ISEKAI-PAIR ، يمكنك تنزيل مجموعة بيانات ISEKAI في ISEKAI-10 و ISEKAI-PAIR.

نقطة التفتيش

قم بتنزيل نقاط تفتيش LCL-2Way-Weight و LCL-MIX في Huggingface.

العرض التوضيحي

لإطلاق عرض تجريبي ويب ، استخدم الأمر التالي. يرجى ملاحظة أن النموذج يقييم بتنسيق torch.float16 ، والذي يتطلب وحدة معالجة الرسومات مع ما لا يقل عن 16 جيجابايت من الذاكرة.

python ./mllm/demo/demo.py --model_path /path/to/lcl/ckpt

من الممكن أيضًا استخدامه في القياس الكمي 8 بت ، وإن كان على حساب التضحية ببعض الأداء.

python ./mllm/demo/demo.py --model_path /path/to/lcl/ckpt --load_in_8bit

يدرب

بعد إعداد البيانات ، يمكنك تدريب النموذج باستخدام الأمر:

LCL-2Way-Weight

accelerate launch --num_processes 4 
        --main_process_port 23786 
        mllm/pipeline/finetune.py 
        config/lcl_train_2way_weight.py 
        --cfg-options data_args.use_icl=True 
        --cfg-options model_args.model_name_or_path=/path/to/init/checkpoint

LCL-2Way-MIX

accelerate launch --num_processes 4 
        --main_process_port 23786 
        mllm/pipeline/finetune.py 
        config/lcl_train_mix1.py 
        --cfg-options data_args.use_icl=True 
        --cfg-options model_args.model_name_or_path=/path/to/init/checkpoint

الاستدلال

بعد إعداد البيانات ، يمكنك استنتاج النموذج باستخدام الأمر:

ImageNet-100

accelerate launch --num_processes 4 
        --main_process_port 23786 
        mllm/pipeline/finetune.py 
        config/lcl_eval_ISEKAI_10.py 
        --cfg-options data_args.use_icl=True 
        --cfg-options model_args.model_name_or_path=/path/to/checkpoint

MmEngine Style args و uggingface: يتم دعم args المدرب. على سبيل المثال ، يمكنك تغيير حجم Batchsize مثل هذا:

Isekai

 # ISEKAI10
accelerate launch --num_processes 4 
        --main_process_port 23786 
        mllm/pipeline/finetune.py 
        config/shikra_eval_multi_pope.py 
        --cfg-options data_args.use_icl=True 
        --cfg-options model_args.model_name_or_path=/path/to/checkpoint 
        --per_device_eval_batch_size 1

# ISEKAI-PAIR
accelerate launch --num_processes 4 
        --main_process_port 23786 
        mllm/pipeline/finetune.py 
        config/shikra_eval_multi_pope.py 
        --cfg-options data_args.use_icl=True 
        --cfg-options model_args.model_name_or_path=/path/to/checkpoint 
        --per_device_eval_batch_size 1

حيث-- --cfg-options a=balabala b=balabala هي حجة نمط MMENGINE. سوف يكتبون الوسيطة المحددة مسبقًا في ملف التكوين. و --per_device_eval_batch_size uggingface: وسيطة المدرب.

سيتم حفظ نتيجة التنبؤ في output_dir/multitest_xxxx_extra_prediction.jsonl ، والتي تحمل نفس ترتيب مجموعة بيانات الإدخال.

استشهد

 @inproceedings { tai2023link ,
  title = { Link-Context Learning for Multimodal LLMs } ,
  author = { Tai, Yan and Fan, Weichen and Zhang, Zhao and Liu, Ziwei } ,
  booktitle = { Proceedings of the IEEE/CVF conference on computer vision and pattern recognition (CVPR) } ,
  year = { 2024 }
}

يوسع

معلومات إضافية

الإصدار
النوع شفرة المصدر الأخرى
وقت التحديث 2025-02-08
الحجم 32.18MB
من Github

تطبيقات ذات صلة

Parameter Efficient Transfer Learning Benchmark

2024-11-06
وصلة العاب فنية

2024-02-21
لعبة انفجار وصلة الكرة

2023-08-13
رابط البخار

2023-04-23
تطبيق رابط bilibili

2023-04-14
مدقق رابط الويب

2009-04-16

نوصي لك

chat.petals.dev

شفرة المصدر الأخرى

1.0.0
GPT Prompt Templates

شفرة المصدر الأخرى

1.0.0
GPTyped

شفرة المصدر الأخرى

GPTyped 1.0.5
waymo open dataset

شفرة المصدر الأخرى

December 2023 Update
Sunamu

شفرة المصدر الأخرى

Release 2.2.0
MySchedule.py

شفرة المصدر الأخرى

Updates to the fetching of week codes
waymo open dataset

شفرة المصدر الأخرى

December 2023 Update
termwind

فئات أخرى

v2.3.0
wp functions

فئات أخرى

1.0.0

أخبار ذات صلة الكل