Téléchargement Link Context Learning - Link Context Learning du code source

Link Context Learning

Autre code source

Télécharger

Link-Context Learning pour les LLM multimodales [CVPR 2024]

Yan Tai ^{*, 2,3,4} Fan Weichen ^{*, †, 3} zhao zhang ³ ziwei liu ^{✉, 1}

¹ S-Lab, Nanyang Technological University ² Shanghai Jiao Tong University ³ SenseTime Research
⁴ Ningbo Institute of Digital Twin, Eastern Institute of Technology, Ningbo, Chine

^* Contribution égale ^† Drive du projet ^✉ Auteur correspondant

Implémentation officielle de Pytorch de "Link-Context Learning for Multimodal LLMS" [CVPR 2024].

Mises à jour

28 février 2024 ?? Notre article a été accepté par CVPR 2024! ?
05 Sep, 2023 : Nous libérons le code, les données et le point de contrôle LCL-2WAY-WEIGHT.
24 août 2023 : Nous publions la démo en ligne à? LCL-Demo ?.
17 août 2023 : Nous libérons les deux sous-ensembles d'Isekai (Isekai-10 et Isekai-pair) à [Hugging Face?].

Ce référentiel contient l' implémentation officielle et l'ensemble de données du document suivant:

Apprentissage de lien-context pour les LLM multimodales
https://arxiv.org/abs/2308.07891
Résumé: La capacité d'apprendre du contexte avec de nouveaux concepts et de fournir des réponses appropriées est essentielle dans les conversations humaines. Malgré les modèles de grande langue (MLLM) et les modèles de langage (LLM) (LLM) (LLM) actuels qui sont formés sur des ensembles de données à l'échelle méga, la reconnaissance d'images invisibles ou la compréhension de nouveaux concepts de manière sans formation reste un défi. L'apprentissage dans le contexte (ICL) explore l'apprentissage à quelques coups de formation, où les modèles sont encouragés à «apprendre à apprendre» des tâches limitées et à généraliser aux tâches invisibles. Dans ce travail, nous proposons Link-Context Learning (LCL), qui met l'accent sur le «raisonnement à partir de la cause et de l'effet» pour augmenter les capacités d'apprentissage des MLLM. LCL va au-delà de l'ICL traditionnel en renforçant explicitement la relation causale entre l'ensemble de support et l'ensemble de requête. En fournissant des démonstrations avec des liens causaux, LCL guide le modèle pour discerner non seulement l'analogie mais aussi les associations causales sous-jacentes entre les points de données, ce qui permet aux MLLM de reconnaître plus efficacement les images invisibles et de comprendre les nouveaux concepts. Pour faciliter l'évaluation de cette nouvelle approche, nous introduisons l'ensemble de données ISEKAI, comprenant exclusivement de paires d'échanges d'images générées invisibles conçues pour l'apprentissage du contexte de liaison. Des expériences approfondies montrent que notre LCL-MLLM présente de fortes capacités d'apprentissage en contexte de lien vers de nouveaux concepts sur les MLLM de vanille.

Faire

Libérez les iSekai-10 et Isekai-pair.
Libérez l'utilisation de l'ensemble de données.
Libérez la démo.
Libérez les codes et les points de contrôle.
Libérez l'ensemble de données ISEKAI complet.
Libérez les points de contrôle prenant en charge les tâches de détection à quelques coups et de VQA.

Commencer

Installer
Point de contrôle
Ensemble de données
Démo

Installer

conda create -n lcl python=3.10
conda activate lcl
pip install -r requirements.txt

Configurer accélérer

accelerate config

Ensemble de données

Imagenet

Nous formons le paramètre LCL sur notre ensemble Rebuild ImageNet-900 et évaluons le modèle sur l'imageNet-100. Vous pouvez obtenir le jeu de données JSON ici.

Isekai

Nous évaluons le modèle sur ISEKAI-10 et ISEKAI-PAIR, vous pouvez télécharger un ensemble de données ISEKAI dans ISEKAI-10 et ISEKAI-PAIR.

Point de contrôle

Téléchargez nos points de contrôle LCL-2WAY-Web et LCL-MIX dans Huggingface.

Démo

Pour lancer une démo Web Gradio, utilisez la commande suivante. Veuillez noter que le modèle évalue au format TORCH.FLOAT16, qui nécessite un GPU avec au moins 16 Go de mémoire.

python ./mllm/demo/demo.py --model_path /path/to/lcl/ckpt

Il est également possible de l'utiliser en quantification 8 bits, bien qu'au détriment de sacrifier certaines performances.

python ./mllm/demo/demo.py --model_path /path/to/lcl/ckpt --load_in_8bit

Former

Après avoir préparé des données, vous pouvez former le modèle à l'aide de la commande:

LCL-2WAY-weight

accelerate launch --num_processes 4 
        --main_process_port 23786 
        mllm/pipeline/finetune.py 
        config/lcl_train_2way_weight.py 
        --cfg-options data_args.use_icl=True 
        --cfg-options model_args.model_name_or_path=/path/to/init/checkpoint

LCL-2WAY-MIX

accelerate launch --num_processes 4 
        --main_process_port 23786 
        mllm/pipeline/finetune.py 
        config/lcl_train_mix1.py 
        --cfg-options data_args.use_icl=True 
        --cfg-options model_args.model_name_or_path=/path/to/init/checkpoint

Inférence

Après avoir préparé des données, vous pouvez inférer le modèle à l'aide de la commande:

ImageNet-100

accelerate launch --num_processes 4 
        --main_process_port 23786 
        mllm/pipeline/finetune.py 
        config/lcl_eval_ISEKAI_10.py 
        --cfg-options data_args.use_icl=True 
        --cfg-options model_args.model_name_or_path=/path/to/checkpoint

MMEGINE Style Args et Hugging Face: Trainer Args sont pris en charge. Par exemple, vous pouvez modifier Eval BatchSize comme ceci:

Isekai

 # ISEKAI10
accelerate launch --num_processes 4 
        --main_process_port 23786 
        mllm/pipeline/finetune.py 
        config/shikra_eval_multi_pope.py 
        --cfg-options data_args.use_icl=True 
        --cfg-options model_args.model_name_or_path=/path/to/checkpoint 
        --per_device_eval_batch_size 1

# ISEKAI-PAIR
accelerate launch --num_processes 4 
        --main_process_port 23786 
        mllm/pipeline/finetune.py 
        config/shikra_eval_multi_pope.py 
        --cfg-options data_args.use_icl=True 
        --cfg-options model_args.model_name_or_path=/path/to/checkpoint 
        --per_device_eval_batch_size 1

où --cfg-options a=balabala b=balabala est un argument de style Mmengine. Ils écraseront l'argument prédéfini dans le fichier de configuration. Et --per_device_eval_batch_size est un argument HuggingFace: Trainer.

Le résultat de la prédiction sera enregistré dans output_dir/multitest_xxxx_extra_prediction.jsonl , qui contiennent le même ordre que l'ensemble de données d'entrée.

Citer

 @inproceedings { tai2023link ,
  title = { Link-Context Learning for Multimodal LLMs } ,
  author = { Tai, Yan and Fan, Weichen and Zhang, Zhao and Liu, Ziwei } ,
  booktitle = { Proceedings of the IEEE/CVF conference on computer vision and pattern recognition (CVPR) } ,
  year = { 2024 }
}

Développer

Informations supplémentaires

Version
Type Autre code source
Date de mise à jour 2025-02-08
taille 32.18MB
Provenant de Github

Applications connexes

Parameter Efficient Transfer Learning Benchmark

2024-11-06
Lien vers des jeux artistiques

2024-02-21
Jeu Ball Link Explosion

2023-08-13
Lien Steam

2023-04-23
application bilibili lien

2023-04-14
validateur de lien web

2009-04-16

Recommandé pour vous

chat.petals.dev

Autre code source

1.0.0
GPT Prompt Templates

Autre code source

1.0.0
GPTyped

Autre code source

GPTyped 1.0.5
waymo open dataset

Autre code source

December 2023 Update
Sunamu

Autre code source

Release 2.2.0
MySchedule.py

Autre code source

Updates to the fetching of week codes
waymo open dataset

Autre code source

December 2023 Update
termwind

Autres catégories

v2.3.0
wp functions

Autres catégories

1.0.0

Actualités connexes Tout