PuMer -Download - PuMer Quellcode-Download

PuMer

Anderer Quellcode

1.0.0

Herunterladen

PuMer (ACL 2023)

Dieses Repo ist die offizielle Implementierung für das Papier „PuMer: Pruning and Merging Tokens for Efficient Vision Language Models“.

Verwendung

Installieren

Installieren Sie Miniforge (dasselbe wie Conda, portabler). Erstellen Sie eine Python-Umgebung: conda env create -f env.yaml , aktivieren Sie es: conda activate pumer klonen Sie dieses Repo: [email protected]:csarron/pumer.git

teste cuda: python -c "import torch;print(torch.cuda.is_available())"

Holen Sie sich die Torch-Umgebung: python -m torch.utils.collect_env

installieren: pip install -e .

für lokale Entwicklungszwecke: pip install -e ".[dev]"

Die env-frozen.yaml wird über conda env export | grep -v "^prefix: | pumer==" > env-frozen.yaml generiert conda env export | grep -v "^prefix: | pumer==" > env-frozen.yaml

Bereiten Sie Daten und vorab trainierte Modelle vor

Informationen zur Datenvorverarbeitung finden Sie unter „notes/data.md“.

Informationen zum Konvertieren ursprünglich vorab trainierter METER- und ViLT-Kontrollpunkte finden Sie unter cli/prep/convert_ckpt.py

Unten sehen Sie das Dateilayout nach der Vorbereitung:

# tree -h data
├── [4.0K]  ckpt
│   └── [4.0K]  converted
│       ├── [4.0K]  meter_pretrain_384
│       │   ├── [ 674]  config.json
│       │   └── [1.3G]  pytorch_model.bin
│       ├── [4.0K]  meter_pretrain_irtr_384
│       │   ├── [ 729]  config.json
│       │   └── [1.2G]  pytorch_model.bin
│       ├── [4.0K]  meter_pretrain_nlvr2_288
│       │   ├── [ 674]  config.json
│       │   └── [1.3G]  pytorch_model.bin
│       ├── [4.0K]  vilt_pretrain
│       │   ├── [ 619]  config.json
│       │   └── [518M]  pytorch_model.bin
│       ├── [4.0K]  vilt_pretrain_irtr
│       │   ├── [ 718]  config.json
│       │   └── [426M]  pytorch_model.bin
│       └── [4.0K]  vilt_pretrain_nlvr2
│           ├── [ 619]  config.json
│           └── [518M]  pytorch_model.bin
├── [4.0K]  datasets
│   ├── [4.0K]  irtr
│   │   ├── [390K]  flickr30k-test.jsonl
│   │   ├── [ 11M]  flickr30k-train.jsonl
│   │   ├── [397K]  flickr30k-val.jsonl
│   │   ├── [ 10M]  mscoco-restval.jsonl
│   │   ├── [1.7M]  mscoco-test.jsonl
│   │   ├── [ 28M]  mscoco-train.jsonl
│   │   └── [1.7M]  mscoco-val.jsonl
│   ├── [4.0K]  nlvr2
│   │   ├── [3.6M]  dev.json
│   │   ├── [3.6M]  test1.json
│   │   └── [ 39M]  train.json
│   ├── [4.0K]  snli-ve
│   │   ├── [ 16M]  snli_ve_dev.jsonl
│   │   ├── [ 16M]  snli_ve_test.jsonl
│   │   └── [464M]  snli_ve_train.jsonl
│   └── [4.0K]  vqa2
│       ├── [ 57K]  vqa2_ans2label.json
│       ├── [ 39K]  vqa2_label2ans.json
│       ├── [161K]  vqa2-small.jsonl
│       ├── [ 45M]  vqa2-test2015.jsonl
│       ├── [ 71M]  vqa2-train2014.jsonl
│       └── [ 34M]  vqa2-val2014.jsonl
└── [4.0K]  lmdb
    ├── [ 13G]  coco-test2015.lmdb
    ├── [ 19G]  coco-trainval2014.lmdb
    ├── [4.2G]  flickr30k_images.lmdb
    ├── [837M]  nlvr2-dev.lmdb
    ├── [837M]  nlvr2-test1.lmdb
    └── [ 11G]  nlvr2-train.lmdb

Schulung und Bewertung

Beispielverwendung siehe „notes/cmd.md“;

Checkout https://huggingface.co/csarron für Finetuend-Checkpoints: ( -ft ist das ursprünglich fein abgestimmte Modell, p0.x-r0.x-t0.x-xxx ist unser PuMer-Modell)

vilt-vqa2-ft
vilt-vqa2-p0.1-r0.3-t0.2-258
vilt-ve-ft 
vilt-ve-p0.1r0.3t0.2-2468 
vilt-nlvr2-ft 
vilt-nlvr2-p0.1r0.3t0.2-258
meter-vqa2-ft
meter-vqa2-p0.2r0.2t0.2-0246
meter-ve-ft 
meter-ve-p0.3r0.5t0.2-0246 
meter-nlvr2-ft 
meter-nlvr2-p0.3r0.5t0.2-246

Profilierung von FLOPs

siehe Notes/profile.md

FAQs

Setzen Sie TRANSFORMERS_OFFLINE=1 nach der ersten Verwendung, andernfalls wird irgendwann ein 504-Fehler gemeldet, da die Suche immer online erfolgt.

Sonstiges

Ignorieren Sie den Code in src/pumer/model/pruner.py (veraltet und nicht verwendet), muss bereinigt werden
Die aktuelle Codebasis enthält viele Unordnung und experimentellen Code, der nichts mit der PuMer-Implementierung zu tun hat. Bitte ignorieren Sie dies.

Zitat

 @inproceedings{cao-etal-2023-pumer, title = „{P}u{M}er: Pruning and Merging Tokens for Efficient Vision Language Models“, author = „Cao, Qingqing und Paranjape, Bhargavi und Hajishirzi, Hannaneh“, booktitle = „Proceedings of the 61st Annual Meeting of the Association for Computational Linguistics (Band 1: Long Papers)“, Monat = Juli, Jahr = „2023“, Adresse = „Toronto, Kanada“, Herausgeber = „Association for Computational Linguistics“, url = „https://aclanthology.org/2023.acl-long.721 ", seiten = "12890--12903",
}

Expandieren

Zusätzliche Informationen