このリポジトリは、論文「PuMer: Efficient Vision Language Models のためのトークンのプルーニングとマージ」の公式実装です。
miniforge をインストールします (conda と同じ、移植性が高い) Python 環境を作成します: conda env create -f env.yaml
、アクティブ化します: conda activate pumer
このリポジトリをクローンします: [email protected]:csarron/pumer.git
テスト cuda: python -c "import torch;print(torch.cuda.is_available())"
トーチ環境を取得: python -m torch.utils.collect_env
インストール: pip install -e .
ローカル開発目的: pip install -e ".[dev]"
env-frozen.yaml
はconda env export | grep -v "^prefix: | pumer==" > env-frozen.yaml
経由で生成されます。 conda env export | grep -v "^prefix: | pumer==" > env-frozen.yaml
データの前処理については、notes/data.md を参照してください。
元の事前トレーニングされた METER および ViLT チェックポイントの変換については、 cli/prep/convert_ckpt.py
参照してください。
以下は準備後のファイルレイアウトです。
# tree -h data
├── [4.0K] ckpt
│ └── [4.0K] converted
│ ├── [4.0K] meter_pretrain_384
│ │ ├── [ 674] config.json
│ │ └── [1.3G] pytorch_model.bin
│ ├── [4.0K] meter_pretrain_irtr_384
│ │ ├── [ 729] config.json
│ │ └── [1.2G] pytorch_model.bin
│ ├── [4.0K] meter_pretrain_nlvr2_288
│ │ ├── [ 674] config.json
│ │ └── [1.3G] pytorch_model.bin
│ ├── [4.0K] vilt_pretrain
│ │ ├── [ 619] config.json
│ │ └── [518M] pytorch_model.bin
│ ├── [4.0K] vilt_pretrain_irtr
│ │ ├── [ 718] config.json
│ │ └── [426M] pytorch_model.bin
│ └── [4.0K] vilt_pretrain_nlvr2
│ ├── [ 619] config.json
│ └── [518M] pytorch_model.bin
├── [4.0K] datasets
│ ├── [4.0K] irtr
│ │ ├── [390K] flickr30k-test.jsonl
│ │ ├── [ 11M] flickr30k-train.jsonl
│ │ ├── [397K] flickr30k-val.jsonl
│ │ ├── [ 10M] mscoco-restval.jsonl
│ │ ├── [1.7M] mscoco-test.jsonl
│ │ ├── [ 28M] mscoco-train.jsonl
│ │ └── [1.7M] mscoco-val.jsonl
│ ├── [4.0K] nlvr2
│ │ ├── [3.6M] dev.json
│ │ ├── [3.6M] test1.json
│ │ └── [ 39M] train.json
│ ├── [4.0K] snli-ve
│ │ ├── [ 16M] snli_ve_dev.jsonl
│ │ ├── [ 16M] snli_ve_test.jsonl
│ │ └── [464M] snli_ve_train.jsonl
│ └── [4.0K] vqa2
│ ├── [ 57K] vqa2_ans2label.json
│ ├── [ 39K] vqa2_label2ans.json
│ ├── [161K] vqa2-small.jsonl
│ ├── [ 45M] vqa2-test2015.jsonl
│ ├── [ 71M] vqa2-train2014.jsonl
│ └── [ 34M] vqa2-val2014.jsonl
└── [4.0K] lmdb
├── [ 13G] coco-test2015.lmdb
├── [ 19G] coco-trainval2014.lmdb
├── [4.2G] flickr30k_images.lmdb
├── [837M] nlvr2-dev.lmdb
├── [837M] nlvr2-test1.lmdb
└── [ 11G] nlvr2-train.lmdb
使用例については、notes/cmd.md を参照してください。
Finetuend チェックポイントについては https://huggingface.co/csarron をチェックしてください: ( -ft
はオリジナルの微調整モデル、 p0.x-r0.x-t0.x-xxx
は PuMer モデルです)
vilt-vqa2-ft
vilt-vqa2-p0.1-r0.3-t0.2-258
vilt-ve-ft
vilt-ve-p0.1r0.3t0.2-2468
vilt-nlvr2-ft
vilt-nlvr2-p0.1r0.3t0.2-258
meter-vqa2-ft
meter-vqa2-p0.2r0.2t0.2-0246
meter-ve-ft
meter-ve-p0.3r0.5t0.2-0246
meter-nlvr2-ft
meter-nlvr2-p0.3r0.5t0.2-246
「notes/profile.md」を参照してください。
最初の使用後にTRANSFORMERS_OFFLINE=1
を設定してください。そうしないと、常にオンライン検索が行われるため、場合によっては 504 エラーが報告されます。
src/pumer/model/pruner.py
のコードを無視します (非推奨で未使用)。クリーンアップが必要です
現在のコードベースには、PuMer の実装に関係のない乱雑なコードや実験的なコードが多数含まれていますが、無視してください。
@inproceedings{cao-etal-2023-pumer, title = "{P}u{M}er: 効率的なビジョン言語モデルのためのトークンのプルーニングとマージ"、著者 = "Cao、Qingqing、Paranjape、Bhargavi、Hajishirzi、Hannaneh", booktitle = "計算言語学協会の第 61 回年次総会の予稿集(第 1 巻: 長い論文)"、月 = 7 月、年 = "2023"、住所 = "カナダ、トロント"、発行者 = "計算言語学協会"、URL = "https://aclanthology.org/2023.acl -long.721"、ページ = "12890--12903"、 }