RALF下載 - RALF原始碼下載

RALF

其他源碼

1.0.0

下載

用於內容感知佈局產生的檢索增強佈局轉換器

堀田大地¹井上直人²菊地幸太郎²山口幸太²相澤清晴¹
¹東京大學、 ² CyberAgent

CVPR 2024（口語）

Content-aware graphic layout generation旨在自動排列視覺元素以及給定內容，例如電子商務產品圖像。該存儲庫旨在為content-aware layout generation提供一體化包。如果您喜歡這個存儲庫，請給它一個星星！

在本文中，我們提出了Retrieval-augmented content-aware layout generation 。我們根據輸入影像檢索最近鄰範例，並將它們用作增強生成過程的參考。

內容

設定
資料集分割
預處理資料集
訓練
推理與評估
使用畫布進行推理

基準概述

我們不僅提供我們的方法（RALF / Autoreg Baseline），還提供其他最先進的內容感知佈局生成方法。此存儲庫中包含以下方法：

Autoreg 基線 [Horita+ CVPR24]
RALF [堀田+ CVPR24]
CGL-GAN [週+ IJCAI22]
DS-GAN [許+ CVPR23]
ICVT [曹+ ACMMM22]
LayoutDM [井上+ CVPR23]
MaskGIT【張+CVPR22】
VQDiffusion [Gu+ CVPR22]

設定

我們建議使用 Docker 來輕鬆嘗試我們的程式碼。

一、要求

Python3.9+
火炬 1.13.1

我們建議使用 Poetry（pyproject.toml 中的所有設定和依賴項）。

2. 如何安裝

當地環境

安裝詩歌（參見官方文件）。

curl -sSL https://install.python-poetry.org | python3 -

安裝依賴項（可能會很慢..）

poetry install

Docker環境

建置 Docker 映像

bash scripts/docker/build.sh

將容器連接到您的外殼。

bash scripts/docker/exec.sh

在容器中安裝相依性

poetry install

3.設定全域環境變數

應該設定一些變數。請自行製作scripts/bin/setup.sh。至少應該設定這三個變數。如果您下載提供的 zip，請忽略安裝。

DATA_ROOT= " ./cache/dataset "

可能會設定一些變數（例如， OMP_NUM_THREADS ）

4.檢查檢查點和實驗結果

用於無約束和約束任務的 Autoreg 基線和我們的 RALF 的檢查點和產生的佈局可在 Google Drive 或 Microsoft OneDrive 上找到。下載後，請執行此目錄中的unzip cache.zip 。請注意，檔案大小為 13GB。

cache目錄包含：

cache/dataset中預處理的 CGL 資料集。
版面編碼器和 ResNet50 的權重位於cache/PRECOMPUTED_WEIGHT_DIR 。
cache/eval_gt_features中 CGL 預先計算的佈局特徵。
cache/pku_cgl_relationships_dic_using_canvas_sort_label_lexico.pt中relationship任務的元素關係。
cache/training_logs中 Autoreg 基線和 RALF 的檢查點和評估結果。

資料集分割

訓練/測試/驗證/真實資料分割

我們透過將訓練集劃分為驗證和測試子集來對 PKU 和 CGL 資料集進行預處理，如 4.1 節所述。 CGL 資料集在分發時已被劃分為這些部分。為了複製我們的結果，我們提供了data_splits/splits/<DATASET_NAME>目錄中的檔案名稱詳細資訊。我們鼓勵在根據我們的設定進行實驗並使用我們報告的分數（例如 CGL-GAN 和 DS-GAN）時使用這些預先定義的分割。

檢索到的樣本ID

我們使用訓練分割作為檢索來源。例如，當RALF與PKU一起訓練時，PKU的訓練分割用於訓練和評估。我們在data_splits/retrieval/<DATASET_NAME>中使用 DreamSim [Fu+ NeurIPS23] 提供預先計算的對應關係。資料結構如下

 FILENAME :
    - FILENAME top1
    - FILENAME top2
    ...
    - FILENAME top16

您可以從<IMAGE_ROOT>/<FILENAME>.png載入映像。

預處理資料集

我們強烈建議預處理資料集，因為您可以盡快執行實驗！
透過指定--dataset_type (pku|cgl)每個腳本均可用於處理 PKU 和 CGL

數據集設定

帶括號的資料夾名稱將由此管道產生。

 <DATASET_ROOT>
| - annotation
| | (for PKU)
| | - train_csv_9973.csv
| | - [test_csv_905.csv](https://drive.google.com/file/d/19BIHOdOzVPBqf26SZY0hu1bImIYlRqVd/view?usp=sharing)
| |  (for CGL)
| | - layout_train_6w_fixed_v2.json
| | - layout_test_6w_fixed_v2.json
| | - yinhe.json
| - image
| | - train
| | | - original: image with layout elements
| | | - (input): image without layout elements (by inpainting)
| | | - (saliency)
| | | - (saliency_sub)
| | - test
| | | - input: image without layout elements
| | | - (saliency)
| | | - (saliency_sub)

影像修復

poetry run python image2layout/hfds_builder/inpainting.py --dataset_root < DATASET_ROOT >

顯著性檢測

poetry run python image2layout/hfds_builder/saliency_detection.py --input_dir < INPUT_DIR > --output_dir < OUTPUT_DIR > (--algorithm (isnet | basnet))

聚合資料並轉儲到 HFDS

poetry run python image2layout/hfds_builder/dump_dataset.py --dataset_root < DATASET_ROOT > --output_dir < OUTPUT_DIR >

訓練

尖端

configs/<METHOD>_<DATASET>.sh包含每個方法和資料集的超參數和設定。詳細資訊請參閱文件。特別是，請檢查調試模式DEBUG=True or False 。

使用 CGL 的 Autoreg 基線

請跑

bash scripts/train/autoreg_cgl.sh < GPU_ID > < TASK_NAME >
# If you wanna run train and eval, please run
bash scripts/run_job/end_to_end.sh < GPU_ID e.g. 0> autoreg cgl < TASK_NAME e.g. uncond >

其中TASK_NAME表示無約束和約束任務。請參考以下任務清單：

uncond ：無約束生成
c ：類別→大小+位置
cwh ：類別+大小→位置
partial ：完成
refinement ：精煉
relation ：關係

RALF 與 CGL

具有修復功能的資料集。

請跑

bash scripts/train/ralf_cgl.sh < GPU_ID > < TASK_NAME >
# If you wanna run train and eval, please run
bash scripts/run_job/end_to_end.sh < GPU_ID e.g. 0> ralf cgl < TASK_NAME e.g. uncond >

其他方法

例如，這些腳本很有幫助。 end_to_end.sh是用於訓練、推理和評估的包裝腳本。

 # DS-GAN with CGL dataset
bash scripts/run_job/end_to_end.sh 0 dsgan cgl uncond
# LayoutDM with CGL dataset
bash scripts/run_job/end_to_end.sh 2 layoutdm cgl uncond
# CGL-GAN + Retrieval Augmentation with CGL dataset
bash scripts/run_job/end_to_end.sh 2 cglgan_ra cgl uncond

推理與評估

實驗結果在cache/training_logs中提供。例如， autoreg_c_cgl的目錄，其中是 Autoreg Baseline with Category → Size + Position 任務的結果，包括：

test_<SEED>.pkl ：產生的佈局
layout_test_<SEED>.png ：渲染的佈局，其中頂部樣本是真實樣本，底部樣本是預測樣本
gen_final_model.pt ：最終檢查點
scores_test.tex ：總結的定性結果

帶註釋的分割

請查看並運行

bash scripts/eval_inference/eval_inference.sh < GPU_ID > < JOB_DIR > < COND_TYPE > cgl

例如，

 # Autoreg Baseline with Unconstraint generation
bash scripts/eval_inference/eval_inference.sh 0 " cache/training_logs/autoreg_uncond_cgl " uncond cgl

未註釋的分割

具有真實畫布的資料集，即沒有修復。

請查看並運行

bash scripts/eval_inference/eval_inference_all.sh < GPU_ID >

使用畫布進行推理

請跑

bash scripts/run_job/inference_single_data.sh < GPU_ID > < JOB_DIR > cgl < SAMPLE_ID >

其中SAMPLE_ID可以選擇設定為資料集索引。

例如，

bash scripts/run_job/inference_single_data.sh 0 " ./cache/training_logs/ralf_uncond_cgl " cgl

使用您的個人資料進行推理

請自訂 image2layout/train/inference_single_data.py 來載入您的資料。

引文

如果您發現我們的工作對您的研究有用，請考慮引用：

 @article { horita2024retrievalaugmented ,
    title = { {Retrieval-Augmented Layout Transformer for Content-Aware Layout Generation} } ,
    author = { Daichi Horita and Naoto Inoue and Kotaro Kikuchi and Kota Yamaguchi and Kiyoharu Aizawa } ,
    booktitle = { CVPR } ,
    year = { 2024 }
}