พื้นที่เก็บข้อมูลนี้มี C omposed I mage R etrieval บนชุดข้อมูล R eal-life image ( CIRR )
สำหรับรายละเอียด โปรดดูเอกสาร ICCV 2021 ของเรา - การเรียกค้นรูปภาพจากรูปภาพในชีวิตจริงด้วยแบบจำลองการมองเห็นและภาษาที่ได้รับการฝึกอบรมล่วงหน้า
คุณกำลังดู พื้นที่เก็บข้อมูลชุดข้อมูล การนำทางไซต์ > หน้าแรกของโครงการ | ที่เก็บโค้ด
ข่าวสารและการอัพเดทที่จะเกิดขึ้น
ชุดข้อมูลของเรามีโครงสร้างในลักษณะเดียวกับ Fashion-IQ ซึ่งเป็นชุดข้อมูลที่มีอยู่ในงานนี้ ไฟล์ประกอบด้วยคำอธิบายประกอบ รูปภาพดิบ และฟีเจอร์เสริมรูปภาพที่แยกไว้ล่วงหน้า
รับคำอธิบายประกอบโดย:
# create a `data` folder at your desired location
mkdir data
cd data
# clone the cirr_dataset branch to the local data/cirr folder
git clone -b cirr_dataset [email protected]:Cuberick-Orion/CIRR.git cirr
โฟลเดอร์ data/cirr
มีคำอธิบายประกอบที่เกี่ยวข้องทั้งหมด โครงสร้างไฟล์อธิบายไว้ด้านล่าง
อัปเดตเมื่อเดือนตุลาคม 2024 -- โปรดติดต่อเราหากคุณประสบปัญหาในการเข้าถึงรูปภาพ Raw จาก NLVR2
ตั้งแต่ปลายปี 2023 เราได้รับแจ้งจากกลุ่มวิจัยหลายกลุ่มว่าทีม NLVR2 ไม่ตอบสนองต่อคำขอของพวกเขา ด้วยเหตุนี้ โปรดดูขั้นตอนต่อไปนี้ในการรับภาพ Raw:
สำคัญ
พื้นที่เก็บข้อมูล NLVR2 มีวิธีอื่นในการรับรูปภาพ ซึ่งก็คือการดาวน์โหลดรูปภาพด้วย URL แต่เรา ไม่ แนะนำ เนื่องจากลิงก์จำนวนมากใช้งานไม่ได้ และไฟล์ที่ดาวน์โหลดไม่มีโครงสร้างโฟลเดอร์ย่อยในโฟลเดอร์ /train
โปรดปฏิบัติตามคำแนะนำข้างต้นเพื่อดาวน์โหลดรูปภาพ Raw โดยตรง
ประเภทของคุณสมบัติรูปภาพที่ใช้ได้คือ:
ไฟล์ zip
แต่ละไฟล์ที่เราจัดเตรียมไว้ให้ประกอบด้วยโฟลเดอร์ของไฟล์คุณลักษณะรูปภาพแต่ละไฟล์ .pkl
เมื่อดาวน์โหลดแล้ว ให้แตกไฟล์ลงใน data/cirr/
ตามโครงสร้างไฟล์ด้านล่าง
data
└─── cirr
├─── captions
│ cap.VER.test1.json
│ cap.VER.train.json
│ cap.VER.val.json
├─── captions_ext
│ cap.ext.VER.test1.json
│ cap.ext.VER.train.json
│ cap.ext.VER.val.json
├─── image_splits
│ split.VER.test1.json
│ split.VER.train.json
│ split.VER.val.json
├─── img_raw
│ ├── train
│ │ ├── 0 # sub-level folder structure inherited from NLVR2 (carries no special meaning in CIRR)
│ │ │ <IMG0_ID>.png
│ │ │ <IMG0_ID>.png
│ │ │ ...
│ │ ├── 1
│ │ │ <IMG0_ID>.png
│ │ │ <IMG0_ID>.png
│ │ │ ...
│ │ ├── 2
│ │ │ <IMG0_ID>.png
│ │ │ <IMG0_ID>.png
│ │ └── ...
│ ├── dev
│ │ <IMG0_ID>.png
│ │ <IMG1_ID>.png
│ │ ...
│ └── test1
│ <IMG0_ID>.png
│ <IMG1_ID>.png
│ ...
├─── img_feat_res152
│ <Same subfolder structure as above>
└─── img_feat_frcnn
<Same subfolder structure as above>
captions/cap.VER.SPLIT.json
รายการองค์ประกอบ โดยแต่ละองค์ประกอบประกอบด้วยข้อมูลหลักในคู่เป้าหมายการสืบค้น
รายละเอียดเกี่ยวกับแต่ละรายการสามารถพบได้ใน การสนับสนุน เสื่อ. วินาที. G ของกระดาษของเรา
{ "pairid" : 12063 ,
"reference" : " test1-147-1-img1 " ,
"target_hard" : " test1-83-0-img1 " ,
"target_soft" : { "test1-83-0-img1" : 1.0 },
"caption" : " remove all but one dog and add a woman hugging it " ,
"img_set" : { "id" : 1 ,
"members" : [ " test1-147-1-img1 " ,
" test1-1001-2-img0 " ,
" test1-83-1-img1 " ,
" test1-359-0-img1 " ,
" test1-906-0-img1 " ,
" test1-83-0-img1 " ],
"reference_rank" : 3 ,
"target_rank" : 4 }
}
captions_ext/cap.ext.VER.SPLIT.json
รายการองค์ประกอบ โดยแต่ละองค์ประกอบมีคำอธิบายประกอบเสริมในคู่เป้าหมายแบบสอบถาม
รายละเอียดเกี่ยวกับคำอธิบายประกอบเสริมสามารถพบได้ในเอกสาร สนับสนุน เสื่อ. วินาที. C ของกระดาษของเรา
{ "pairid" : 12063 ,
"reference" : " test1-147-1-img1 " ,
"target_hard" : " test1-83-0-img1 " ,
"caption_extend" : { "0" : " being a photo of dogs " ,
"1" : " add a big dog " ,
"2" : " more focused on the hugging " ,
"3" : " background should contain grass " }
}
image_splits/split.VER.SPLIT.json
"test1-147-1-img1" : " ./test1/test1-147-1-img1.png " ,
# or
"train-11041-2-img0" : " ./train/34/train-11041-2-img0.png "
img_feat_<...>/
< IMG0_ID > = "test1-147-1-img1.png" . replace ( '.png' , '.pkl' )
test1-147-1-img1.pkl
เพื่อให้แต่ละไฟล์สามารถจัดทำดัชนีได้โดยตรงจากชื่อของมัน เราไม่เผยแพร่ความจริงภาคพื้นดินสำหรับการแยกการทดสอบของ CIRR แต่เซิร์ฟเวอร์การประเมินผลจะโฮสต์อยู่ที่นี่แทน หากคุณต้องการเผยแพร่ผลลัพธ์บนการแยกการทดสอบ ฟังก์ชั่นของเซิร์ฟเวอร์แยกการทดสอบจะได้รับการอัปเดตแบบค่อยเป็นค่อยไป
ดูคำแนะนำเซิร์ฟเวอร์แยกการทดสอบ
เซิร์ฟเวอร์โฮสต์แยกจากกันที่ CECS ANU ดังนั้นโปรดส่งอีเมลถึงเราหากไซต์ล่ม
เราได้รับอนุญาตคำอธิบายประกอบของ CIRR ภายใต้ใบอนุญาต MIT โปรดดูไฟล์ใบอนุญาตสำหรับรายละเอียด
ภายหลังการให้สิทธิ์ใช้งาน NLVR2 เราไม่อนุญาตให้ใช้รูปภาพที่ใช้ใน CIRR เนื่องจากเราไม่ได้ถือครองลิขสิทธิ์รูปภาพเหล่านั้น
รูปภาพที่ใช้ใน CIRR นั้นมาจากชุดข้อมูล NLVR2 ผู้ใช้จะต้องผูกพันตามข้อกำหนดในการให้บริการ
โปรดอ้างอิงบทความของเราหากสามารถช่วยการวิจัยของคุณได้:
@InProceedings { Liu_2021_ICCV ,
author = { Liu, Zheyuan and Rodriguez-Opazo, Cristian and Teney, Damien and Gould, Stephen } ,
title = { Image Retrieval on Real-Life Images With Pre-Trained Vision-and-Language Models } ,
booktitle = { Proceedings of the IEEE/CVF International Conference on Computer Vision (ICCV) } ,
month = { October } ,
year = { 2021 } ,
pages = { 2125-2134 }
}
หากคุณมีคำถามใดๆ เกี่ยวกับชุดข้อมูล โมเดล หรือการเผยแพร่ของเรา โปรดสร้างปัญหาในพื้นที่เก็บข้อมูลโปรเจ็กต์ หรือส่งอีเมลถึงเรา