ขอบคุณพนักงาน HuggingFace เราสามารถใช้ Zerogpu ฟรี (Nvidia A100) สำหรับผู้ใช้แต่ละคน แต่มีข้อสงสัยที่ จำกัด ดังนั้นหากการอนุมานติดอยู่โปรดรอสักครู่ (ความเร็วในการสาธิตในท้องถิ่นนั้นเร็วกว่าพื้นที่ GPU ออนไลน์นี้มาก)
ตอนนี้ TROL-1.8B มีอยู่แล้วในรุ่น HuggingFace (รวม Readme สาธิตท้องถิ่น)
ตอนนี้ TROL-3.8B มีอยู่ในรุ่น HuggingFace (รวม Readme สาธิตท้องถิ่น)
ตอนนี้ TROL-7B มีอยู่ในรุ่น HuggingFace (รวม Readme สาธิตท้องถิ่น)
ตอนนี้การสาธิต trol ออนไลน์มีให้บริการแล้ว? HuggingFace Spaces (คุณสามารถเลือกขนาดรุ่น)
รหัสการใช้งาน Pytorch อย่างเป็นทางการสำหรับการตระหนักถึงส่วนทางเทคนิคของ การสำรวจเลเยอร์ (trol) เพื่อปรับปรุงการแสดงภาษาที่มีวิสัยทัศน์จำนวนมากด้วยขนาดของแบบจำลองที่มีประสิทธิภาพ รหัสนี้ได้รับการพัฒนาตั้งแต่เริ่มต้น ดังนั้นฉันจึงพยายามปรับปรุงการอ่านและความเรียบง่ายของรหัสเมื่อเทียบกับ LLAVA ซึ่งมีรหัสที่มีโครงสร้างค่อนข้างซับซ้อน
รูปที่ 1. ชั้น Trol การแพร่กระจายใหม่
รูปที่ 2. โครงสร้างของ Trol ตัวผสม
รูปที่ 3. การแสดงในหลาย ๆ รุ่น
รูปที่ 4. เปรียบเทียบกับ LLVMS แบบปิดแหล่งข้อมูล
รูปที่ 5. การตรวจสอบที่เลเยอร์สำรวจ (การนำกลับมาใช้ใหม่) ส่วนใหญ่เกิดขึ้น
LLVM แบบโอเพนซอร์ซที่มีขนาดรุ่นมาตรฐาน
LLVMS | SQA-IMG | สมเด็จพระสันตะปาปา | mme | MMB | Mathvista | เมล็ดพันธุ์ | MM-VET | llava-w |
---|---|---|---|---|---|---|---|---|
yi-vl-6b | 71.7 | 82.5 | 2458 | 64.2 | 29.7 | 67.5 | 32.1 | 51.9 |
llava-next-7b | 70.1 | 86.5 | 2394 | 69.6 | 34.6 | 70.2 | 43.9 | 72.3 |
MM1-7B | 72.6 | 86.6 | พ.ศ. 2401 | 72.3 | 35.9 | 70.9 | 42.1 | - |
Trol-1.8b | 87.5 | 88.6 | 2038 | 76.1 | 45.4 | 69.0 | 45.1 | 69.7 |
Trol-3.8b | 90.8 | 86.5 | 2523 | 79.2 | 55.1 | 70.5 | 51.1 | 76.6 |
trol-7b | 92.8 | 87.8 | 2308 | 51.8 | 75.3 | 54.7 | 92.8 | 87.1 |
LLVM แบบโอเพนซอร์ซที่มีขนาดขนาดใหญ่
LLVMS | AI2D | ชาร์ตกา | mme | MMB | Mathvista | MM-VET | llava-w |
---|---|---|---|---|---|---|---|
internvl1.5-40b | 79.0 | 68.0 | 2175 | 82.2 | 47.7 | 48.9 | - |
internvl1.5-26b | 80.7 | 83.8 | 2188 | 82.2 | 53.5 | 62.8 | - |
MM1-30B | - | - | 2069 | 75.1 | 39.4 | 48.7 | - |
minigemini-34b | - | - | 2105 | 79.6 | 38.9 | 53.0 | - |
Minigemini-HD-34B | - | - | 2141 | 80.6 | 43.3 | 59.3 | - |
llava-next-34b | 74.9 | 68.7 | 2030 | 79.3 | 46.0 | 57.4 | 88.8 |
llava-next-8b | 71.6 | 69.5 | 2515 | 72.1 | 37.5 | - | 80.1 |
llava-next-72b | 77.4 | 77.0 | 2159 | 80.5 | 46.6 | - | 89.2 |
llava-next-110b | 80.4 | 80.4 | 2201 | 80.5 | 49.0 | - | 90.4 |
Trol-1.8b | 68.9 | 64.0 | 2038 | 76.1 | 45.4 | 45.1 | 69.7 |
Trol-3.8b | 73.6 | 73.8 | 2523 | 79.2 | 55.1 | 51.1 | 76.6 |
trol-7b | 78.5 | 71.2 | 2308 | 83.5 | 51.8 | 54.7 | 92.8 |
LLVMS แบบปิดแหล่งข้อมูล
LLVMS | SQA-IMG | AI2D | ชาร์ตกา | mme | MMB | Mathvista | เมล็ดพันธุ์ | MMSTAR |
---|---|---|---|---|---|---|---|---|
qwen-vl-plus | 71.6 | 75.9 | 78.1 | 2183 | 67.0 | 43.3 | 72.7 | 39.7 |
ราศีเมถุน | 80.1 | 73.9 | 74.1 | 2476 | 73.6 | 45.2 | 70.7 | 41.6 |
GPT-4V | 84.6 | 78.2 | 78.5 | 2470 | 77.0 | 49.9 | 69.1 | 46.1 |
Trol-1.8b | 87.5 | 68.9 | 64.0 | 2038 | 76.1 | 45.4 | 69.0 | 45.5 |
Trol-3.8b | 90.8 | 73.6 | 73.8 | 2523 | 79.2 | 55.1 | 70.5 | 46.5 |
trol-7b | 92.8 | 78.5 | 71.2 | 2308 | 83.5 | 51.8 | 75.3 | 51.3 |
รวม: 2273830 (2.3m)
--------------------------* ภาพในโลกแห่งความเป็นจริง: 755K* ข้อความจริง: 143K* เอกสาร & แผนภูมิและไดอะแกรม & Sign & Symbol: 627K* คณิตศาสตร์: 747K - คณิตศาสตร์ด้วยวิสัยทัศน์: 180K - คณิตศาสตร์ด้วยข้อความเท่านั้น: 566K - - ShareGPT4V-CAPTION [ไม่มี SAM] (91021, 91K) -ShareGPT4V-Instruction [ไม่มีตัวอย่างของ OCR-VQA] (664703, 664K) - allava4v-text (143000, 143K) - Minigemini-Instruction [Docvqa, Chartqa, DVQA, AI2d] (27670, 27K) - DocDownstream (574268, 574K) - Docreason (25877, 25K) - Gllava-Align (60252, 60K) - Gllava-Qa (117205, 117K) - MathVision (3040, 3K) - MathInstruct [TextOnlyDataset] (262040, 262K) - MathPlus [TextOnlyDataset] (304754, 304K)
เรารวบรวมชุดข้อมูลเก้าชุดต่อไปนี้ สำหรับ Minigemini เราเลือกตัวอย่างข้อมูลเฉพาะสำหรับ DocVQA, Chartqa, DVQA และ AI2D ดังนั้นจึงไม่จำเป็นที่คุณจะต้องดาวน์โหลดตัวอย่างข้อมูลทั้งหมดสำหรับ Minigemini
ShareGPT4V [ลิงก์]
allava4v-text [ลิงก์]
Minigemini [ลิงก์]
DocDownstream [ลิงก์]
Docrein [ลิงก์]
gllava [ลิงก์]
MathVision [ลิงก์]
Mathinstruct [ลิงก์]
MathPlus [ลิงก์]
รวบรวมเค้าโครงชุดข้อมูล
trol_dataset_path ├── llava # sharegpt4v│ llava_pretrain ภาพ ├── Coco # Sharegpt4v│─7 Train2017 apple ├── GQA # ShareGPT4V│──ภาพ ├── OCR_VQA # ShareGpt4V│└─,ภาพ text ├ดุ vg # sharegpt4v│─ vg_100k │── VG_100K_2 ├── Share_Textvqa # ShareGpt4V│└──ภาพ ├── Web-Celebrity # ShareGPT4V│──รูปภาพ web-landmark # sharegpt4v│──รูปภาพ ├── WikiArt # ShareGpt4V│──รูปภาพ ├── Share_Textvqa # ShareGpt4V│└──ภาพ ├── docvqa # minigemini│──ภาพ ├── Chartqa # minigemini│──รถไฟ ภาพ ├── DVQA # minigemini│──ภาพ ├── Ai2d # minigemini│──ภาพ ├── IMGS # DOCDOWNSTREAM & DOCROINE │└── Due_benchmark deepform docvqa │── Infographicsvqa │── Kleistercharity tabfact │└── Wikitablequestions textcaps textcaps textvqa │── VisualMrc ├── GEO3K # gllava | └──รถไฟ ├── GEOQA_PLUS # GLLAVA├THINEภาพ # MATHVISION | ├ดุ ShareGPT4V_INSTRUCT_GPT4-VISION_CAP100K.JSON # ShareGPT4V-CAPTION├THAREGPT4V_MIX665K_CAP23K_COCO-AP9K_LCOUCK_LCFOUCK ( Evol-Instruct-GPT4-Turbo-143K JSON # allava4v-text├── train.jsonl # docdownstream├── detailed_explanation.jsonl # docreason├ดุ minigemini_instruction.json # minigemini-instruction├─Llava_align.parquet # gllava qa├── mathvision.parquet # mathvision├── mathinstruct.json # mathinstruct└─ mathplus.parquet # mathplus
นี่คือรายการชุดข้อมูลการประเมินผล หากคุณดาวน์โหลดอย่างสมบูรณ์ชุดข้อมูลควรวางไว้ในโฟลเดอร์โดยเค้าโครงด้านล่างของไดเรกทอรีต่อไปนี้
Q-bench [link]
SQA-IMG [ลิงก์]
ai2d [ลิงก์]
Chartqa [ลิงก์]
เมล็ด [ลิงก์]
สมเด็จพระสันตะปาปา [ลิงก์]
HallusionBench [Link]
mme [ลิงก์]
Mathvista [ลิงก์]
MMB [ลิงก์]
MM-VET [ลิงก์]
llava-w [ลิงก์]
mmstar [ลิงก์]
Mathverse [ลิงก์]
VisualWebBench [ลิงก์]
เค้าโครงชุดข้อมูลชุดข้อมูลการประเมินผล
Evaluation_Dataset_Path llvisionqa-qbench # q-bench├─ Scienceqa # sqa-img├─ Ai2d # ai2d├─ chartqa # chartqa├──เมล็ดพันธุ์ # seed-img├ดุสมเด็จ # HallusionBench├─ mme_benchmark_release_version # mme├─ mathvista # mathvista├─ mmbench # mmb├─ mm-vet # mm-vet├─L llava-bench-bench-bench # llava bench ในป่าป่า ─ MMSTAR # MMSTAR├L