ลิง
ข้อความลิง
มินิลิง
2024.11.27
? ขอขอบคุณ Fahd Mirza สำหรับการแชร์วิดีโอเกี่ยวกับวิธีการเรียกใช้ Monkey
2024.8.13
? ซอร์สโค้ดสำหรับ Mini-Monkey ได้รับการเผยแพร่แล้ว
2024.8.6
? เราปล่อยกระดาษ Mini-Monkey
2024.4.13
? ซอร์สโค้ดสำหรับ TextMonkey ได้รับการเผยแพร่แล้ว
2024.4.5
? Monkey ได้รับการเสนอชื่อให้เป็น CVPR 2024 Highlight paper
2024.3.8
? เราเผยแพร่กระดาษ TextMonkey
2024.2.27
? Monkey ได้รับการยอมรับจาก CVPR 2024
2024.1.3
? ปล่อยไปป์ไลน์การสร้างข้อมูลพื้นฐาน การสร้างข้อมูล
2023.11.06
? เราปล่อยลิงกระดาษ
ลิงแชท
แบบอย่าง | แบบจำลองภาษา | หม้อแปลงไฟฟ้า(HF) | MMBench-Test | ซีซีเบนช์ | เอ็มเอ็มอี | SeedBench_IMG | MathVista-MiniTest | HallusionBench-Avg | การทดสอบ AI2D | OCRBench |
---|---|---|---|---|---|---|---|---|---|---|
ลิงแชท | คิวเวฟ-7B | ?echo840/ลิง-แชท | 72.4 | 48 | 1887.4 | 68.9 | 34.8 | 39.3 | 68.5 | 534 |
มินิลิง | internlm2-chat-1_8b | มินิลิง | - | 75.5 | 1881.9 | 71.3 | 47.3 | 38.7 | 74.7 | 802 |
conda create -n Monkey python=3.9conda เปิดใช้งาน Monkeygit clone https://github.com/Yuliang-Liu/Monkey.gitcd ./Monkeypip ติดตั้ง -r needs.txt
คุณสามารถดาวน์โหลด flash_attention เวอร์ชันที่เกี่ยวข้องได้จาก https://github.com/Dao-AILab/flash-attention/releases/ และใช้โค้ดต่อไปนี้เพื่อติดตั้ง:
pip ติดตั้ง flash_attn-2.3.5+cu117torch2.0cxx11abiFALSE-cp39-cp39-linux_x86_64.whl --no-build-isolation
นอกจากนี้เรายังเสนอคำจำกัดความโมเดลและโค้ดการฝึกอบรมของ Monkey ซึ่งคุณสามารถสำรวจด้านบนได้ คุณสามารถรันโค้ดการฝึกอบรมผ่านการรัน finetune_ds_debug.sh
สำหรับ Monkey และ finetune_textmonkey.sh
สำหรับ TextMonkey
ไฟล์ json ที่ใช้ฝึก Monkey สามารถดาวน์โหลดได้ที่ Link
เรียกใช้โค้ดการอนุมานสำหรับ Monkey และ Monkey-Chat:
python ./inference.py --model_path MODEL_PATH --image_path IMAGE_PATH --question "YOUR_QUESTION"
การสาธิตนั้นรวดเร็วและใช้งานง่าย เพียงอัปโหลดภาพจากเดสก์ท็อปหรือโทรศัพท์ของคุณ หรือจับภาพโดยตรง Demo_chat ยังเปิดตัวเป็นเวอร์ชันอัปเกรดของการสาธิตดั้งเดิมเพื่อมอบประสบการณ์การโต้ตอบที่ได้รับการปรับปรุง
นอกจากนี้เรายังจัดเตรียมซอร์สโค้ดและน้ำหนักโมเดลสำหรับการสาธิตดั้งเดิม เพื่อให้คุณปรับแต่งพารามิเตอร์บางอย่างเพื่อประสบการณ์ที่ไม่เหมือนใครยิ่งขึ้น การดำเนินการเฉพาะมีดังนี้:
ตรวจสอบให้แน่ใจว่าคุณได้กำหนดค่าสภาพแวดล้อมแล้ว
คุณสามารถเลือกใช้การสาธิตแบบออฟไลน์หรือออนไลน์:
ออฟไลน์:
python demo.py
ดาวน์โหลดน้ำหนักโมเดล
แก้ไข DEFAULT_CKPT_PATH="pathto/Monkey"
ในไฟล์ demo.py
เป็นพาธน้ำหนักโมเดลของคุณ
รันการสาธิตโดยใช้คำสั่งต่อไปนี้:
ออนไลน์:
python demo.py -c echo840/Monkey
เรียกใช้การสาธิตและดาวน์โหลดตุ้มน้ำหนักโมเดลออนไลน์ด้วยคำสั่งต่อไปนี้:
สำหรับ TextMonkey คุณสามารถดาวน์โหลดน้ำหนักโมเดลได้จาก Model Weight และรันโค้ดสาธิต:
หลาม demo_textmonkey.py -c model_path
ก่อนวันที่ 14/11/2023 เราสังเกตว่าสำหรับรูปภาพสุ่มบางภาพ Monkey สามารถให้ผลลัพธ์ที่แม่นยำมากกว่า GPT4V
ก่อนวันที่ 31/1/2024 Monkey-chat คว้าอันดับที่ 5 ในประเภท Multimodal Model บน OpenCompass
คุณสามารถดาวน์โหลดข้อมูลการฝึกอบรมและการทดสอบที่ใช้โดย Monkey ได้จาก Monkey_Data
ไฟล์ json ที่ใช้ฝึก Monkey สามารถดาวน์โหลดได้ที่ Link
ข้อมูลจากวิธีสร้างคำอธิบายหลายระดับของเราเป็นโอเพ่นซอร์สแล้วและสามารถดาวน์โหลดได้ที่ลิงก์ เราได้อัปโหลดรูปภาพที่ใช้ในคำอธิบายหลายระดับแล้ว ตัวอย่าง:
คุณสามารถดาวน์โหลดภาพรถไฟของ Monkey ได้จาก Train รหัสการสกัด: 4hdh
คุณสามารถดาวน์โหลดรูปภาพทดสอบและ jsonls ของ Monkey ได้จาก Test รหัสการสกัด: 5h71
รูปภาพมาจาก CC3M, COCO Caption, TextCaps, VQAV2, OKVQA, GQA, ScienceQA, VizWiz, TextVQA, OCRVQA, ESTVQA, STVQA, AI2D และ DUE_Benchmark เมื่อใช้ข้อมูล จำเป็นต้องปฏิบัติตามโปรโตคอลของชุดข้อมูลต้นฉบับ
เรานำเสนอโค้ดการประเมินผลสำหรับชุดข้อมูล Visual Question Answering (VQA) 14 ชุดในไฟล์ evaluate_vqa.py
ซึ่งอำนวยความสะดวกในการตรวจสอบผลลัพธ์อย่างรวดเร็ว การดำเนินการเฉพาะมีดังนี้:
ตรวจสอบให้แน่ใจว่าคุณได้กำหนดค่าสภาพแวดล้อมแล้ว
แก้ไข sys.path.append("pathto/Monkey")
ให้กับเส้นทางโปรเจ็กต์
เตรียมชุดข้อมูลที่จำเป็นสำหรับการประเมิน
เรียกใช้โค้ดการประเมินผล
ใช้ ESTVQA เป็นตัวอย่าง:
เตรียมข้อมูลตามโครงสร้างไดเร็กทอรีต่อไปนี้:
├── data | ├── estvqa | ├── test_image | ├── {image_path0} | ├── {image_path1} | · | · | ├── estvqa.jsonl
ตัวอย่างรูปแบบของแต่ละบรรทัดของไฟล์ .jsonl
ที่มีคำอธิบายประกอบ:
{"image": "data/estvqa/test_image/011364.jpg", "question": "What is this store?", "answer": "pizzeria", "question_id": 0}
แก้ไขพจนานุกรม ds_collections
:
ds_collections = { 'estvqa_test': { 'test': 'data/estvqa/estvqa.jsonl', 'metric': 'anls', 'max_new_tokens': 100, }, ... }
รันคำสั่งต่อไปนี้:
bash eval/eval.sh 'EVAL_PTH' 'SAVE_NAME'
หากคุณต้องการอ้างอิงถึงผลลัพธ์พื้นฐานที่เผยแพร่ที่นี่ โปรดใช้รายการ BibTeX ต่อไปนี้:
@inproceedings{li2023monkey, title={Monkey: ความละเอียดของรูปภาพและป้ายกำกับข้อความเป็นสิ่งสำคัญสำหรับโมเดลหลายรูปแบบขนาดใหญ่}, ผู้แต่ง={Li, Zhang และ Yang, Biao และ Liu, Qiang และ Ma, Zhiyin และ Zhang, Shuo และ Yang , Jingxu และ Sun, Yabo และ Liu, Yuliang และ Bai, Xiang}, booktitle={การดำเนินการของการประชุม IEEE/CVF เรื่องคอมพิวเตอร์วิทัศน์และรูปแบบ Recognition}, year={2024}}@article{liu2024textmonkey, title={TextMonkey: An OCR-Free Large Multimodal Model forความเข้าใจเอกสาร}, author={Liu, Yuliang และ Yang, Biao และ Liu, Qiang และ Li, Zhang และ Ma, Zhiyin และ Zhang, Shuo และ Bai, Xiang}, วารสาร={arXiv preprint arXiv:2403.04473}, year={2024}}@article{huang2024mini, title={Mini-Monkey: Multi-Scale Adaptive Cropping for Multimodal Large Language Models}, author={Huang, Mingxin and Liu, Yuliang และ Liang, Dingkang และ Jin, Lianwen และ Bai , Xiang}, วารสาร={arXiv พิมพ์ล่วงหน้า arXiv:2408.02034}, year={2024}}@article{deng2024r, title={R-CoT: Reverse Chain-of-Thought Problem Generation for Geometric Reasoning in Large Multimodal Models}, author={Deng, Linger and Liu, Yuliang และ Li, Bohan และ Luo, Dongliang และ Wu, Liang และ Zhang, Chengquan และ Lyu, Pengyuan และ Zhang, Ziyang และ Zhang, Gang และ Ding, Errui และอื่น ๆ} วารสาร={arXiv พิมพ์ล่วงหน้า arXiv:2410.17885}, ปี={2024}}
ซีรีส์ Monkey มุ่งเน้นไปที่การสำรวจเทคนิคต่างๆ เช่น การเพิ่มความละเอียดของภาพ และวิธีการบีบอัดโทเค็น เพื่อปรับปรุงประสิทธิภาพของโมเดลขนาดใหญ่หลายรูปแบบที่มีอยู่ ตัวอย่างเช่น Monkey และ TextMonkey เวอร์ชันก่อนหน้าใช้ QwenVL ในขณะที่ MiniMonkey ใช้ InternVL2 และ miniCPM และอื่นๆ ขอขอบคุณ Qwen-VL, LLAMA, LLaVA, OpenCompass, InternLM และ InternVL
โครงการ Monkey มีไว้สำหรับการใช้งานที่ไม่ใช่เชิงพาณิชย์เท่านั้น หากต้องการสอบถามข้อมูลเชิงพาณิชย์หรือต้องการสำรวจ LMM ซีรีส์ Monkey เวอร์ชันขั้นสูง (<1b, 2b, 7b, 72b) โปรดติดต่อ Prof. Yuliang Liu ที่ [email protected]