قرد
TextMonkey
قرد صغير
2024.11.27
؟ شكرًا لفهد ميرزا لمشاركته مقطع فيديو حول كيفية تشغيل Monkey.
2024.8.13
؟ تم إصدار الكود المصدري لـ Mini-Monkey.
2024.8.6
؟ نحرر ورقة Mini-Monkey.
2024.4.13
؟ تم إصدار الكود المصدري لـ TextMonkey.
2024.4.5
؟ تم ترشيح Monkey كورقة تسليط الضوء على CVPR 2024.
2024.3.8
؟ نقوم بإصدار الورقة TextMonkey.
2024.2.27
؟ تم قبول القرد بواسطة CVPR 2024.
2024.1.3
؟ الافراج عن خط أنابيب توليد البيانات الأساسية. توليد البيانات
2023.11.06
؟ نحرر القرد الورقي.
قرد الدردشة
نموذج | نموذج اللغة | المحولات (HF) | اختبار MMBench | CCBench | وزارة البلدية والبيئة | SeedBench_IMG | MathVista-MiniTest | HallusionBench-Avg | اختبار الذكاء الاصطناعي 2D | OCRBench |
---|---|---|---|---|---|---|---|---|---|---|
قرد الدردشة | كويف-7ب | ?echo840/القرد الدردشة | 72.4 | 48 | 1887.4 | 68.9 | 34.8 | 39.3 | 68.5 | 534 |
قرد صغير | interlm2-chat-1_8b | قرد صغير | --- | 75.5 | 1881.9 | 71.3 | 47.3 | 38.7 | 74.7 | 802 |
كوندا إنشاء -n قرد python=3.9conda تنشيط استنساخ القرد https://github.com/Yuliang-Liu/Monkey.gitcd ./Monkeypip تثبيت متطلبات -r.txt
يمكنك تنزيل الإصدار المقابل من flash_attention من https://github.com/Dao-AILab/flash-attention/releases/ واستخدام الكود التالي للتثبيت:
تثبيت النقطة flash_attn-2.3.5+cu117torch2.0cxx11abiFALSE-cp39-cp39-linux_x86_64.whl --no-build-isolation
نقدم أيضًا تعريفًا لنموذج Monkey وكود التدريب، والذي يمكنك استكشافه أعلاه. يمكنك تنفيذ التعليمات البرمجية التدريبية من خلال تنفيذ finetune_ds_debug.sh
لـ Monkey و finetune_textmonkey.sh
لـ TextMonkey.
يمكن تنزيل ملف json المستخدم لتدريب Monkey على الرابط.
قم بتشغيل رمز الاستدلال لـ Monkey وMonkey-Chat:
python ./inference.py --model_path MODEL_PATH --image_path IMAGE_PATH --question "YOUR_QUESTION"
العرض التجريبي سريع وسهل الاستخدام. ما عليك سوى تحميل صورة من سطح المكتب أو الهاتف، أو التقاط صورة مباشرة. تم إطلاق Demo_chat أيضًا كنسخة مطورة من الإصدار التجريبي الأصلي لتقديم تجربة تفاعلية محسنة.
نحن نوفر أيضًا الكود المصدري ووزن النموذج للعرض التوضيحي الأصلي، مما يسمح لك بتخصيص معلمات معينة للحصول على تجربة فريدة أكثر. العمليات المحددة هي كما يلي:
تأكد من تكوين البيئة.
يمكنك اختيار استخدام العرض التجريبي دون الاتصال بالإنترنت أو عبر الإنترنت:
غير متصل:
python demo.py
تحميل الوزن النموذجي.
قم بتعديل DEFAULT_CKPT_PATH="pathto/Monkey"
في ملف demo.py
إلى مسار وزن النموذج الخاص بك.
قم بتشغيل العرض التوضيحي باستخدام الأمر التالي:
متصل:
python demo.py -c echo840/Monkey
قم بتشغيل العرض التوضيحي وتنزيل أوزان النماذج عبر الإنترنت باستخدام الأمر التالي:
بالنسبة إلى TextMonkey، يمكنك تنزيل وزن النموذج من Model Weight وتشغيل الكود التجريبي:
بايثون demo_textmonkey.py -c model_path
قبل 14/11/2023، لاحظنا أنه بالنسبة لبعض الصور العشوائية، يمكن للقرد تحقيق نتائج أكثر دقة من GPT4V.
قبل 31/1/2024 حصلت Monkey-chat على المركز الخامس في فئة النماذج المتعددة الوسائط على OpenCompass.
يمكنك تنزيل بيانات التدريب والاختبار التي يستخدمها القرد من Monkey_Data.
يمكن تنزيل ملف json المستخدم لتدريب Monkey على الرابط.
أصبحت البيانات من طريقة إنشاء الوصف متعدد المستويات الخاصة بنا الآن مفتوحة المصدر ومتاحة للتنزيل على الرابط. لقد قمنا بالفعل بتحميل الصور المستخدمة في الوصف متعدد المستويات. أمثلة:
يمكنك تنزيل صور قطار القرد من القطار. رمز الاستخراج: 4hdh
يمكنك تنزيل صور الاختبار وjsonls of Monkey من Test. رمز الاستخراج: 5h71
الصور مأخوذة من CC3M وCOCO Caption وTextCaps وVQAV2 وOKVQA وGQA وScienceQA وVizWiz وTextVQA وOCRVQA وESTVQA وSTVQA وAI2D وDUE_Benchmark. عند استخدام البيانات، من الضروري الالتزام ببروتوكولات مجموعة البيانات الأصلية.
نحن نقدم رمز تقييم لـ 14 مجموعة بيانات للإجابة على الأسئلة المرئية (VQA) في ملف evaluate_vqa.py
، مما يسهل التحقق السريع من النتائج. العمليات المحددة هي كما يلي:
تأكد من تكوين البيئة.
قم بتعديل sys.path.append("pathto/Monkey")
إلى مسار المشروع.
إعداد مجموعات البيانات المطلوبة للتقييم.
قم بتشغيل رمز التقييم.
خذ ESTVQA كمثال:
قم بإعداد البيانات وفقًا لبنية الدليل التالية:
├── data | ├── estvqa | ├── test_image | ├── {image_path0} | ├── {image_path1} | · | · | ├── estvqa.jsonl
مثال على تنسيق كل سطر من ملف .jsonl
المشروح:
{"image": "data/estvqa/test_image/011364.jpg", "question": "What is this store?", "answer": "pizzeria", "question_id": 0}
تعديل القاموس ds_collections
:
ds_collections = { 'estvqa_test': { 'test': 'data/estvqa/estvqa.jsonl', 'metric': 'anls', 'max_new_tokens': 100, }, ... }
قم بتشغيل الأمر التالي:
bash eval/eval.sh 'EVAL_PTH' 'SAVE_NAME'
إذا كنت ترغب في الرجوع إلى النتائج الأساسية المنشورة هنا، يرجى استخدام إدخالات BibTeX التالية:
@inproceedings{li2023monkey, title={القرد: دقة الصورة وتسمية النص أمران مهمان للنماذج الكبيرة متعددة الوسائط}، المؤلف={Li, Zhang and Yang, Biao and Liu, Qiang and Ma, Zhiyin and Zhang, Shuo and Yang , Jingxu and Sun, Yabo and Liu, Yuliang and Bai, Xiang}، عنوان الكتاب = {وقائع مؤتمر IEEE/CVF حول رؤية الكمبيوتر والتعرف على الأنماط}, year={2024}}@article{liu2024textmonkey, title={TextMonkey: نموذج متعدد الوسائط كبير خالٍ من التعرف الضوئي على الحروف لفهم المستند}، المؤلف={Liu, Yuliang and Yang, Biao and Liu, Qiang and Li, Zhang and Ma، Zhiyin and Zhang، Shuo and Bai، Xiang}، Journal={arXiv preprint arXiv:2403.04473}, year={2024}}@article{huang2024mini, title={Mini-Monkey: الاقتصاص التكيفي متعدد المقاييس لنماذج اللغات الكبيرة متعددة الوسائط}، المؤلف={Huang, Mingxin and Liu, Yuliang and Liang, Dingkang and جين، ليانوين وباي، شيانغ}، مجلة = {arXiv نسخة أولية arXiv:2408.02034}, year={2024}}@article{deng2024r, title={R-CoT: توليد مشكلة تسلسل التفكير العكسي للاستدلال الهندسي في النماذج الكبيرة متعددة الوسائط}، المؤلف={Deng, Linger and Liu, Yuliang و لي، بوهان و لوه، دونغليانغ و وو، ليانغ و تشانغ، تشينغكوان و ليو، بينغيوان و تشانغ، Ziyang and Zhang، Gang and Ding، Errui وآخرون}، مجلة = {arXiv preprint arXiv:2410.17885}، year={2024}}
تركز سلسلة Monkey في المقام الأول على استكشاف تقنيات مثل تحسين دقة الصورة وطرق ضغط الرمز المميز لتحسين أداء النماذج الكبيرة متعددة الوسائط الحالية. على سبيل المثال، الإصدارات السابقة من Monkey وTextMonkey كانت تعتمد على QwenVL، في حين أن MiniMonkey يعتمد على InternVL2 وminiCPM وغيرها. بفضل Qwen-VL، وLLAMA، وLLaVA، وOpenCompass، وInternLM، وInternVL.
مشروع القرد مخصص للاستخدام غير التجاري فقط. للاستفسارات التجارية أو لاستكشاف إصدارات أكثر تقدمًا من سلسلة Monkey LMMs (<1b, 2b, 7b, 72b)، يرجى الاتصال بالبروفيسور يوليانج ليو على [email protected].