猴
文字猴子
迷你猴子
2024.11.27
?感謝 Fahd Mirza 分享有關如何運行 Monkey 的影片。
2024.8.13
? Mini-Monkey 的原始碼已發布。
2024.8.6
?我們發布了《迷你猴子》論文。
2024.4.13
? TextMonkey 的原始碼已發布。
2024.4.5
? Monkey 被提名為 CVPR 2024 亮點論文。
2024.3.8
?我們發布了論文 TextMonkey。
2024.2.27
? Monkey 已被 CVPR 2024 接受。
2024.1.3
?發布基礎數據生成管道。數據生成
2023.11.06
?我們發布了論文《猴子》。
猴子聊天
模型 | 語言模型 | 變壓器(高頻) | MMBench測試 | CC基準測試 | 微機電系統 | SeedBench_IMG | MathVista-MiniTest | 幻覺基準平均 | AI2D測試 | OCRBench |
---|---|---|---|---|---|---|---|---|---|---|
猴子聊天 | Qwev-7B | ?echo840/猴子聊天 | 72.4 | 48 | 1887.4 | 68.9 | 34.8 | 39.3 | 68.5 | 第534章 |
迷你猴子 | internlm2-chat-1_8b | 迷你猴子 | --- | 75.5 | 1881.9 | 71.3 | 47.3 | 38.7 | 74.7 | 802 |
conda create -n Monkey python=3.9conda啟動monkeygit克隆 https://github.com/Yuliang-Liu/Monkey.gitcd ./Monkeypip install -rrequirements.txt
您可以從https://github.com/Dao-AILab/flash-attention/releases/下載對應版本的flash_attention,並使用下列程式碼進行安裝:
pip install flash_attn-2.3.5+cu117torch2.0cxx11abiFALSE-cp39-cp39-linux_x86_64.whl --no-build-isolation
我們還提供 Monkey 的模型定義和訓練程式碼,您可以在上面進行探索。您可以透過對 Monkey 執行finetune_ds_debug.sh
和對 TextMonkey 執行finetune_textmonkey.sh
來執行訓練程式碼。
用於 Monkey 訓練的 json 檔案可以在連結下載。
運行 Monkey 和 Monkey-Chat 的推理程式碼:
python ./inference.py --model_path MODEL_PATH --image_path IMAGE_PATH --question "YOUR_QUESTION"
演示快速且易於使用。只需從桌面或手機上傳影像,或直接擷取影像即可。 Demo_chat 也作為原始演示的升級版本推出,以提供增強的互動體驗。
我們還提供原始演示的原始程式碼和模型權重,可讓您自訂某些參數以獲得更獨特的體驗。具體操作如下:
確保您已經配置好環境。
您可以選擇離線或線上使用演示:
離線:
python demo.py
下載模型重量。
將demo.py
檔案中的DEFAULT_CKPT_PATH="pathto/Monkey"
修改為您的模型權重路徑。
使用以下命令運行演示:
在線的:
python demo.py -c echo840/Monkey
使用以下命令運行演示並在線下載模型權重:
對於 TextMonkey,您可以從 Model Weight 下載模型權重並執行示範程式碼:
python demo_textmonkey.py -c model_path
在2023年11月14日之前,我們觀察到一些隨機圖片,Monkey可以得到比GPT4V更準確的結果。
2024 年 1 月 31 日之前,Monkey-chat 在 OpenCompass 的多模式模型類別中排名第五。
您可以從Monkey_Data下載monkey使用的訓練和測試資料。
用於 Monkey 訓練的 json 檔案可以在連結下載。
我們的多層描述產生方法的資料現已開源,可在連結下載。我們已經上傳了多層描述中使用的圖像。範例:
您可以從 Train 下載 Monkey 的火車映像。提取碼:4hdh
您可以從 Test 下載 Monkey 的測試映像檔和 jsonls。提取碼:5h71
圖片來自 CC3M、COCO Caption、TextCaps、VQAV2、OKVQA、GQA、ScienceQA、VizWiz、TextVQA、OCRVQA、ESTVQA、STVQA、AI2D 和 DUE_Benchmark。使用數據時,需要遵守原始數據集的協議。
我們在evaluate_vqa.py
檔案中提供了14個視覺問答(VQA)資料集的評估程式碼,以便於快速驗證結果。 具體操作如下:
確保您已經配置好環境。
修改sys.path.append("pathto/Monkey")
為專案路徑。
準備評估所需的資料集。
運行評估代碼。
以ESTVQA為例:
依照以下目錄結構準備資料:
├── data | ├── estvqa | ├── test_image | ├── {image_path0} | ├── {image_path1} | · | · | ├── estvqa.jsonl
附註解的.jsonl
檔案每行的格式範例:
{"image": "data/estvqa/test_image/011364.jpg", "question": "What is this store?", "answer": "pizzeria", "question_id": 0}
修改字典ds_collections
:
ds_collections = { 'estvqa_test': { 'test': 'data/estvqa/estvqa.jsonl', 'metric': 'anls', 'max_new_tokens': 100, }, ... }
運行以下命令:
bash eval/eval.sh 'EVAL_PTH' 'SAVE_NAME'
如果您想參考此處發布的基線結果,請使用以下 BibTeX 條目:
@inproceedings{li2023monkey,title={Monkey:圖像解析度和文字標籤對於大型多模態模型來說很重要},author={Li、Zhang 和Yang、Biao 和Liu、Qiang 和Ma、Zhiyin 和Zhang、Shuo和Yang ,Jingxu 和 Sun,Yabo 和 Liu,Yuliang 和 Bai,Xiang},booktitle={IEEE/CVF 計算機視覺與模式識別會議論文集},year={2024}}@article{liu2024textmonkey,title={TextMonkey: An OCR-Free Large Multimodal Model for Understanding Document},作者={Liu,Yuliang and Yang,Biao and Liu,Qiang and Li,Zhang and Ma,Zhiyin and Zhang,Shuo and Bai,Xiang},journal={arXiv預印本arXiv :2403.04473},year={2024}}@article{huang2024mini,title={Mini-Monkey:多模態大語言模型的多尺度自適應裁切},作者={Huang,Mingxin和Liu,Yuliang和Liang, Dingkang和Jin ,Lianwen 和Bai,Xiang},journal={arXiv 預印本arXiv:2408.02034},year={2024}}@article{deng2024r,title={R-CoT:大型多模態幾何推理的反向思想鏈問題生成模型},作者={鄧、林兒與劉、玉良與李、博涵與羅、棟樑與吳、樑與張、成全與呂、彭遠與張、紫陽與張、剛與丁、二瑞等},期刊={arXiv 預印本 arXiv:2410.17885},年份={2024}}
Monkey系列主要致力於探索影像解析度增強和令牌壓縮方法等技術,以提高現有多模態大型模型的效能。例如,早期版本的 Monkey 和 TextMonkey 是基於 QwenVL,而 MiniMonkey 基於 InternVL2 和 miniCPM 等。感謝 Qwen-VL、LLAMA、LLaVA、OpenCompass、InternLM 和 InternVL。
Monkey 專案僅供非商業用途。如需商業諮詢或探索 Monkey 系列 LMM(<1b、2b、7b、72b)的更高級版本,請聯絡 Yuliang Liu 教授,電子郵件:[email protected]。