Monyet
TeksMonyet
Monyet Mini
2024.11.27
? Terima kasih kepada Fahd Mirza yang telah berbagi video cara menjalankan Monkey.
2024.8.13
? Kode sumber untuk Mini-Monkey dirilis.
2024.8.6
? Kami merilis kertas Mini-Monkey.
2024.4.13
? Kode bersumber untuk TextMonkey dirilis.
2024.4.5
? Monkey masuk nominasi makalah Highlight CVPR 2024.
2024.3.8
? Kami merilis kertas TextMonkey.
2024.2.27
? Monyet diterima CVPR 2024.
2024.1.3
? Lepaskan alur pembuatan data dasar. Pembuatan Data
2023.11.06
? Kami melepaskan kertas Monyet.
Obrolan Monyet
Model | Model Bahasa | Transformer (HF) | Tes MMBench | CCBench | MME | BenchBench_IMG | MathVista-MiniTest | HalusionBench-Rata-rata | Tes AI2D | Bench OCR |
---|---|---|---|---|---|---|---|---|---|---|
Obrolan Monyet | Qwev-7B | ?echo840/Obrolan Monyet | 72.4 | 48 | 1887.4 | 68.9 | 34.8 | 39.3 | 68.5 | 534 |
Monyet Mini | maganglm2-obrolan-1_8b | Monyet Mini | --- | 75.5 | 1881.9 | 71.3 | 47.3 | 38.7 | 74.7 | 802 |
conda buat -n monyet python=3.9conda aktifkan klon monkeygit https://github.com/Yuliang-Liu/Monkey.gitcd ./Monkeypip install -r persyaratan.txt
Anda dapat mengunduh versi flash_attention yang sesuai dari https://github.com/Dao-AILab/flash-attention/releases/ dan menggunakan kode berikut untuk menginstal:
pip install flash_attn-2.3.5+cu117torch2.0cxx11abiFALSE-cp39-cp39-linux_x86_64.whl --no-build-isolation
Kami juga menawarkan definisi model dan kode pelatihan Monkey, yang dapat Anda jelajahi di atas. Anda dapat menjalankan kode pelatihan dengan menjalankan finetune_ds_debug.sh
untuk Monkey dan finetune_textmonkey.sh
untuk TextMonkey.
File json yang digunakan untuk pelatihan Monkey dapat diunduh di Link.
Jalankan kode inferensi untuk Monkey dan Monkey-Chat:
python ./inference.py --model_path MODEL_PATH --image_path IMAGE_PATH --question "YOUR_QUESTION"
Demo cepat dan mudah digunakan. Cukup unggah gambar dari desktop atau ponsel Anda, atau ambil gambar secara langsung. Demo_chat juga diluncurkan sebagai versi upgrade dari demo asli untuk menghadirkan pengalaman interaktif yang lebih baik.
Kami juga menyediakan kode sumber dan bobot model untuk demo asli, memungkinkan Anda menyesuaikan parameter tertentu untuk pengalaman yang lebih unik. Operasi spesifiknya adalah sebagai berikut:
Pastikan Anda telah mengonfigurasi lingkungan.
Anda dapat memilih untuk menggunakan demo secara offline atau online:
Luring:
python demo.py
Unduh Model Berat.
Ubah DEFAULT_CKPT_PATH="pathto/Monkey"
di file demo.py
ke jalur bobot model Anda.
Jalankan demo menggunakan perintah berikut:
On line:
python demo.py -c echo840/Monkey
Jalankan demo dan unduh model bobot secara online dengan perintah berikut:
Untuk TextMonkey Anda dapat mengunduh bobot model dari Model Weight dan menjalankan kode demo:
python demo_textmonkey.py -c model_path
Sebelum 14/11/2023, kami telah mengamati bahwa untuk beberapa gambar acak, Monyet dapat memperoleh hasil yang lebih akurat daripada GPT4V.
Sebelum 31/1/2024, Monkey-chat meraih peringkat kelima dalam kategori Model Multimodal di OpenCompass.
Anda dapat mengunduh data pelatihan dan pengujian yang digunakan monyet dari Monkey_Data.
File json yang digunakan untuk pelatihan Monkey dapat diunduh di Link.
Data dari metode pembuatan deskripsi multi-level kami kini bersumber terbuka dan tersedia untuk diunduh di Link. Kami sudah mengunggah gambar yang digunakan dalam deskripsi bertingkat. Contoh:
Anda dapat mengunduh gambar kereta Monyet dari Kereta. Kode ekstraksi: 4hdh
Anda dapat mengunduh gambar uji dan jsonl Monkey dari Test. Kode ekstraksi: 5h71
Gambar berasal dari CC3M, COCO Caption, TextCaps, VQAV2, OKVQA, GQA, ScienceQA, VizWiz, TextVQA, OCRVQA, ESTVQA, STVQA, AI2D dan DUE_Benchmark. Saat menggunakan data, protokol dari kumpulan data asli harus dipatuhi.
Kami menawarkan kode evaluasi untuk 14 kumpulan data Visual Question Answering (VQA) di file evaluate_vqa.py
, memfasilitasi verifikasi hasil dengan cepat. Operasi spesifiknya adalah sebagai berikut:
Pastikan Anda telah mengonfigurasi lingkungan.
Ubah sys.path.append("pathto/Monkey")
ke jalur proyek.
Siapkan kumpulan data yang diperlukan untuk evaluasi.
Jalankan kode evaluasi.
Ambil ESTVQA sebagai contoh:
Siapkan data sesuai dengan struktur direktori berikut:
├── data | ├── estvqa | ├── test_image | ├── {image_path0} | ├── {image_path1} | · | · | ├── estvqa.jsonl
Contoh format setiap baris file .jsonl
yang diberi anotasi:
{"image": "data/estvqa/test_image/011364.jpg", "question": "What is this store?", "answer": "pizzeria", "question_id": 0}
Ubah kamus ds_collections
:
ds_collections = { 'estvqa_test': { 'test': 'data/estvqa/estvqa.jsonl', 'metric': 'anls', 'max_new_tokens': 100, }, ... }
Jalankan perintah berikut:
bash eval/eval.sh 'EVAL_PTH' 'SAVE_NAME'
Jika Anda ingin merujuk pada hasil dasar yang dipublikasikan di sini, silakan gunakan entri BibTeX berikut:
@inproceedings{li2023monkey, title={Monyet: Resolusi Gambar dan Label Teks Penting untuk Model Multimodal Besar}, author={Li, Zhang dan Yang, Biao dan Liu, Qiang dan Ma, Zhiyin dan Zhang, Shuo dan Yang , Jingxu dan Sun, Yabo dan Liu, Yuliang dan Bai, Xiang}, booktitle={prosiding konferensi IEEE/CVF tentang visi komputer dan pengenalan pola}, year={2024}}@article{liu2024textmonkey, title={TextMonkey: Model Multimodal Besar Bebas OCR untuk Memahami Dokumen}, author={Liu, Yuliang dan Yang, Biao dan Liu, Qiang dan Li, Zhang dan Ma, Zhiyin dan Zhang, Shuo dan Bai, Xiang}, jurnal={arXiv pracetak arXiv:2403.04473}, year={2024}}@article{huang2024mini, title={Monyet Mini: Pemangkasan Adaptif Multi-Skala untuk Model Bahasa Besar Multimodal}, author={Huang, Mingxin dan Liu, Yuliang dan Liang, Dingkang dan Jin, Lianwen dan Bai , Xiang}, jurnal={arXiv pracetak arXiv:2408.02034}, year={2024}}@article{deng2024r, title={R-CoT: Pembuatan Masalah Rantai Pemikiran Terbalik untuk Penalaran Geometris dalam Model Multimodal Besar}, author={Deng, Linger dan Liu, Yuliang dan Li, Bohan dan Luo, Dongliang dan Wu, Liang dan Zhang, Chengquan dan Lyu, Pengyuan dan Zhang, Ziyang dan Zhang, Gang dan Ding, Errui dan lainnya}, journal={arXiv preprint arXiv:2410.17885}, tahun={2024}}
Seri Monkey terutama berfokus pada eksplorasi teknik seperti peningkatan resolusi gambar dan metode kompresi token untuk meningkatkan kinerja model besar multimodal yang ada. Misalnya, versi sebelumnya dari Monkey dan TextMonkey didasarkan pada QwenVL, sedangkan MiniMonkey didasarkan pada InternVL2 dan miniCPM, antara lain. Terima kasih kepada Qwen-VL, LLAMA, LLaVA, OpenCompass, InternLM, dan InternVL.
Proyek monyet ditujukan untuk penggunaan non-komersial saja. Untuk pertanyaan komersial atau untuk menjelajahi versi lebih lanjut dari LMM seri Monkey (<1b, 2b, 7b, 72b), silakan hubungi Prof. Yuliang Liu di [email protected].