Unduh mPLUG DocOwl - unduh kode sumber mPLUG DocOwl

mPLUG DocOwl

Kode sumber lainnya

Unduh

Keluarga LLM Multimodal yang Kuat
untuk Pemahaman Dokumen bebas OCR

Grup Alibaba

Berita

[2024.9.28] Kami telah merilis data pelatihan, kode inferensi, dan kode evaluasi DocOwl2 di HuggingFace ? dan ModelScope .
[2024.9.20] Makalah kami DocOwl 1.5 dan TinyChart diterima oleh EMNLP 2024.
[2024.9.06] Kami merilis makalah arxiv mPLUG-DocOwl 2, LLM Multimodal SOTA 8B pada Pemahaman Dokumen Multihalaman bebas OCR, setiap gambar dokumen dikodekan hanya dengan 324 token!
[2024.7.16] Makalah kami PaperOwl diterima oleh ACM MM 2024.
[2024.5.08] Kami telah merilis kode pelatihan DocOwl1.5 yang didukung oleh DeepSpeed. Anda sekarang dapat menyempurnakan model yang lebih kuat berdasarkan DocOwl1.5!
[2024.4.26] Kami merilis makalah arxiv TinyChart, LLM Multimodal SOTA 3B untuk Pemahaman Bagan dengan kemampuan Program-of-Throught (ChartQA: 83.6 > Gemin-Ultra 80.8 > GPT4V 78.5). Demo TinyChart tersedia di HuggingFace?. Baik kode, model, dan data dirilis di TinyChart.
[2024.4.3] Kami membuat demo DocOwl1.5 di ModelScope dan HuggingFace?, didukung oleh DocOwl1.5-Omni. Kode sumber peluncuran demo lokal juga dirilis di DocOwl1.5.
[2024.3.28] Kami merilis data pelatihan (DocStruct4M, DocDownstream-1.0, DocReason25K), kode dan model (DocOwl1.5-stage1, DocOwl1.5, DocOwl1.5-Chat, DocOwl1.5-Omni) dari mPLUG-DocOwl 1,5 di kedua HuggingFace ? dan ModelScope .
[2024.3.20] Kami merilis makalah arxiv mPLUG-DocOwl 1.5, LLM Multimodal SOTA 8B tentang Pemahaman Dokumen bebas OCR (DocVQA 82.2, InfoVQA 50.7, ChartQA 70.2, TextVQA 68.6).
[2024.01.13] Kumpulan data Analisis Diagram Ilmiah kami M-Paper telah tersedia di HuggingFace ? dan ModelScope , berisi 447k gambar diagram resolusi tinggi dan analisis paragraf yang sesuai.
[2023.10.13] Data pelatihan, model mPLUG-DocOwl/UReader telah bersumber terbuka.
[2023.10.10] Makalah kami UReader diterima oleh EMNLP 2023.

[2023.07.10] Demo mPLUG-DocOwl di ModelScope tersedia.
[2023.07.07] Kami merilis laporan teknis dan kumpulan evaluasi mPLUG-DocOwl.

Model

mPLUG-DocOwl2 (Arxiv 2024) - mPLUG-DocOwl2: Kompresi Resolusi Tinggi untuk Pemahaman Dokumen Multi-halaman bebas OCR
mPLUG-DocOwl1.5 (EMNLP 2024) - mPLUG-DocOwl 1.5: Pembelajaran Struktur Terpadu untuk Pemahaman Dokumen bebas OCR
TinyChart (EMNLP 2024) - TinyChart: Pemahaman Bagan yang Efisien dengan Penggabungan Token Visual dan Pembelajaran Program Pemikiran
mPLUG-PaperOwl (ACM MM 2024) - mPLUG-PaperOwl: Analisis Diagram Ilmiah dengan Model Bahasa Besar Multimodal
UReader (EMNLP 2023) - UReader: Pemahaman Bahasa Visual Bebas OCR Universal dengan Model Bahasa Besar Multimodal
mPLUG-DocOwl (Arxiv 2023) - mPLUG-DocOwl: Model Bahasa Besar Multimodal Termodulasi untuk Pemahaman Dokumen