เพื่อการทำความเข้าใจเอกสารที่ปราศจาก OCR
[2024.9.28] เราได้เผยแพร่ข้อมูลการฝึกอบรม โค้ดการอนุมาน และโค้ดการประเมินผลของ DocOwl2 บน HuggingFace ทั้งสอง ? และ โมเดลสโคป
[2024.9.20] เอกสาร DocOwl 1.5 และ TinyChart ของเราได้รับการยอมรับโดย EMNLP 2024
[2024.9.06] เราเผยแพร่เอกสาร arxiv ของ mPLUG-DocOwl 2 ซึ่งเป็น SOTA 8B Multimodal LLM ที่มีการทำความเข้าใจเอกสารหลายหน้าแบบไร้ OCR โดยแต่ละภาพในเอกสารจะถูกเข้ารหัสด้วยโทเค็นเพียง 324 รายการ!
[2024.7.16] PaperOwl ของเราได้รับการยอมรับจาก ACM MM 2024
[2024.5.08] เราได้เผยแพร่โค้ดการฝึกอบรมของ DocOwl1.5 ซึ่งรองรับโดย DeepSpeed ตอนนี้คุณสามารถปรับแต่งโมเดลที่แข็งแกร่งขึ้นโดยใช้ DocOwl1.5 ได้แล้ว!
[2024.4.26] เราเผยแพร่รายงาน arxiv ของ TinyChart ซึ่งเป็น SOTA 3B Multimodal LLM สำหรับการทำความเข้าใจแผนภูมิด้วยความสามารถ Program-of-Throught (ChartQA: 83.6 > Gemin-Ultra 80.8 > GPT4V 78.5) การสาธิต TinyChart มีอยู่ใน HuggingFace ? ทั้งรหัส โมเดล และข้อมูลได้รับการเผยแพร่ใน TinyChart
[2024.4.3] เราสร้างการสาธิต DocOwl1.5 บนทั้ง ModelScope และ HuggingFace ? ซึ่งสนับสนุนโดย DocOwl1.5-Omni ซอร์สโค้ดของการเปิดตัวเดโมท้องถิ่นนั้นได้รับการเผยแพร่ใน DocOwl1.5 เช่นกัน
[2024.3.28] เราเผยแพร่ข้อมูลการฝึกอบรม (DocStruct4M, DocDownstream-1.0, DocReason25K), รหัสและรุ่น (DocOwl1.5-stage1, DocOwl1.5, DocOwl1.5-Chat, DocOwl1.5-Omni) ของ mPLUG-DocOwl 1.5 ทั้งสอง HuggingFace ? และ โมเดลสโคป
[2024.3.20] เราเผยแพร่เอกสาร arxiv ของ mPLUG-DocOwl 1.5 ซึ่งเป็น SOTA 8B Multimodal LLM เกี่ยวกับการทำความเข้าใจเอกสารที่ปราศจาก OCR (DocVQA 82.2, InfoVQA 50.7, ChartQA 70.2, TextVQA 68.6)
[2024.01.13] ชุดข้อมูลการวิเคราะห์แผนภาพทางวิทยาศาสตร์ของเรา M-Paper มีให้บริการบน HuggingFace ทั้งสองรุ่น ? และ ModelScope ซึ่งมีรูปภาพไดอะแกรมความละเอียดสูง 447,000 ภาพและการวิเคราะห์ย่อหน้าที่เกี่ยวข้อง
[2023.10.13] ข้อมูลการฝึกอบรม โมเดลของ mPLUG-DocOwl/UReader เป็นโอเพ่นซอร์ส
[2023.10.10] UReader กระดาษของเราได้รับการยอมรับจาก EMNLP 2023
[2023.07.10] มีการสาธิต mPLUG-DocOwl บน ModelScope แล้ว
[2023.07.07] เราเผยแพร่รายงานทางเทคนิคและชุดการประเมินผลของ mPLUG-DocOwl
mPLUG-DocOwl2 (Arxiv 2024) - mPLUG-DocOwl2: การบีบอัดความละเอียดสูงเพื่อการทำความเข้าใจเอกสารหลายหน้าโดยไม่ต้องใช้ OCR
mPLUG-DocOwl1.5 (EMNLP 2024) - mPLUG-DocOwl 1.5: การเรียนรู้โครงสร้างแบบครบวงจรเพื่อการทำความเข้าใจเอกสารที่ปราศจาก OCR
TinyChart (EMNLP 2024) - TinyChart: การทำความเข้าใจแผนภูมิที่มีประสิทธิภาพด้วยการรวม Visual Token และการเรียนรู้โปรแกรมแห่งความคิด
mPLUG-PaperOwl (ACM MM 2024) - mPLUG-PaperOwl: การวิเคราะห์แผนภาพทางวิทยาศาสตร์ด้วยแบบจำลองภาษาขนาดใหญ่หลายรูปแบบ
UReader (EMNLP 2023) - UReader: การทำความเข้าใจภาษาที่มองเห็นด้วยสายตาโดยไม่ต้องใช้ OCR สากลด้วยโมเดลภาษาขนาดใหญ่หลายรูปแบบ
mPLUG-DocOwl (Arxiv 2023) - mPLUG-DocOwl: โมเดลภาษาขนาดใหญ่หลายรูปแบบแบบแยกส่วนสำหรับการทำความเข้าใจเอกสาร
หมายเหตุ: การสาธิต HuggingFace ไม่เสถียรเท่ากับ ModelScope เนื่องจาก GPU ใน ZeroGPU Spaces ของ HuggingFace ได้รับการกำหนดแบบไดนามิก
พื้นที่กอดใบหน้า
โมเดลสโคป สเปซ
พื้นที่กอดใบหน้า
เอ็มปลั๊ก
เอ็มปลั๊ก-2.
mPLUG-นกฮูก