لفهم المستندات بدون التعرف الضوئي على الحروف (OCR).
[2024.9.28] لقد أصدرنا بيانات التدريب ورمز الاستدلال ورمز التقييم الخاص بـ DocOwl2 على كل من HuggingFace ؟ و موديل سكوب .
[2024.9.20] تم قبول ورقتنا DocOwl 1.5 وTinyChart من قبل EMNLP 2024.
[2024.9.06] قمنا بإصدار ورقة arxiv الخاصة بـ mPLUG-DocOwl 2، وهي SOTA 8B Multimodal LLM على فهم المستندات المتعددة الصفحات بدون التعرف الضوئي على الحروف، ويتم تشفير كل صورة مستند بـ 324 رمزًا مميزًا فقط!
[2024.7.16] تم قبول PaperOwl الخاص بنا من قبل ACM MM 2024.
[2024.5.08] لقد أصدرنا كود التدريب الخاص بـ DocOwl1.5 المدعوم من DeepSpeed. يمكنك الآن ضبط نموذج أقوى يعتمد على DocOwl1.5!
[2024.4.26] قمنا بإصدار ورقة arxiv الخاصة بـ TinyChart، وهي SOTA 3B Multimodal LLM لفهم المخطط مع القدرة على برنامج التفكير (ChartQA: 83.6 > Gemin-Ultra 80.8 > GPT4V 78.5). العرض التوضيحي لـ TinyChart متاح على HuggingFace؟. يتم إصدار كل من الرموز والنماذج والبيانات في TinyChart.
[2024.4.3] نقوم ببناء عروض توضيحية لـ DocOwl1.5 على كل من ModelScope وHuggingFace؟، بدعم من DocOwl1.5-Omni. تم أيضًا إصدار أكواد المصدر الخاصة بإطلاق العرض التجريبي المحلي في DocOwl1.5.
[2024.3.28] نقوم بإصدار بيانات التدريب (DocStruct4M، DocDownstream-1.0، DocReason25K)، والرموز والنماذج (DocOwl1.5-stage1، DocOwl1.5، DocOwl1.5-Chat، DocOwl1.5-Omni) لـ mPLUG-DocOwl 1.5 على كل من HuggingFace ؟ و موديل سكوب .
[2024.3.20] قمنا بإصدار ورقة arxiv الخاصة بـ mPLUG-DocOwl 1.5، وهي SOTA 8B Multimodal LLM حول فهم المستندات بدون التعرف الضوئي على الحروف (DocVQA 82.2، InfoVQA 50.7، ChartQA 70.2، TextVQA 68.6).
[2024.01.13] مجموعة بيانات تحليل المخططات العلمية الخاصة بنا M-Paper متاحة على كل من HuggingFace ؟ و ModelScope ، الذي يحتوي على 447 ألف صورة تخطيطية عالية الدقة وتحليل الفقرة المقابلة.
[2023.10.13] أصبحت بيانات التدريب ونماذج mPLUG-DocOwl/UReader مفتوحة المصدر.
[2023.10.10] تم قبول UReader الورقي الخاص بنا من قبل EMNLP 2023.
[2023.07.10] العرض التوضيحي لـ mPLUG-DocOwl على ModelScope متاح.
[2023.07.07] نصدر التقرير الفني ومجموعة التقييم لـ mPLUG-DocOwl.
mPLUG-DocOwl2 (Arxiv 2024) - mPLUG-DocOwl2: ضغط عالي الدقة لفهم المستندات متعددة الصفحات بدون التعرف الضوئي على الحروف
mPLUG-DocOwl1.5 (EMNLP 2024) - mPLUG-DocOwl 1.5: التعلم الهيكلي الموحد لفهم المستندات بدون التعرف الضوئي على الحروف
TinyChart (EMNLP 2024) - TinyChart: فهم فعال للمخططات من خلال دمج الرموز المرئية وتعلم برنامج الأفكار
mPLUG-PaperOwl (ACM MM 2024) - mPLUG-PaperOwl: تحليل المخطط العلمي باستخدام نموذج اللغة الكبير متعدد الوسائط
UReader (EMNLP 2023) - UReader: فهم لغة عالمية خالية من التعرف الضوئي على الحروف (OCR) مع نموذج لغة كبير متعدد الوسائط
mPLUG-DocOwl (Arxiv 2023) - mPLUG-DocOwl: نموذج لغة كبير متعدد الوسائط لفهم المستندات
ملاحظة: الإصدار التجريبي من HuggingFace ليس مستقرًا مثل ModelScope نظرًا لأن وحدة معالجة الرسومات في مساحات ZeroGPU الخاصة بـ HuggingFace يتم تعيينها ديناميكيًا.
مساحة العناق والوجه
مساحة النموذج
مساحة العناق والوجه
mPLUG.
مبلج-2.
mPLUG-البومة