mPLUG DocOwl herunterladen - mPLUG DocOwl -Quellcode herunterladen

mPLUG DocOwl

Anderer Quellcode

Herunterladen

Die leistungsstarke multimodale LLM-Familie
für OCR-freies Dokumentenverständnis

Alibaba-Gruppe

Nachricht

[28.9.2024] Wir haben die Trainingsdaten, den Inferenzcode und den Evaluierungscode von DocOwl2 auf beiden HuggingFace ? und ModelScope .
[20.9.2024] Unser Paper DocOwl 1.5 und TinyChart wird von EMNLP 2024 akzeptiert.
[2024.9.06] Wir veröffentlichen das arxiv-Papier von mPLUG-DocOwl 2, einem multimodalen SOTA 8B LLM zum OCR-freien Multipage Document Understanding. Jedes Dokumentbild wird mit nur 324 Token codiert!
[2024.7.16] Unser Paper PaperOwl wird von ACM MM 2024 akzeptiert.
[2024.5.08] Wir haben den Trainingscode von DocOwl1.5 veröffentlicht, der von DeepSpeed unterstützt wird. Sie können jetzt ein stärkeres Modell basierend auf DocOwl1.5 verfeinern!
[26.04.2024] Wir veröffentlichen das arxiv-Papier von TinyChart, einem multimodalen SOTA 3B-LLM für Diagrammverständnis mit Program-of-Throught-Fähigkeit (ChartQA: 83,6 > Gemin-Ultra 80,8 > GPT4V 78,5). Die Demo von TinyChart ist auf HuggingFace verfügbar. Sowohl Codes als auch Modelle und Daten werden in TinyChart veröffentlicht.
[2024.4.3] Wir erstellen Demos von DocOwl1.5 sowohl auf ModelScope als auch auf HuggingFace?, unterstützt von DocOwl1.5-Omni. Die Quellcodes zum Starten einer lokalen Demo werden auch in DocOwl1.5 veröffentlicht.
[28.3.2024] Wir veröffentlichen die Trainingsdaten (DocStruct4M, DocDownstream-1.0, DocReason25K), Codes und Modelle (DocOwl1.5-stage1, DocOwl1.5, DocOwl1.5-Chat, DocOwl1.5-Omni) von mPLUG-DocOwl 1,5 auf beiden HuggingFace ? und ModelScope .
[20.3.2024] Wir veröffentlichen das arxiv-Papier von mPLUG-DocOwl 1.5, einem multimodalen SOTA 8B LLM zum OCR-freien Dokumentverständnis (DocVQA 82.2, InfoVQA 50.7, ChartQA 70.2, TextVQA 68.6).
[13.01.2024] Unser M-Paper-Datensatz zur wissenschaftlichen Diagrammanalyse ist sowohl auf HuggingFace als auch auf HuggingFace verfügbar. und ModelScope mit 447.000 hochauflösenden Diagrammbildern und entsprechender Absatzanalyse.
[13.10.2023] Trainingsdaten und Modelle von mPLUG-DocOwl/UReader wurden als Open-Source-Quelle bereitgestellt.
[10.10.2023] Unser Paper UReader wird von EMNLP 2023 akzeptiert.

[10.07.2023] Die Demo von mPLUG-DocOwl auf ModelScope ist verfügbar.
[07.07.2023] Wir veröffentlichen den technischen Bericht und den Evaluierungssatz von mPLUG-DocOwl.

Modelle

mPLUG-DocOwl2 (Arxiv 2024) – mPLUG-DocOwl2: Hochauflösende Komprimierung für OCR-freies Verständnis mehrseitiger Dokumente
mPLUG-DocOwl1.5 (EMNLP 2024) – mPLUG-DocOwl 1.5: Einheitliches Strukturlernen für OCR-freies Dokumentverständnis
TinyChart (EMNLP 2024) – TinyChart: Effizientes Diagrammverständnis mit visueller Token-Zusammenführung und Program-of-Thoughts-Lernen
mPLUG-PaperOwl (ACM MM 2024) - mPLUG-PaperOwl: Wissenschaftliche Diagrammanalyse mit dem multimodalen Large Language Model
UReader (EMNLP 2023) – UReader: Universelles OCR-freies, visuell situiertes Sprachverständnis mit multimodalem großem Sprachmodell
mPLUG-DocOwl (Arxiv 2023) – mPLUG-DocOwl: Modularisiertes multimodales großes Sprachmodell für das Dokumentenverständnis