pour une compréhension des documents sans OCR
[2024.9.28] Nous avons publié les données de formation, le code d'inférence et le code d'évaluation de DocOwl2 sur HuggingFace ? et ModelScope .
[2024.9.20] Notre article DocOwl 1.5 et TinyChart est accepté par EMNLP 2024.
[2024.9.06] Nous publions l'article arxiv de mPLUG-DocOwl 2, un LLM multimodal SOTA 8B sur la compréhension des documents multipages sans OCR, chaque image de document est codée avec seulement 324 jetons !
[2024.7.16] Notre papier PaperOwl est accepté par l'ACM MM 2024.
[2024.5.08] Nous avons publié le code de formation de DocOwl1.5 pris en charge par DeepSpeed. Vous pouvez désormais affiner un modèle plus puissant basé sur DocOwl1.5 !
[2024.4.26] Nous publions l'article arxiv de TinyChart, un LLM multimodal SOTA 3B pour la compréhension des graphiques avec la capacité Program-of-Throught (ChartQA : 83.6 > Gemin-Ultra 80.8 > GPT4V 78.5). La démo de TinyChart est disponible sur HuggingFace ?. Les codes, modèles et données sont publiés dans TinyChart.
[2024.4.3] Nous construisons des démos de DocOwl1.5 sur ModelScope et HuggingFace ?, prises en charge par DocOwl1.5-Omni. Les codes sources de lancement d'une démo locale sont également publiés dans DocOwl1.5.
[2024.3.28] Nous publions les données de formation (DocStruct4M, DocDownstream-1.0, DocReason25K), les codes et les modèles (DocOwl1.5-stage1, DocOwl1.5, DocOwl1.5-Chat, DocOwl1.5-Omni) de mPLUG-DocOwl 1.5 sur les deux HuggingFace ? et ModelScope .
[2024.3.20] Nous publions l'article arxiv de mPLUG-DocOwl 1.5, un LLM multimodal SOTA 8B sur la compréhension des documents sans OCR (DocVQA 82.2, InfoVQA 50.7, ChartQA 70.2, TextVQA 68.6).
[2024.01.13] Notre ensemble de données d'analyse de diagrammes scientifiques M-Paper est disponible sur HuggingFace ? et ModelScope , contenant 447 000 images de diagrammes haute résolution et l'analyse des paragraphes correspondants.
[2023.10.13] Les données de formation et les modèles de mPLUG-DocOwl/UReader sont open source.
[2023.10.10] Notre article UReader est accepté par EMNLP 2023.
[2023.07.10] La démo de mPLUG-DocOwl sur ModelScope est disponible.
[2023.07.07] Nous publions le rapport technique et l'ensemble d'évaluation de mPLUG-DocOwl.
mPLUG-DocOwl2 (Arxiv 2024) - mPLUG-DocOwl2 : compression haute résolution pour une compréhension de documents multipages sans OCR
mPLUG-DocOwl1.5 (EMNLP 2024) - mPLUG-DocOwl 1.5 : apprentissage de structure unifié pour une compréhension des documents sans OCR
TinyChart (EMNLP 2024) - TinyChart : compréhension efficace des graphiques avec la fusion de jetons visuels et l'apprentissage du programme de pensées
mPLUG-PaperOwl (ACM MM 2024) - mPLUG-PaperOwl : Analyse de diagrammes scientifiques avec le grand modèle multimodal de langage
UReader (EMNLP 2023) - UReader : Compréhension universelle du langage visuellement localisé sans OCR avec un grand modèle de langage multimodal
mPLUG-DocOwl (Arxiv 2023) - mPLUG-DocOwl : modèle de grand langage multimodal modularisé pour la compréhension des documents
Remarque : La démo de HuggingFace n'est pas aussi stable que ModelScope car le GPU dans les espaces ZeroGPU de HuggingFace est attribué dynamiquement.
Espace Visage
Espace ModelScope
Espace Visage
mPLUG.
mPLUG-2.
mPLUG-Chouette