para compreensão de documentos sem OCR
[2024.9.28] Lançamos os dados de treinamento, o código de inferência e o código de avaliação do DocOwl2 em HuggingFace ? e ModelScope .
[2024.9.20] Nosso artigo DocOwl 1.5 e TinyChart foi aceito pelo EMNLP 2024.
[2024.9.06] Lançamos o artigo arxiv do mPLUG-DocOwl 2, um LLM multimodal SOTA 8B em entendimento de documentos multipáginas sem OCR, cada imagem de documento é codificada com apenas 324 tokens!
[2024.7.16] Nosso papel PaperOwl foi aceito pela ACM MM 2024.
[2024.5.08] Lançamos o código de treinamento do DocOwl1.5 com suporte do DeepSpeed. Agora você pode ajustar um modelo mais forte baseado no DocOwl1.5!
[2024.4.26] Lançamos o artigo arxiv do TinyChart, um LLM multimodal SOTA 3B para compreensão de gráficos com capacidade de programa de pensamento (ChartQA: 83.6 > Gemin-Ultra 80.8 > GPT4V 78.5). A demonstração do TinyChart está disponível no HuggingFace?. Ambos os códigos, modelos e dados são divulgados no TinyChart.
[2024.4.3] Construímos demonstrações do DocOwl1.5 em ModelScope e HuggingFace ?, com suporte do DocOwl1.5-Omni. Os códigos-fonte para o lançamento de uma demonstração local também são lançados no DocOwl1.5.
[2024.3.28] Liberamos os dados de treinamento (DocStruct4M, DocDownstream-1.0, DocReason25K), códigos e modelos (DocOwl1.5-stage1, DocOwl1.5, DocOwl1.5-Chat, DocOwl1.5-Omni) do mPLUG-DocOwl 1.5 em ambos HuggingFace ? e ModelScope .
[2024.3.20] Lançamos o artigo arxiv do mPLUG-DocOwl 1.5, um LLM multimodal SOTA 8B sobre compreensão de documentos sem OCR (DocVQA 82.2, InfoVQA 50.7, ChartQA 70.2, TextVQA 68.6).
[2024.01.13] Nosso conjunto de dados de análise de diagrama científico M-Paper está disponível em HuggingFace ? e ModelScope , contendo 447 mil imagens de diagramas de alta resolução e análise de parágrafo correspondente.
[2023.10.13] Dados de treinamento, modelos de mPLUG-DocOwl/UReader foram de código aberto.
[2023.10.10] Nosso UReader em papel foi aceito pelo EMNLP 2023.
[2023.07.10] A demonstração do mPLUG-DocOwl no ModelScope está disponível.
[2023.07.07] Divulgamos o relatório técnico e conjunto de avaliação do mPLUG-DocOwl.
mPLUG-DocOwl2 (Arxiv 2024) - mPLUG-DocOwl2: compactação de alta resolução para compreensão de documentos de várias páginas sem OCR
mPLUG-DocOwl1.5 (EMNLP 2024) - mPLUG-DocOwl 1.5: Aprendizado de estrutura unificada para compreensão de documentos sem OCR
TinyChart (EMNLP 2024) - TinyChart: compreensão eficiente de gráficos com fusão de token visual e aprendizagem de programa de pensamentos
mPLUG-PaperOwl (ACM MM 2024) - mPLUG-PaperOwl: Análise de diagrama científico com o modelo multimodal de linguagem grande
UReader (EMNLP 2023) - UReader: Compreensão de linguagem visualmente situada, livre de OCR universal, com modelo de linguagem multimodal grande
mPLUG-DocOwl (Arxiv 2023) - mPLUG-DocOwl: modelo modularizado multimodal de grande linguagem para compreensão de documentos
Nota: A demonstração do HuggingFace não é tão estável quanto o ModelScope porque a GPU nos espaços ZeroGPU do HuggingFace é atribuída dinamicamente.
Espaço AbraçandoFace
Espaço ModelScope
Espaço AbraçandoFace
mPLUG.
MPLUG-2.
mPLUG-Coruja