para la comprensión de documentos sin OCR
[2024.9.28] Hemos publicado los datos de entrenamiento, el código de inferencia y el código de evaluación de DocOwl2 en HuggingFace . y ModelScope .
[2024.9.20] EMNLP 2024 acepta nuestro documento DocOwl 1.5 y TinyChart.
[2024.9.06] Publicamos el documento arxiv de mPLUG-DocOwl 2, un LLM multimodal SOTA 8B sobre comprensión de documentos multipágina sin OCR, ¡cada imagen de documento está codificada con solo 324 tokens!
[2024.7.16] Nuestro papel PaperOwl es aceptado por ACM MM 2024.
[2024.5.08] Hemos publicado el código de entrenamiento de DocOwl1.5 compatible con DeepSpeed. ¡Ahora puedes ajustar un modelo más potente basado en DocOwl1.5!
[2024.4.26] Publicamos el artículo arxiv de TinyChart, un LLM multimodal SOTA 3B para comprensión de gráficos con capacidad de programa de procesamiento (ChartQA: 83.6 > Gemin-Ultra 80.8 > GPT4V 78.5). La demostración de TinyChart está disponible en HuggingFace?. Ambos códigos, modelos y datos se publican en TinyChart.
[2024.4.3] Creamos demostraciones de DocOwl1.5 tanto en ModelScope como en HuggingFace ?, compatibles con DocOwl1.5-Omni. Los códigos fuente para iniciar una demostración local también se publican en DocOwl1.5.
[2024.3.28] Publicamos los datos de entrenamiento (DocStruct4M, DocDownstream-1.0, DocReason25K), códigos y modelos (DocOwl1.5-stage1, DocOwl1.5, DocOwl1.5-Chat, DocOwl1.5-Omni) de mPLUG-DocOwl 1.5 en ambos HuggingFace ? y ModelScope .
[2024.3.20] Publicamos el documento arxiv de mPLUG-DocOwl 1.5, un LLM multimodal SOTA 8B sobre comprensión de documentos sin OCR (DocVQA 82.2, InfoVQA 50.7, ChartQA 70.2, TextVQA 68.6).
[2024.01.13] Nuestro conjunto de datos de análisis de diagramas científicos M-Paper ha estado disponible tanto en HuggingFace como en HuggingFace. y ModelScope , que contiene imágenes de diagramas de alta resolución de 447k y el análisis de párrafos correspondiente.
[2023.10.13] Los datos de entrenamiento y los modelos de mPLUG-DocOwl/UReader son de código abierto.
[2023.10.10] Nuestro UReader en papel es aceptado por EMNLP 2023.
[2023.07.10] La demostración de mPLUG-DocOwl en ModelScope está disponible.
[2023.07.07] Publicamos el informe técnico y el conjunto de evaluación de mPLUG-DocOwl.
mPLUG-DocOwl2 (Arxiv 2024) - mPLUG-DocOwl2: compresión de alta resolución para la comprensión de documentos de varias páginas sin OCR
mPLUG-DocOwl1.5 (EMNLP 2024) - mPLUG-DocOwl 1.5: Aprendizaje de estructura unificada para la comprensión de documentos sin OCR
TinyChart (EMNLP 2024) - TinyChart: comprensión eficiente de gráficos con fusión de tokens visuales y aprendizaje de programas de pensamientos
mPLUG-PaperOwl (ACM MM 2024) - mPLUG-PaperOwl: Análisis de diagramas científicos con el modelo de lenguaje grande multimodal
UReader (EMNLP 2023) - UReader: comprensión del lenguaje situada visualmente y sin OCR universal con un modelo de lenguaje grande multimodal
mPLUG-DocOwl (Arxiv 2023) - mPLUG-DocOwl: modelo de lenguaje grande multimodal modularizado para la comprensión de documentos
Nota: La demostración de HuggingFace no es tan estable como ModelScope porque la GPU en ZeroGPU Spaces de HuggingFace se asigna dinámicamente.
AbrazosCara Espacio
ModeloAlcance Espacio
AbrazosCara Espacio
mPLUG.
mPLUG-2.
mPLUG-búho