для понимания документов без оптического распознавания символов
[2024.9.28] Мы опубликовали данные обучения, код вывода и код оценки DocOwl2 на HuggingFace ? и МоделСкоп .
[2024.9.20] Наша статья DocOwl 1.5 и TinyChart принята EMNLP 2024.
[2024.9.06] Мы выпускаем arxiv-документ mPLUG-DocOwl 2, мультимодального LLM SOTA 8B для многостраничных документов без оптического распознавания символов. Понимание того, что каждое изображение документа кодируется всего 324 токенами!
[2024.7.16] Наша статья PaperOwl принята ACM MM 2024.
[2024.5.08] Мы выпустили обучающий код DocOwl1.5, поддерживаемый DeepSpeed. Теперь вы можете настроить более мощную модель на основе DocOwl1.5!
[2024.4.26] Мы выпускаем архивный документ TinyChart, мультимодального LLM SOTA 3B для понимания диаграмм с возможностью сквозной программы (ChartQA: 83.6 > Gemin-Ultra 80.8 > GPT4V 78.5). Демо-версия TinyChart доступна на HuggingFace?. И коды, и модели, и данные публикуются в TinyChart.
[2024.4.3] Мы создаем демо-версии DocOwl1.5 как на ModelScope, так и на HuggingFace?, поддерживаемые DocOwl1.5-Omni. Исходные коды запуска локальной демо-версии также выпущены в DocOwl1.5.
[2024.3.28] Выпускаем данные обучения (DocStruct4M, DocDownstream-1.0, DocReason25K), коды и модели (DocOwl1.5-stage1, DocOwl1.5, DocOwl1.5-Chat, DocOwl1.5-Omni) mPLUG-DocOwl. 1.5 на обоих HuggingFace ? и МоделСкоп .
[2024.3.20] Мы выпускаем архивный документ mPLUG-DocOwl 1.5, мультимодального LLM SOTA 8B по пониманию документов без оптического распознавания символов (DocVQA 82.2, InfoVQA 50.7, ChartQA 70.2, TextVQA 68.6).
[2024.01.13] Наш набор данных M-Paper для анализа научных диаграмм доступен на HuggingFace ? и ModelScope , содержащий 447 тыс. изображений диаграмм с высоким разрешением и соответствующий анализ абзацев.
[2023.10.13] Данные обучения и модели mPLUG-DocOwl/UReader выложены в открытый доступ.
[2023.10.10] Наша статья UReader принята EMNLP 2023.
[2023.07.10] Доступна демо-версия mPLUG-DocOwl на ModelScope.
[2023.07.07] Мы публикуем технический отчет и оценочный набор mPLUG-DocOwl.
mPLUG-DocOwl2 (Arxiv 2024) - mPLUG-DocOwl2: сжатие с высоким разрешением для понимания многостраничных документов без оптического распознавания символов
mPLUG-DocOwl1.5 (EMNLP 2024) - mPLUG-DocOwl 1.5: унифицированное структурное обучение для понимания документов без оптического распознавания символов
TinyChart (EMNLP 2024) — TinyChart: эффективное понимание диаграмм с помощью визуального слияния токенов и обучения по программе мышления
mPLUG-PaperOwl (ACM MM 2024) - mPLUG-PaperOwl: анализ научных диаграмм с помощью мультимодальной модели большого языка
UReader (EMNLP 2023) - UReader: универсальное визуальное понимание языка без оптического распознавания символов с помощью мультимодальной модели большого языка
mPLUG-DocOwl (Arxiv 2023) — mPLUG-DocOwl: модульная мультимодальная модель большого языка для понимания документов
Примечание. Демо-версия HuggingFace не так стабильна, как ModelScope, поскольку графический процессор в пространствах ZeroGPU HuggingFace назначается динамически.
ОбниматьЛицо Пространство
МодельОбъем пространства
ОбниматьЛицо Пространство
mPLUG.
мПЛУГ-2.
mPLUG-Сова