OCRを使わずに文書を理解できるようにする
[2024.9.28] DocOwl2の学習データ、推論コード、評価コードをHuggingFace ?両方で公開しました。およびModelScope 。
[2024.9.20] 論文DocOwl 1.5とTinyChartがEMNLP 2024に採択されました。
[2024.9.06] OCRフリーのMultipage Document Understandingに関するSOTA 8BマルチモーダルLLMであるmPLUG-DocOwl 2のarxivペーパーをリリースしました。各ドキュメント画像はわずか324個のトークンでエンコードされています。
[2024.7.16] 論文PaperOwlがACM MM 2024に採択されました。
[2024.5.08] DeepSpeedに対応したDocOwl1.5のトレーニングコードを公開しました。 DocOwl1.5 をベースにしたより強力なモデルを微調整できるようになりました。
[2024.4.26] Program-of-Throught機能を備えたチャート理解のためのSOTA 3BマルチモーダルLLMであるTinyChartのarxivペーパーを公開します(ChartQA: 83.6 > Gemin-Ultra 80.8 > GPT4V 78.5)。 TinyChart のデモは HuggingFace ? で入手できます。コード、モデル、データはいずれも TinyChart で公開されています。
[2024.4.3] DocOwl1.5-Omni でサポートされている ModelScope と HuggingFace ? の両方で DocOwl1.5 のデモを構築しました。 DocOwl1.5ではローカルデモを起動するソースコードも公開されています。
[2024.3.28] mPLUG-DocOwlの学習データ(DocStruct4M、DocDownstream-1.0、DocReason25K)、コード、モデル(DocOwl1.5-stage1、DocOwl1.5、DocOwl1.5-Chat、DocOwl1.5-Omni)を公開しました。 HuggingFace の両方で 1.5 ですか?およびModelScope 。
[2024.3.20] OCR フリーの文書理解 (DocVQA 82.2、InfoVQA 50.7、ChartQA 70.2、TextVQA 68.6) に関する SOTA 8B マルチモーダル LLM、mPLUG-DocOwl 1.5 の arxiv ペーパーを公開します。
[2024.01.13] 科学図解析データセット M-Paper が、 HuggingFaceと の両方で利用可能になりました。 ModelScopeには、447k の高解像度図画像と対応する段落分析が含まれています。
[2023.10.13] mPLUG-DocOwl/UReaderの学習データ、モデルをオープンソース化しました。
[2023.10.10] 論文UReaderがEMNLP 2023に採択されました。
[2023.07.10] mPLUG-DocOwlのデモをModelScopeで公開しました。
[2023.07.07] mPLUG-DocOwlのテクニカルレポートと評価セットを公開しました。
mPLUG-DocOwl2 (Arxiv 2024) - mPLUG-DocOwl2: OCR なしで複数ページの文書を理解するための高解像度圧縮
mPLUG-DocOwl1.5 (EMNLP 2024) - mPLUG-DocOwl 1.5: OCR を使用しない文書理解のための統合構造学習
TinyChart (EMNLP 2024) - TinyChart: 視覚的なトークンのマージと思考プログラムの学習による効率的なチャートの理解
mPLUG-PaperOwl (ACM MM 2024) - mPLUG-PaperOwl: マルチモーダル大規模言語モデルを使用した科学図分析
UReader (EMNLP 2023) - UReader: マルチモーダル大規模言語モデルを使用した、OCR を使用しないユニバーサルな視覚状況に応じた言語理解
mPLUG-DocOwl (Arxiv 2023) - mPLUG-DocOwl: 文書理解のためのモジュール化されたマルチモーダル大規模言語モデル
注: HuggingFace の ZeroGPU スペース内の GPU が動的に割り当てられるため、HuggingFace のデモは ModelScope ほど安定していません。
ハグフェイススペース
モデルスコープスペース
ハグフェイススペース
mプラグ。
mプラグ-2。
mPLUG-フクロウ