上海人工智慧實驗室(上海AI實驗室)大模型資料基座OpenDataLab團隊在2024年WAIC科學前沿主論壇上發表了全新智慧資料擷取工具MinerU。這款開源工具旨在簡化AI資料處理流程,幫助研究者更有效率地從海量文件中提取高品質資料。 MinerU支援多種文件格式,包括PDF、網頁、epub、mobi和docx等,並將它們轉換為易於分析的Markdown格式。其核心功能模組Magic-PDF和Magic-Doc分別專注於PDF文件和網頁/電子書的提取,並利用LayoutLMv3、YOLOv8、UniMERNet和PaddleOCR等模型實現高品質資料擷取,大大提升了資料處理效率。
在2024年WAIC科學前沿主論壇上,上海人工智慧實驗室(上海AI實驗室)大模型資料基座OpenDataLab團隊發表了一款名為MinerU的全新智慧資料擷取工具。這款工具旨在簡化AI資料處理流程,幫助AI研究者從海量文件中提取高品質資料。
MinerU是一款全能、開源的文件與網頁資料擷取工具,能夠將包含圖片、表格、公式等在內的多模態PDF文件轉換為清晰、易於分析的Markdown格式。它還能從包含廣告等乾擾訊息的網頁中快速解析、抽取正式內容,並支援epub、mobi、docx等多種格式大量轉換為Markdown。
MinerU由兩個主要部分組成:Magic-PDF和Magic-Doc。 Magic-PDF專注於PDF文件擷取,將PDF轉換為Markdown格式,能夠快速辨識PDF版面元素,自動刪除非內文內容,保留原文檔的結構和格式。 Magic-Doc則負責網頁與電子書擷取,支援常見的文章、論壇、音樂、影片等類型網頁資訊擷取,以及電子書格式的轉換。
技術層面上,MinerU的PDF文件擷取過程包括PDF文件分類預處理、模型解析、管線處理和PDF擷取結果質檢等環節。它利用了一系列模型,如LayoutLMv3、YOLOv8、UniMERNet和PaddleOCR,來實現高品質的文檔資料提取。
MinerU的發布,不僅為AI研究者提供了一個強大的資料處理工具,也進一步推動了大模型研發與應用的全鏈條工具體系的升級。
魔搭社群體驗連結:
https://modelscope.cn/studios/OpenDataLab/MinerU
程式碼開源連結:
https://github.com/opendatalab/MinerU/
MinerU開源模型(PDF-Extract-Kit):
https://modelscope.cn/models/OpenDataLab/PDF-Extract-Kit
MinerU的開源與易用性,將極大方便AI研究者和開發者,加速AI領域的資料處理效率,為大模型發展提供強有力的支持。 歡迎造訪連結體驗和使用MinerU。