Das OpenDataLab-Team des Shanghai Artificial Intelligence Laboratory (Shanghai AI Laboratory) für große Modelldatenbanken veröffentlichte auf dem WAIC Science Frontier Main Forum 2024 ein neues intelligentes Datenextraktionstool MinerU. Dieses Open-Source-Tool zielt darauf ab, den KI-Datenverarbeitungsprozess zu vereinfachen und Forschern dabei zu helfen, qualitativ hochwertige Daten effizienter aus umfangreichen Dokumenten zu extrahieren. MinerU unterstützt eine Vielzahl von Dokumentformaten, darunter PDF, Webseiten, Epub, Mobi und DocX usw., und konvertiert sie in das leicht zu analysierende Markdown-Format. Seine Kernfunktionsmodule Magic-PDF und Magic-Doc konzentrieren sich auf die Extraktion von PDF-Dokumenten bzw. Webseiten/E-Books und nutzen Modelle wie LayoutLMv3, YOLOv8, UniMERNet und PaddleOCR, um eine qualitativ hochwertige Datenextraktion zu erreichen und die Daten erheblich zu verbessern Verarbeitungseffizienz.
Auf dem WAIC Science Frontier Main Forum 2024 veröffentlichte das OpenDataLab-Team des Shanghai Artificial Intelligence Laboratory (Shanghai AI Laboratory) für große Modelldatenbanken ein neues intelligentes Datenextraktionstool namens MinerU. Dieses Tool soll den KI-Datenverarbeitungsprozess vereinfachen und KI-Forschern dabei helfen, hochwertige Daten aus umfangreichen Dokumenten zu extrahieren.
MinerU ist ein All-in-One-Tool zur Extraktion von Open-Source-Dokumenten und Webseitendaten, das multimodale PDF-Dokumente, einschließlich Bilder, Tabellen, Formeln usw., in ein klares und einfach zu analysierendes Markdown-Format konvertieren kann. Es kann auch schnell formale Inhalte von Webseiten analysieren und extrahieren, die Interferenzinformationen wie Werbung enthalten, und unterstützt die Stapelkonvertierung mehrerer Formate wie Epub, Mobi, DocX usw. in Markdown.
MinerU besteht aus zwei Hauptteilen: Magic-PDF und Magic-Doc. Magic-PDF konzentriert sich auf die Extraktion von PDF-Dokumenten und konvertiert PDFs in das Markdown-Format. Es kann PDF-Layoutelemente schnell identifizieren, Nicht-Text-Inhalte automatisch löschen und die Struktur und das Format des Originaldokuments beibehalten. Magic-Doc ist für das Extrahieren von Webseiten und E-Books verantwortlich, unterstützt das Extrahieren allgemeiner Webseiteninformationen wie Artikel, Foren, Musik, Videos usw. sowie die Konvertierung von E-Book-Formaten.
Auf technischer Ebene umfasst der PDF-Dokumentextraktionsprozess von MinerU die Vorverarbeitung der PDF-Dokumentklassifizierung, die Modellanalyse, die Pipeline-Verarbeitung und die Qualitätsprüfung der PDF-Extraktionsergebnisse. Es nutzt eine Reihe von Modellen wie LayoutLMv3, YOLOv8, UniMERNet und PaddleOCR, um eine qualitativ hochwertige Dokumentendatenextraktion zu erreichen.
Die Veröffentlichung von MinerU stellt KI-Forschern nicht nur ein leistungsstarkes Datenverarbeitungstool zur Verfügung, sondern fördert auch die Aktualisierung des gesamten Chain-Tool-Systems für die Entwicklung und Anwendung großer Modelle.
Link zum Magic-Community-Erlebnis:
https://modelscope.cn/studios/OpenDataLab/MinerU
Code-Open-Source-Link:
https://github.com/opendatalab/MinerU/
MinerU Open-Source-Modell (PDF-Extract-Kit):
https://modelscope.cn/models/OpenDataLab/PDF-Extract-Kit
Die Open Source und Benutzerfreundlichkeit von MinerU werden KI-Forscher und -Entwickler erheblich erleichtern, die Datenverarbeitungseffizienz im KI-Bereich beschleunigen und die Entwicklung großer Modelle stark unterstützen. Willkommen zum Besuch des Links, um MinerU zu erleben und zu nutzen.