PDFLayoutTextStripper herunterladen - PDFLayoutTextStripper Quellcode herunterladen

PDFLayoutTextStripper

JAVA-Quellcode

v2.2.5

Herunterladen

PDFLayoutTextStripper

Konvertiert eine PDF-Datei in eine Textdatei und behält dabei das Layout der Original-PDF bei. Nützlich, um den Inhalt einer Tabelle oder eines Formulars in einer PDF-Datei zu extrahieren. PDFLayoutTextStripper ist eine Unterklasse der PDFTextStripper-Klasse (aus der Apache PDFBox-Bibliothek).

Anwendungsfälle

Datenextraktion aus einer Tabelle in einer PDF-Datei

Datenextraktion aus einem Formular in eine PDF-Datei Beispiel

Anleitung zur Installation

Maven

 <dependency>
  <groupId>io.github.jonathanlink</groupId>
  <artifactId>PDFLayoutTextStripper</artifactId>
  <version>2.2.3</version>
</dependency>

Handbuch

Installieren Sie Apache PDFBox manuell (um die Version 2.0.6 zu erhalten, klicken Sie hier) und seine beiden Abhängigkeiten commons-logging.jar und Fontbox

Warnung : Nur PDFBox-Versionen ab Version 2.0.0 sind mit dieser Version von PDFLayoutTextStripper.java kompatibel

Verwendung unter Linux/Mac

 cd PDFLayoutTextStripper
javac -cp .:/pathto/pdfbox-2.0.6.jar:/pathto/commons-logging-1.2.jar:/pathto/PDFLayoutTextStripper/fontbox-2.0.6.jar *.java
java -cp .:/pathto/pdfbox-2.0.6.jar:/pathto/commons-logging-1.2.jar:/pathto/PDFLayoutTextStripper/fontbox-2.0.6.jar test

Verwendung unter Windows

Das Gleiche wie für Linux (siehe oben), aber ersetzen Sie : durch ;

Beispielcode

 import java.io.File;
import java.io.FileNotFoundException;
import java.io.IOException;
import org.apache.pdfbox.io.RandomAccessFile;
import org.apache.pdfbox.pdfparser.PDFParser;
import org.apache.pdfbox.pdmodel.PDDocument;
import org.apache.pdfbox.text.PDFTextStripper;

public class test {
	public static void main(String[] args) {
		String string = null;
        try {
            PDFParser pdfParser = new PDFParser(new RandomAccessFile(new File("./samples/bus.pdf"), "r"));
            pdfParser.parse();
            PDDocument pdDocument = new PDDocument(pdfParser.getDocument());
            PDFTextStripper pdfTextStripper = new PDFLayoutTextStripper();
            string = pdfTextStripper.getText(pdDocument);
        } catch (FileNotFoundException e) {
            e.printStackTrace();
        } catch (IOException e) {
            e.printStackTrace();
        };
        System.out.println(string);
	}
}

Mitwirkende

Dank

Dmytro Zelinskyy für die Meldung eines Problems mit der Korrektur (v2.2.3)
Ho Ting Cheng für die Meldung eines Problems (v2.1)
James Sullivan für die Aktualisierung des Codes, damit er mit der neuesten Version von PDFBox (v2.0) funktioniert.

Expandieren

Zusätzliche Informationen