PDFLayoutTextStripper
v2.2.5
يحول ملف PDF إلى ملف نصي مع الحفاظ على تخطيط ملف PDF الأصلي. مفيد لاستخراج المحتوى من جدول أو نموذج في ملف PDF. PDFLayoutTextStripper هي فئة فرعية من فئة PDFTextStripper (من مكتبة Apache PDFBox).
استخراج البيانات من نموذج في ملف PDF
<dependency>
<groupId>io.github.jonathanlink</groupId>
<artifactId>PDFLayoutTextStripper</artifactId>
<version>2.2.3</version>
</dependency>
تحذير : إصدارات pdfbox فقط من الإصدار 2.0.0 وما فوق متوافقة مع هذا الإصدار من PDFLayoutTextStripper.java
cd PDFLayoutTextStripper
javac -cp .:/pathto/pdfbox-2.0.6.jar:/pathto/commons-logging-1.2.jar:/pathto/PDFLayoutTextStripper/fontbox-2.0.6.jar *.java
java -cp .:/pathto/pdfbox-2.0.6.jar:/pathto/commons-logging-1.2.jar:/pathto/PDFLayoutTextStripper/fontbox-2.0.6.jar test
نفس الشيء بالنسبة لنظام Linux (انظر أعلاه) ولكن استبدل : بـ ؛
import java.io.File;
import java.io.FileNotFoundException;
import java.io.IOException;
import org.apache.pdfbox.io.RandomAccessFile;
import org.apache.pdfbox.pdfparser.PDFParser;
import org.apache.pdfbox.pdmodel.PDDocument;
import org.apache.pdfbox.text.PDFTextStripper;
public class test {
public static void main(String[] args) {
String string = null;
try {
PDFParser pdfParser = new PDFParser(new RandomAccessFile(new File("./samples/bus.pdf"), "r"));
pdfParser.parse();
PDDocument pdDocument = new PDDocument(pdfParser.getDocument());
PDFTextStripper pdfTextStripper = new PDFLayoutTextStripper();
string = pdfTextStripper.getText(pdDocument);
} catch (FileNotFoundException e) {
e.printStackTrace();
} catch (IOException e) {
e.printStackTrace();
};
System.out.println(string);
}
}
شكرا ل