PDFLayoutTextStripper Télécharger - PDFLayoutTextStripper Téléchargement du code source

PDFLayoutTextStripper

Code source JAVA

v2.2.5

Télécharger

PDFLayoutTextStripper

Convertit un fichier PDF en fichier texte tout en conservant la mise en page du PDF d'origine. Utile pour extraire le contenu d'un tableau ou d'un formulaire dans un fichier PDF. PDFLayoutTextStripper est une sous-classe de la classe PDFTextStripper (de la bibliothèque Apache PDFBox).

Cas d'utilisation

Extraction de données d'un tableau dans un fichier PDF

Extraction de données d'un formulaire dans un fichier PDF exemple

Comment installer

Maven

 <dependency>
  <groupId>io.github.jonathanlink</groupId>
  <artifactId>PDFLayoutTextStripper</artifactId>
  <version>2.2.3</version>
</dependency>

Manuel

Installez apache pdfbox manuellement (pour obtenir la v2.0.6 cliquez ici) et ses deux dépendances commons-logging.jar et fontbox

avertissement : seules les versions pdfbox à partir de la version 2.0.0 sont compatibles avec cette version de PDFLayoutTextStripper.java

Comment utiliser sur Linux/Mac

 cd PDFLayoutTextStripper
javac -cp .:/pathto/pdfbox-2.0.6.jar:/pathto/commons-logging-1.2.jar:/pathto/PDFLayoutTextStripper/fontbox-2.0.6.jar *.java
java -cp .:/pathto/pdfbox-2.0.6.jar:/pathto/commons-logging-1.2.jar:/pathto/PDFLayoutTextStripper/fontbox-2.0.6.jar test

Comment utiliser sous Windows

Identique à Linux (voir ci-dessus) mais remplacez : par ;

Exemple de code

 import java.io.File;
import java.io.FileNotFoundException;
import java.io.IOException;
import org.apache.pdfbox.io.RandomAccessFile;
import org.apache.pdfbox.pdfparser.PDFParser;
import org.apache.pdfbox.pdmodel.PDDocument;
import org.apache.pdfbox.text.PDFTextStripper;

public class test {
	public static void main(String[] args) {
		String string = null;
        try {
            PDFParser pdfParser = new PDFParser(new RandomAccessFile(new File("./samples/bus.pdf"), "r"));
            pdfParser.parse();
            PDDocument pdDocument = new PDDocument(pdfParser.getDocument());
            PDFTextStripper pdfTextStripper = new PDFLayoutTextStripper();
            string = pdfTextStripper.getText(pdDocument);
        } catch (FileNotFoundException e) {
            e.printStackTrace();
        } catch (IOException e) {
            e.printStackTrace();
        };
        System.out.println(string);
	}
}

Contributeurs

Grâce à

Dmytro Zelinskyy pour avoir signalé un problème avec sa correction (v2.2.3)
Ho Ting Cheng pour avoir signalé un problème (v2.1)
James Sullivan pour avoir mis à jour le code pour le faire fonctionner avec la dernière version de PDFBox (v2.0)

Développer

Informations supplémentaires

Version v2.2.5
Type Code source JAVA
Date de mise à jour 2024-12-12
taille 50MB
Provenant de Github

Applications connexes

opentelemetry java instrumentation

2024-12-07
redisson

2024-12-12
PrettyZoo

2024-12-17
kkFileView

2024-12-12
visearch sdk javascript

2024-12-17
AlgoDS

2024-12-12

Recommandé pour vous

chat.petals.dev

Autre code source

1.0.0
GPT Prompt Templates

Autre code source

1.0.0
GPTyped

Autre code source

GPTyped 1.0.5
PrettyZoo

Code source JAVA

v2.1.1
redisson

Code source JAVA

redisson-3.40.1
opentelemetry java instrumentation

Code source JAVA

Version 2.10.0
waymo open dataset

Autre code source

December 2023 Update
termwind

Autres catégories

v2.3.0
wp functions

Autres catégories

1.0.0

Actualités connexes Tout