Descargar PDFLayoutTextStripper - PDFLayoutTextStripper Descarga del código fuente

PDFLayoutTextStripper

código fuente JAVA

v2.2.5

Descargar

PDFLayoutTextStripper

Convierte un archivo PDF en un archivo de texto manteniendo el diseño del PDF original. Útil para extraer el contenido de una tabla o un formulario en un archivo PDF. PDFLayoutTextStripper es una subclase de la clase PDFTextStripper (de la biblioteca Apache PDFBox).

Casos de uso

Extracción de datos de una tabla en un archivo PDF.

Extracción de datos de un formulario en un archivo PDF ejemplo

Cómo instalar

experto

 <dependency>
  <groupId>io.github.jonathanlink</groupId>
  <artifactId>PDFLayoutTextStripper</artifactId>
  <version>2.2.3</version>
</dependency>

Manual

Instale Apache pdfbox manualmente (para obtener la versión 2.0.6, haga clic aquí) y sus dos dependencias, commons-logging.jar y fontbox.

Advertencia : sólo las versiones de pdfbox desde la versión 2.0.0 en adelante son compatibles con esta versión de PDFLayoutTextStripper.java

Cómo utilizar en Linux/Mac

 cd PDFLayoutTextStripper
javac -cp .:/pathto/pdfbox-2.0.6.jar:/pathto/commons-logging-1.2.jar:/pathto/PDFLayoutTextStripper/fontbox-2.0.6.jar *.java
java -cp .:/pathto/pdfbox-2.0.6.jar:/pathto/commons-logging-1.2.jar:/pathto/PDFLayoutTextStripper/fontbox-2.0.6.jar test

Cómo usar en Windows

Lo mismo que para Linux (ver arriba) pero reemplace : con ;

Código de muestra

 import java.io.File;
import java.io.FileNotFoundException;
import java.io.IOException;
import org.apache.pdfbox.io.RandomAccessFile;
import org.apache.pdfbox.pdfparser.PDFParser;
import org.apache.pdfbox.pdmodel.PDDocument;
import org.apache.pdfbox.text.PDFTextStripper;

public class test {
	public static void main(String[] args) {
		String string = null;
        try {
            PDFParser pdfParser = new PDFParser(new RandomAccessFile(new File("./samples/bus.pdf"), "r"));
            pdfParser.parse();
            PDDocument pdDocument = new PDDocument(pdfParser.getDocument());
            PDFTextStripper pdfTextStripper = new PDFLayoutTextStripper();
            string = pdfTextStripper.getText(pdDocument);
        } catch (FileNotFoundException e) {
            e.printStackTrace();
        } catch (IOException e) {
            e.printStackTrace();
        };
        System.out.println(string);
	}
}

Colaboradores

Gracias a

Dmytro Zelinskyy por informar un problema con su corrección (v2.2.3)
Ho Ting Cheng por informar un problema (v2.1)
James Sullivan por haber actualizado el código para que funcione con la última versión de PDFBox (v2.0)

Expandir

Información adicional

Versión v2.2.5
Tipo código fuente JAVA
Fecha de actualización 2024-12-12
tamaño 50MB
Proviene de Github

Aplicaciones relacionadas

opentelemetry java instrumentation

2024-12-07
redisson

2024-12-12
PrettyZoo

2024-12-17
kkFileView

2024-12-12
visearch sdk javascript

2024-12-17
AlgoDS

2024-12-12

Recomendado para ti

chat.petals.dev

Otro código fuente

1.0.0
GPT Prompt Templates

Otro código fuente

1.0.0
GPTyped

Otro código fuente

GPTyped 1.0.5
opentelemetry java instrumentation

código fuente JAVA

Version 2.10.0
PrettyZoo

código fuente JAVA

v2.1.1
redisson

código fuente JAVA

redisson-3.40.1
waymo open dataset

Otro código fuente

December 2023 Update
termwind

Otras categorias

v2.3.0
wp functions

Otras categorias

1.0.0

Información relacionada Todo