Baixar PDFLayoutTextStripper - Baixar código-fonte PDFLayoutTextStripper

PDFLayoutTextStripper

Código fonte JAVA

v2.2.5

Baixar

PDFLayoutTextStripper

Converte um arquivo PDF em um arquivo de texto, mantendo o layout do PDF original. Útil para extrair o conteúdo de uma tabela ou formulário em um arquivo PDF. PDFLayoutTextStripper é uma subclasse da classe PDFTextStripper (da biblioteca Apache PDFBox).

Casos de uso

Extração de dados de uma tabela em um arquivo PDF

Extração de dados de um formulário em um arquivo PDF exemplo

Como instalar

Maven

 <dependency>
  <groupId>io.github.jonathanlink</groupId>
  <artifactId>PDFLayoutTextStripper</artifactId>
  <version>2.2.3</version>
</dependency>

Manual

Instale o apache pdfbox manualmente (para obter a v2.0.6 clique aqui) e suas duas dependências commons-logging.jar e fontbox

aviso : apenas versões do pdfbox a partir da versão 2.0.0 são compatíveis com esta versão do PDFLayoutTextStripper.java

Como usar no Linux/Mac

 cd PDFLayoutTextStripper
javac -cp .:/pathto/pdfbox-2.0.6.jar:/pathto/commons-logging-1.2.jar:/pathto/PDFLayoutTextStripper/fontbox-2.0.6.jar *.java
java -cp .:/pathto/pdfbox-2.0.6.jar:/pathto/commons-logging-1.2.jar:/pathto/PDFLayoutTextStripper/fontbox-2.0.6.jar test

Como usar no Windows

O mesmo que para Linux (veja acima), mas substitua : por ;

Código de exemplo

 import java.io.File;
import java.io.FileNotFoundException;
import java.io.IOException;
import org.apache.pdfbox.io.RandomAccessFile;
import org.apache.pdfbox.pdfparser.PDFParser;
import org.apache.pdfbox.pdmodel.PDDocument;
import org.apache.pdfbox.text.PDFTextStripper;

public class test {
	public static void main(String[] args) {
		String string = null;
        try {
            PDFParser pdfParser = new PDFParser(new RandomAccessFile(new File("./samples/bus.pdf"), "r"));
            pdfParser.parse();
            PDDocument pdDocument = new PDDocument(pdfParser.getDocument());
            PDFTextStripper pdfTextStripper = new PDFLayoutTextStripper();
            string = pdfTextStripper.getText(pdDocument);
        } catch (FileNotFoundException e) {
            e.printStackTrace();
        } catch (IOException e) {
            e.printStackTrace();
        };
        System.out.println(string);
	}
}

Colaboradores

Graças a

Dmytro Zelinskyy por relatar um problema com sua correção (v2.2.3)
Ho Ting Cheng por relatar um problema (v2.1)
James Sullivan por ter atualizado o código para fazê-lo funcionar com a versão mais recente do PDFBox (v2.0)

Expandir

Informações adicionais

Versão v2.2.5
Tipo Código fonte JAVA
Data da Última Atualização 2024-12-12
tamanho 50MB
Vindo de Github

Aplicativos Relacionados

opentelemetry java instrumentation

2024-12-07
redisson

2024-12-12
PrettyZoo

2024-12-17
kkFileView

2024-12-12
visearch sdk javascript

2024-12-17
AlgoDS

2024-12-12

Recomendado para você

chat.petals.dev

Outro código-fonte

1.0.0
GPT Prompt Templates

Outro código-fonte

1.0.0
GPTyped

Outro código-fonte

GPTyped 1.0.5
PrettyZoo

Código fonte JAVA

v2.1.1
redisson

Código fonte JAVA

redisson-3.40.1
opentelemetry java instrumentation

Código fonte JAVA

Version 2.10.0
waymo open dataset

Outro código-fonte

December 2023 Update
termwind

Outras categorias

v2.3.0
wp functions

Outras categorias

1.0.0

Informações Relacionadas Todos