Download pd3f core - download do código-fonte pd3f core

pd3f core

Código-Fonte de IA

1.0.0

Baixar

`pd3f-core`

Experimental, use com cuidado.

pd3f-core é um pacote Python para reconstruir o texto contínuo original de PDFs com modelos de linguagem. pd3f-core assume que seu PDF é baseado em texto ou já é OCRd. pd3f-core está no centro do pd3f: um pipeline completo de extração de texto baseado em Docker (incluindo OCR).

pd3f-core primeiro usa o Parsr para dividir PDFs em linhas e parágrafos. Em seguida, ele usa o pacote Python dehyphen para reconstruir os parágrafos da maneira mais provável. A probabilidade é derivada calculando a perplexidade com os modelos de linguagem baseados em caracteres de Flair. Hífens desnecessários são removidos, espaços ou novas linhas são mantidos ou eliminados dependendo das palavras ao redor.

Foi desenvolvido principalmente para alemão, mas também deve funcionar com outros idiomas. O projeto ainda está em fase inicial. Espere arestas e mudanças rápidas.

Documentação

Documentação da API do pd3f-core: https://pd3f.github.io/pd3f-core/index.html

Documentação do pd3f (o): https://pd3f.com/docs/

Características

Dehifenização de Linhas

Verifique se duas linhas podem ser unidas removendo os hífens ('-').

Junção razoável de linhas

Decida entre adicionar um espaço simples (' ') ou uma nova linha ('n') ao unir linhas.

Quebra de página reversa (experimental)

Verifique se o último parágrafo de uma página e o primeiro parágrafo da página seguinte podem ser unidos.

Nota de rodapé às notas finais (experimental)

Para juntar parágrafos (e inverter quebras de página), detecte notas de rodapé e transforme-as em notas finais. Por enquanto, as notas de rodapé são colocadas no final de um arquivo.

Desduplicação de cabeçalho/rodapé do pager (experimental)

Se o cabeçalho ou rodapé for igual para todas as páginas, exiba-os apenas uma vez. Os cabeçalhos são puxados para o início do documento e o rodapé para o final. Algumas heurísticas baseadas na semelhança dos rodapés são usadas. (Distância Jaccard para texto e compare formas sobrepostas)

Instalação

pip install pd3f

ou

poetry add pd3f

Uso

Inicie uma instância local do Parsr:

docker-compose up

(Você também pode usar o encapsulamento de uma instância remota do Parsr (script) ou escolher um endereço remoto.)

 from pd3f import extract

text , tables = extract ( file_path , tables = False , experimental = False , force_gpu = False , lang = "multi" , fast = False , parsr_location = "localhost:3001" )

Explicações dos parâmetros nos documentos: https://pd3f.github.io/pd3f-core/export.html#pd3f.export.extract

Suporte GPU (CUDA)

Usar CUDA acelera a avaliação com Flair. Mas você precisa de uma GPU (cara). Você precisa configurar sua GPU com CUDA. Aqui está um guia para Ubuntu 18.04

instale conda (via miniconda) e poesia
crie um novo ambiente conda e ative-o
Instale PyTorch com CUDA: conda install pytorch torchvision cudatoolkit=10.2 -c pytorch (exemplo)
Instale pd3f-core com poesia: poetry add pd3f

A poesia percebe que é executada em um ambiente virtual conda, portanto não cria um novo. Como configurar o CUDA é difícil, instale-o da maneira mais fácil (com conda).

Fundo

Configuração de análise

No centro do pd3f-core está a saída JSON do Parsr. Alguns comentários sobre como e por que certas coisas foram escolhidas. Documentação do Parsr sobre os diferentes módulos

Parsr possui vários módulos para classificar parágrafos em determinados tipos. Eles oferecem detecções de lista, bem como detecção de rumo. Na minha experiência, a precisão é muito baixa para ambos, por isso não a usamos no momento. Isso também significa que todo o texto extraído (saída) é simples (sem títulos, formatações diferentes, etc.).

Ativamos Desenho + Detecção de Imagem porque podemos precisar entender qual parágrafo segue qual outro. Isso pode ser útil na hora de decidir se deseja juntar parágrafos. Mas cai ao ativar a configuração fast .

Na saída JSON há um campo pageNumber . Isso vem do módulo de detecção de página. Portanto, pageNumber é derivado do cabeçalho/rodapé de cada página. Portanto, pode ser diferente do índice na matriz de páginas. Não retransmita pageNumber na saída JSON.

words-to-line-new foi usado assim. Não há erro, mas a precisão diminui se for usada de outra forma.

 " words-to-line-new " ,
[
    " reading-order-detection " ,

Não faça OCR com Parsr porque os resultados são piores que o OCRmyPDF (porque este último usa pré-processamento de imagem).

Trabalho Futuro / TODO

fazer a quebra de página reversa funcionar sem exigir os recursos experimentais

Desenvolvimento

Instale e use poesia.

Licença

Licença Pública Geral Affero 3.0

Expandir

Informações adicionais

Versão 1.0.0
Tipo Código-Fonte de IA
Data da Última Atualização 2024-12-30
tamanho 50MB
Vindo de Github

Aplicativos Relacionados

mycroft core

2024-11-06
core

2024-11-05
Versão chinesa do Soul Core

2023-11-30
Núcleo Alfa

2022-08-05
Núcleo XpressEngine

2012-08-17
Servidor FTP principal

2009-07-03

Recomendado para você

chat.petals.dev

Outro código-fonte

1.0.0
GPT Prompt Templates

Outro código-fonte

1.0.0
GPTyped

Outro código-fonte

GPTyped 1.0.5
node telegram bot api

Código-Fonte de IA

v0.50.0
typebot.io

Código-Fonte de IA

v3.1.2
python wechaty getting started

Código-Fonte de IA

1.0.0
waymo open dataset

Outro código-fonte

December 2023 Update
termwind

Outras categorias

v2.3.0
wp functions

Outras categorias

1.0.0

Informações Relacionadas Todos