pd3f core Télécharger - pd3f core Téléchargement du code source

pd3f core

Code Source AI

1.0.0

Télécharger

`pd3f-core`

Expérimental, à utiliser avec précaution.

pd3f-core est un package Python permettant de reconstruire le texte continu original à partir de PDF avec des modèles de langage. pd3f-core suppose que votre PDF est soit basé sur du texte, soit déjà OCRd. pd3f-core est au cœur de pd3f : un pipeline d'extraction de texte complet basé sur Docker (y compris OCR).

pd3f-core utilise d'abord Parsr pour diviser les PDF en lignes et en paragraphes. Ensuite, il utilise le package Python dehyphen pour reconstruire les paragraphes de la manière la plus probable. La probabilité est dérivée en calculant la perplexité avec les modèles de langage basés sur les caractères de Flair. Les traits d'union inutiles sont supprimés, les espaces ou les nouvelles lignes sont conservés ou supprimés en fonction des mots environnants.

Il est principalement développé pour l'allemand mais devrait également fonctionner avec d'autres langues. Le projet en est encore à ses débuts. Attendez-vous à des aspérités et à des changements rapides.

Documentation

Documentation API de pd3f-core : https://pd3f.github.io/pd3f-core/index.html

Documentation de pd3f (le ) : https://pd3f.com/docs/

Caractéristiques

Désunion des lignes

Vérifiez si deux lignes peuvent être jointes en supprimant les traits d'union («-»).

Regroupement raisonnable des lignes

Choisissez entre l'ajout d'un simple espace (' ') ou d'une nouvelle ligne ('n') lors de la jonction de lignes.

Saut de page inversé (expérimental)

Vérifiez si le dernier paragraphe d'une page et le premier paragraphe de la page suivante peuvent être joints.

Note de bas de page des notes de fin (expérimental)

Afin de joindre des paragraphes (et d'inverser les sauts de page), détectez les notes de bas de page et transformez-les en notes de fin. Pour l'instant, les notes de bas de page sont placées à la fin d'un fichier.

Déduplication de l'en-tête/pied de page du pager (expérimental)

Si l'en-tête ou le pied de page sont les mêmes pour toutes les pages, affichez-les une seule fois. Les en-têtes sont placés au début du document et le pied de page jusqu'à la fin. Certaines heuristiques basées sur la similitude des pieds de page sont utilisées. (Distance Jaccard pour le texte et comparaison des formes qui se chevauchent)

Installation

pip install pd3f

ou

poetry add pd3f

Usage

Démarrez une instance Parsr locale :

docker-compose up

(Vous pouvez également utiliser le tunneling vers une instance Parsr distante (script) ou choisir une adresse distante.)

 from pd3f import extract

text , tables = extract ( file_path , tables = False , experimental = False , force_gpu = False , lang = "multi" , fast = False , parsr_location = "localhost:3001" )

Explications des paramètres dans la doc : https://pd3f.github.io/pd3f-core/export.html#pd3f.export.extract

Prise en charge des GPU (CUDA)

L'utilisation de CUDA accélère l'évaluation avec Flair. Mais vous avez besoin d’un GPU (coûteux). Vous devez configurer votre GPU avec CUDA. Voici un guide pour Ubuntu 18.04

installer conda (via miniconda) et poésie
créer un nouvel environnement conda et l'activer
Installez PyTorch avec CUDA : conda install pytorch torchvision cudatoolkit=10.2 -c pytorch (exemple)
Installer pd3f-core avec poésie : poetry add pd3f

La poésie se rend compte qu'elle est exécutée dans un environnement virtuel conda afin de ne pas en créer un nouveau. Étant donné que la configuration de CUDA est difficile, installez-le de la manière la plus simple (avec conda).

Arrière-plan

Configuration de l'analyseur

Au cœur de pd3f-core se trouve la sortie JSON de Parsr. Quelques commentaires sur comment et pourquoi certaines choses ont été choisies. Documentation de Parsr sur les différents modules

Parsr dispose de plusieurs modules pour classer les paragraphes en certains types. Ils proposent une liste de détections ainsi qu'une détection de cap. D'après mon expérience, la précision est trop faible pour les deux, nous ne l'utilisons donc pas pour le moment. Cela signifie également que tout le texte extrait (de sortie) est plat (pas de titres, de formats différents, etc.).

Nous activons Dessin + Détection d'image car nous aurons peut-être besoin de comprendre quel paragraphe suit quel autre. Cela peut être utile pour décider de joindre ou non des paragraphes. Mais il est supprimé lors de l'activation du réglage fast .

Dans la sortie JSON se trouve un champ pageNumber . Cela vient du module de détection de page. Ainsi, pageNumber est dérivé de l'en-tête/pied de page de chaque page. Il peut donc être différent de l'index du tableau de pages. Ne relayez pas pageNumber dans la sortie JSON.

words-to-line-new ont été utilisés comme ceci. Il n'y a pas d'erreur mais la précision diminue si elle est utilisée autrement.

 " words-to-line-new " ,
[
    " reading-order-detection " ,

Ne faites pas d'OCR avec Parsr car les résultats sont pires qu'OCRmyPDF (car ce dernier utilise le prétraitement d'image).

Travaux futurs / TODO

faire fonctionner les sauts de page inversés sans nécessiter les fonctionnalités expérimentales

Développement

Installez et utilisez la poésie.

Licence

Licence publique générale Affero 3.0

Développer

Informations supplémentaires

Version 1.0.0
Type Code Source AI
Date de mise à jour 2024-12-30
taille 50MB
Provenant de Github

Applications connexes

mycroft core

2024-11-06
core

2024-11-05
Version chinoise du noyau d'âme

2023-11-30
Alpha de base

2022-08-05
Noyau XpressEngine

2012-08-17
Serveur FTP principal

2009-07-03

Recommandé pour vous

chat.petals.dev

Autre code source

1.0.0
GPT Prompt Templates

Autre code source

1.0.0
GPTyped

Autre code source

GPTyped 1.0.5
node telegram bot api

Code Source AI

v0.50.0
typebot.io

Code Source AI

v3.1.2
python wechaty getting started

Code Source AI

1.0.0
waymo open dataset

Autre code source

December 2023 Update
termwind

Autres catégories

v2.3.0
wp functions

Autres catégories

1.0.0

Actualités connexes Tout