Téléchargement de RAG - Téléchargement du code source RAG

RAG

Autre code source

Version 0.0.17

Télécharger

Utilisation de PYMUPDF dans un environnement de chat de chiffon (génération auprès de la récupération)

Ce référentiel contient des exemples montrant comment PYMUPDF peut être utilisé comme flux de données pour les chatbots basés sur RAG.

Les exemples incluent des scripts qui commencent les chatbots - soit comme de simples programmes CLI en mode REP, soit par des GUIS basés sur le navigateur. Les scripts de chatbot suivent cette structure générale:

Extraire du texte : utilisez PYMUPDF pour extraire du texte à partir d'une ou plusieurs pages d'un ou plusieurs PDF. Selon l'exigence spécifique, cela peut être tout le texte ou le seul texte contenu dans les tableaux, la table des matières, etc. Ceci sera généralement implémenté comme une ou plusieurs fonctions Python appelées par l'un des événements suivants - qui implémentent la fonctionnalité de chatbot réelle.
Indexation du texte extrait : indexez le texte extrait pour une récupération efficace. Cet index servira de base de connaissances pour le chatbot.
Traitement de la requête : Lorsqu'un utilisateur pose une question, traitez la requête pour déterminer les informations clés nécessaires pour une réponse.
Récupération des informations pertinentes : recherchez votre base de connaissances indexée pour les informations les plus pertinentes liées à la requête de l'utilisateur.
Génération d'une réponse : utilisez un modèle génératif pour générer une réponse basée sur les informations récupérées.

Installation

Le package Python sur PYPI PYMUPDF4LLM (il existe également un alias PDF4LLM) est capable de convertir les pages PDF en chaînes de texte au format Markdown (compatible GitHub). Cela inclut le texte standard ainsi que le texte basé sur la table dans une vue cohérente et intégrée - une fonctionnalité particulièrement importante dans les paramètres de RAG.

$ pip install -U pymupdf4llm

Cette commande installera automatiquement PYMUPDF si nécessaire.

Alors dans votre script

 import pymupdf4llm

md_text = pymupdf4llm . to_markdown ( "input.pdf" )

# now work with the markdown text, e.g. store as a UTF8-encoded file
import pathlib
pathlib . Path ( "output.md" ). write_bytes ( md_text . encode ())

Au lieu de la chaîne de nom de fichier comme ci-dessus, on peut également fournir un Document PYMUPDF. Par défaut, toutes les pages du PDF seront traitées. Si vous le souhaitez, les pages=[...] peuvent être utilisées pour fournir une liste de numéros de page basés sur zéro à considérer.

La création de texte de Markdown traite désormais également des pages multi-colonnes .

Pour créer de petits morceaux de texte - par opposition à la génération d'une grande chaîne pour l'ensemble du document - la nouvelle (V0.0.2) page_chunks=True peut être utilisée. Le résultat de .to_markdown("input.pdf", page_chunks=True) sera une liste de dictionnaires Python, un pour chaque page.

Également nouveau dans la version 0.0.2 est l' extraction facultative des images et des graphiques vectoriels: utilisation de paramètre write_images=True . Les images PNG stockeront dans le dossier du document, et le texte Markdown se référera de manière appropriée. Les images sont nommées comme "input.pdf-page_number-index.png" .

Documentation et API

Documentation

API

Support de documents

Bien que PDF soit de loin le format de document le plus important dans le monde, il convient de mentionner que tous les exemples et scripts d'assistance fonctionnent de la même manière et sans changement pour tous les types de fichiers pris en charge.

Ainsi, pour un document XPS ou un ebook, fournissez simplement le nom de fichier par exemple comme "input.mobi" et tout le reste fonctionnera comme avant.

À propos de pyMupdf

PYMUPDF ajoute des liaisons et des abstractions Python à MUPDF, un PDF léger, un XPS et une visionneuse d'ebook , un rendu et une boîte à outils. PYMUPDF et MUPDF sont maintenus et développés par Artifex Software, Inc.

La page d'accueil de PYMUPDF est située sur GitHub.

Communauté

Rejoignez-nous sur Discord ici: #PyMupdf.

Licence et droit d'auteur

PYMUPDF est disponible dans les accords AGPL et licences commerciales open source. Si vous déterminez que vous ne pouvez pas répondre aux exigences de l' AGPL , veuillez contacter ARTIFEX pour plus d'informations concernant une licence commerciale.

Développer

Informations supplémentaires

Version Version 0.0.17
Type Autre code source
Date de mise à jour 2025-02-02
taille 171.39KB
Provenant de Github

Applications connexes

waymo open dataset

2024-11-18
SmartTube

2024-12-14
Sunamu

2024-12-14
MySchedule.py

2024-12-15
viptools for eslam

2024-12-15
VITAident

2024-12-15

Recommandé pour vous

chat.petals.dev

Autre code source

1.0.0
GPT Prompt Templates

Autre code source

1.0.0
GPTyped

Autre code source

GPTyped 1.0.5
waymo open dataset

Autre code source

December 2023 Update
SmartTube

Autre code source

24.71 Stable
Sunamu

Autre code source

Release 2.2.0
waymo open dataset

Autre code source

December 2023 Update
wp functions

Autres catégories

1.0.0
termwind

Autres catégories

v2.3.0

Actualités connexes Tout