Download RAG - Download do código -fonte RAG

RAG

Outro código-fonte

Version 0.0.17

Baixar

Usando pymupdf em um ambiente de chatbot de pano (geração de recuperação)

Este repositório contém exemplos mostrando como o pymupdf pode ser usado como um feed de dados para chatbots baseados em RAG.

Os exemplos incluem scripts que iniciam chatbots - como programas simples da CLI no modo REPL ou GUIs baseados em navegador. Os scripts de chatbot seguem esta estrutura geral:

Extrair texto : use pymupdf para extrair texto de uma ou mais páginas de um ou mais PDFs. Dependendo do requisito específico, esse pode ser todo texto ou apenas texto contido nas tabelas, no índice, etc. Isso geralmente será implementado como uma ou mais funções Python chamadas por qualquer um dos seguintes eventos - que implementam a funcionalidade real do ChatBot.
Indexação do texto extraído : indexe o texto extraído para recuperação eficiente. Esse índice atuará como a base de conhecimento para o chatbot.
Processamento de consulta : Quando um usuário faz uma pergunta, processe a consulta para determinar as principais informações necessárias para uma resposta.
Recuperando as informações relevantes : pesquise sua base de conhecimento indexada para obter informações mais relevantes relacionadas à consulta do usuário.
Gerando uma resposta : use um modelo generativo para gerar uma resposta com base nas informações recuperadas.

Instalação

O pacote python no Pypi pymupdf4llm (também existe um alias pdf4llm) é capaz de converter páginas em PDF em seqüências de texto no formato de marcação (compatível com o github). Isso inclui texto padrão , bem como texto baseado em tabela em uma visualização consistente e integrada - um recurso particularmente importante nas configurações de RAG.

$ pip install -U pymupdf4llm

Este comando instalará automaticamente o pymupdf, se necessário.

Então, em seu script, faça

 import pymupdf4llm

md_text = pymupdf4llm . to_markdown ( "input.pdf" )

# now work with the markdown text, e.g. store as a UTF8-encoded file
import pathlib
pathlib . Path ( "output.md" ). write_bytes ( md_text . encode ())

Em vez da sequência de nome do arquivo como acima, também é possível fornecer um Document pymupdf. Por padrão, todas as páginas do PDF serão processadas. Se desejado, as pages=[...] podem ser usadas para fornecer uma lista de números de página baseados em zero a serem considerados.

A criação de texto de marcação agora também processa as páginas de várias colunas .

Para criar pequenos pedaços de texto - em vez de gerar uma string grande para todo o documento - a nova opção (v0.0.2) page_chunks=True pode ser usada. O resultado de .to_markdown("input.pdf", page_chunks=True) será uma lista de dicionários python, um para cada página.

Também novo na versão 0.0.2 é a extração opcional de imagens e gráficos vetoriais: uso de parâmetro write_images=True . A Will armazenará imagens PNG na pasta do documento, e o texto de marcação se refere adequadamente a elas. As imagens são nomeadas como "input.pdf-page_number-index.png" .

Documentação e API

Documentação

API

Suporte de documentos

Embora o PDF seja de longe o formato de documento mais importante em todo o mundo, vale a pena mencionar que todos os exemplos e scripts auxiliares funcionam da mesma maneira e sem alterações para todos os tipos de arquivos suportados.

Portanto, para um documento XPS ou um e -book, basta fornecer o nome do arquivo, por exemplo, como "input.mobi" e tudo o mais funcionará como antes.

Sobre pymupdf

O pymupdf adiciona ligações e abstrações Python ao MUPDF, um PDF leve, XPS e visualizador de e -books , renderizador e kit de ferramentas. Tanto o pymupdf quanto o MUPDF são mantidos e desenvolvidos pela Artifex Software, Inc.

A página inicial do Pymupdf está localizada no Github.

Comunidade

Junte -se a nós na discórdia aqui: #pymupdf.

Licença e direitos autorais

O PymupDF está disponível sob acordos de licença AGPL de código aberto e de licença comercial. Se você determinar que não pode atender aos requisitos da AGPL , entre em contato com o Artifex para obter mais informações sobre uma licença comercial.

Expandir

Informações adicionais

Versão Version 0.0.17
Tipo Outro código-fonte
Data da Última Atualização 2025-02-02
tamanho 171.39KB
Vindo de Github

Aplicativos Relacionados

waymo open dataset

2024-11-18
SmartTube

2024-12-14
Sunamu

2024-12-14
MySchedule.py

2024-12-15
viptools for eslam

2024-12-15
VITAident

2024-12-15

Recomendado para você

chat.petals.dev

Outro código-fonte

1.0.0
GPT Prompt Templates

Outro código-fonte

1.0.0
GPTyped

Outro código-fonte

GPTyped 1.0.5
waymo open dataset

Outro código-fonte

December 2023 Update
SmartTube

Outro código-fonte

24.71 Stable
Sunamu

Outro código-fonte

Release 2.2.0
waymo open dataset

Outro código-fonte

December 2023 Update
wp functions

Outras categorias

1.0.0
termwind

Outras categorias

v2.3.0

Informações Relacionadas Todos