Descarga open parse - descarga de código fuente open parse

open parse

Otro código fuente

v0.7.0

Descargar

Fragmenta fácilmente documentos complejos de la misma manera que lo haría un humano.

Fragmentar documentos es una tarea desafiante que sustenta cualquier sistema RAG. Los resultados de alta calidad son fundamentales para una aplicación de IA exitosa, pero la mayoría de las bibliotecas de código abierto tienen una capacidad limitada para manejar documentos complejos.

Open Parse está diseñado para llenar este vacío al proporcionar una biblioteca flexible y fácil de usar capaz de discernir visualmente los diseños de los documentos y fragmentarlos de manera efectiva.

¿En qué se diferencia de otros analizadores de diseño?

✂️ División de texto

La división de texto convierte un archivo en texto sin formato y lo divide.

Pierdes la capacidad de superponer fácilmente el fragmento en el pdf original.
Ignora la estructura semántica subyacente del archivo: los títulos, las secciones y las viñetas representan información valiosa.
No hay soporte para tablas, imágenes o rebajas.

? Analizadores de diseño de ML

Hay algunas bibliotecas fantásticas como layout-parser.

Si bien pueden identificar varios elementos como bloques de texto, imágenes y tablas, no están diseñados para agrupar contenido relacionado de manera efectiva.
Se centran estrictamente en el análisis del diseño: deberá agregar otro modelo para extraer las rebajas de las imágenes, analizar tablas, agrupar nodos, etc.
Hemos descubierto que el rendimiento no es óptimo en muchos documentos y, al mismo tiempo, es pesado desde el punto de vista computacional.

Soluciones Comerciales

Normalmente tiene un precio de ≈ $10 / 1k páginas. Ver aquí, aquí y aquí.
Requiere compartir sus datos con un proveedor

Reflejos

? Impulsado visualmente: Open-Parse analiza visualmente documentos para obtener una entrada LLM superior, yendo más allá de la ingenua división de texto.
✍️ Compatibilidad con Markdown: compatibilidad básica con Markdown para analizar títulos, negrita y cursiva.
Compatibilidad con tablas de alta precisión: extraiga tablas en formatos Markdown limpios con una precisión que supera a las herramientas tradicionales.
Ejemplos
Los siguientes ejemplos se analizaron con unitable.
Extensible: implemente fácilmente sus propios pasos de posprocesamiento.
Intuitivo: excelente compatibilidad con el editor. Finalización por todas partes. Menos tiempo de depuración.
Fácil: Diseñado para ser fácil de usar y aprender. Menos tiempo leyendo documentos.

Ejemplo

Ejemplo básico

 import openparse

basic_doc_path = "./sample-docs/mobile-home-manual.pdf"
parser = openparse . DocumentParser ()
parsed_basic_doc = parser . parse ( basic_doc_path )

for node in parsed_basic_doc . nodes :
    print ( node )

? Pruebe el cuaderno de muestra aquí

Ejemplo de procesamiento semántico

La fragmentación de documentos consiste fundamentalmente en agrupar nodos semánticos similares. Al incrustar el texto de cada nodo, podemos agruparlos según su similitud.

 from openparse import processing , DocumentParser

semantic_pipeline = processing . SemanticIngestionPipeline (
    openai_api_key = OPEN_AI_KEY ,
    model = "text-embedding-3-large" ,
    min_tokens = 64 ,
    max_tokens = 1024 ,
)
parser = DocumentParser (
    processing_pipeline = semantic_pipeline ,
)
parsed_content = parser . parse ( basic_doc_path )

? Cuaderno de muestra aquí

Resultados de serialización

Utiliza pydantic bajo el capó para que puedas serializar los resultados con

 parsed_content . dict ()

# or to convert to a valid json dict
parsed_content . json ()

Requisitos

Pitón 3.8+

Manejo de archivos PDF:

pdfminer.six Código completamente abierto.

Extracción de tablas:

PyMuPDF tiene alguna funcionalidad de detección de tablas. Por favor vea su licencia.
Table Transformer es un enfoque de aprendizaje profundo.
Unitable es otro enfoque basado en transformadores con un rendimiento de última generación .

Instalación

1. Biblioteca principal

 pip install openparse

Habilitar la compatibilidad con OCR :

PyMuPDF ya contendrá toda la lógica para admitir funciones de OCR. Pero además necesita los datos de soporte de idiomas de Tesseract, por lo que aún se requiere la instalación de Tesseract-OCR.

La ubicación de la carpeta de soporte de idioma debe comunicarse almacenándola en la variable de entorno "TESSDATA_PREFIX" o como un parámetro en las funciones aplicables.

Entonces, para que la funcionalidad OCR funcione, asegúrese de completar esta lista de verificación:

Instalar Tesseract.
Localice la carpeta de soporte de idiomas de Tesseract. Normalmente lo encontrarás aquí:
- Windows: C:/Program Files/Tesseract-OCR/tessdata
- Sistemas Unix: /usr/share/tesseract-ocr/5/tessdata
- macOS (instalado a través de Homebrew):
  - Instalación estándar: /opt/homebrew/share/tessdata
  - Instalación específica de la versión: /opt/homebrew/Cellar/tesseract/<version>/share/tessdata/
Establecer la variable de entorno TESSDATA_PREFIX
- Windows: setx TESSDATA_PREFIX "C:/Program Files/Tesseract-OCR/tessdata"
- Sistemas Unix: declare -x TESSDATA_PREFIX=/usr/share/tesseract-ocr/5/tessdata
- macOS (instalado a través de Homebrew): export TESSDATA_PREFIX=$(brew --prefix tesseract)/share/tessdata

Nota: En los sistemas Windows, esto debe ocurrir fuera de Python, antes de iniciar el script. ¡Simplemente manipular os.environ no funcionará!

2. Detección de tablas ML (opcional)

Este repositorio proporciona una función opcional para analizar contenido de tablas utilizando una variedad de modelos de aprendizaje profundo.

 pip install "openparse[ml]"

Luego descargue los pesos del modelo con

 openparse-download

Puede ejecutar el análisis con lo siguiente.

 parser = openparse . DocumentParser (
        table_args = {
            "parsing_algorithm" : "unitable" ,
            "min_table_confidence" : 0.8 ,
        },
)
parsed_nodes = parser . parse ( pdf_path )

Tenga en cuenta que actualmente utilizamos transformadores de tabla para toda la detección de tablas y consideramos que su rendimiento es deficiente. Esto afecta negativamente a los resultados posteriores de Unitable. Si conoce un modelo mejor, abra un problema; el equipo de Unitable mencionó que es posible que también lo agreguen pronto.