Загрузка open parse - Загрузка исходного кода open parse

open parse

Другой исходный код

v0.7.0

Скачать

Легко разбивайте сложные документы на части так же, как это делает человек.

Разбиение документов на части — сложная задача, лежащая в основе любой системы RAG. Высокое качество результатов имеет решающее значение для успешного приложения искусственного интеллекта, однако большинство библиотек с открытым исходным кодом ограничены в своих возможностях обработки сложных документов.

Open Parse призван заполнить этот пробел, предоставляя гибкую и простую в использовании библиотеку, способную визуально распознавать макеты документов и эффективно разбивать их на части.

Чем он отличается от других парсеров макета?

✂️ Разделение текста

Разделение текста преобразует файл в необработанный текст и разрезает его на части.

Вы теряете возможность легко накладывать фрагмент на исходный PDF-файл.
Вы игнорируете основную семантическую структуру файла — заголовки, разделы, маркеры представляют собой ценную информацию.
Нет поддержки таблиц, изображений или уценки.

? Анализаторы макетов машинного обучения

Есть несколько фантастических библиотек, таких как Layout-Parser.

Хотя они могут идентифицировать различные элементы, такие как текстовые блоки, изображения и таблицы, они не предназначены для эффективной группировки связанного контента.
Они строго ориентированы на анализ макета — вам нужно будет добавить еще одну модель для извлечения уценки из изображений, таблиц анализа, групповых узлов и т. д.
Мы обнаружили, что производительность многих документов неоптимальна, но при этом требует больших вычислительных ресурсов.

Коммерческие решения

Обычно цена составляет ≈ 10 долларов США за 1 тыс. страниц. Смотрите здесь, здесь и здесь.
Требуется передать ваши данные поставщику.

Основные моменты

? Визуально управляемый: Open-Parse визуально анализирует документы для обеспечения превосходного ввода LLM, выходя за рамки простого разделения текста.
✍️ Поддержка Markdown: базовая поддержка Markdown для анализа заголовков, жирного шрифта и курсива.
Поддержка таблиц высокой точности. Извлекайте таблицы в чистые форматы Markdown с точностью, превосходящей традиционные инструменты.
Примеры
Следующие примеры были проанализированы с помощью unitable.
Расширяемость: легко реализуйте свои собственные этапы постобработки.
Интуитивно понятный: отличная поддержка редактора. Завершение везде. Меньше времени на отладку.
Простота: Разработан, чтобы быть простым в использовании и обучении. Меньше времени на чтение документации.

Пример

Базовый пример

 import openparse

basic_doc_path = "./sample-docs/mobile-home-manual.pdf"
parser = openparse . DocumentParser ()
parsed_basic_doc = parser . parse ( basic_doc_path )

for node in parsed_basic_doc . nodes :
    print ( node )

? Попробуйте образец блокнота здесь

Пример семантической обработки

Разбиение документов на части – это, по сути, группировка схожих семантических узлов вместе. Встраивая текст каждого узла, мы можем затем сгруппировать их на основе их сходства.

 from openparse import processing , DocumentParser

semantic_pipeline = processing . SemanticIngestionPipeline (
    openai_api_key = OPEN_AI_KEY ,
    model = "text-embedding-3-large" ,
    min_tokens = 64 ,
    max_tokens = 1024 ,
)
parser = DocumentParser (
    processing_pipeline = semantic_pipeline ,
)
parsed_content = parser . parse ( basic_doc_path )

? Пример блокнота здесь

Сериализация результатов

Использует pydantic под капотом, поэтому вы можете сериализовать результаты с помощью

 parsed_content . dict ()

# or to convert to a valid json dict
parsed_content . json ()

Требования

Питон 3.8+

Работа с PDF-файлами:

pdfminer.six Полностью открытый исходный код.

Извлечение таблиц:

PyMuPDF имеет некоторые функции обнаружения таблиц. Пожалуйста, ознакомьтесь с их лицензией.
Table Transformer — это подход глубокого обучения.
unitable — еще один подход, основанный на трансформаторах и обладающий самыми современными характеристиками.

Установка

1. Основная библиотека

 pip install openparse

Включение поддержки OCR :

PyMuPDF уже будет содержать всю логику для поддержки функций OCR. Но ему дополнительно необходимы данные языковой поддержки Tesseract, поэтому установка Tesseract-OCR все равно требуется.

Местоположение папки языковой поддержки должно быть передано либо путем сохранения ее в переменной среды «TESSDATA_PREFIX», либо в качестве параметра в применимых функциях.

Поэтому для работы функции OCR обязательно заполните этот контрольный список:

Установите Тессеракт.
Найдите папку языковой поддержки Tesseract. Обычно вы найдете его здесь:
- Windows: C:/Program Files/Tesseract-OCR/tessdata
- Системы Unix: /usr/share/tesseract-ocr/5/tessdata
- macOS (устанавливается через Homebrew):
  - Стандартная установка: /opt/homebrew/share/tessdata
  - Установка для конкретной версии: /opt/homebrew/Cellar/tesseract/<version>/share/tessdata/
Установите переменную среды TESSDATA_PREFIX.
- Windows: setx TESSDATA_PREFIX "C:/Program Files/Tesseract-OCR/tessdata"
- Системы Unix: declare -x TESSDATA_PREFIX=/usr/share/tesseract-ocr/5/tessdata
- macOS (устанавливается через Homebrew): export TESSDATA_PREFIX=$(brew --prefix tesseract)/share/tessdata

Примечание. В системах Windows это должно произойти вне Python — перед запуском сценария. Просто манипулировать os.environ не получится!

2. Обнаружение таблицы ML (необязательно)

Этот репозиторий предоставляет дополнительную функцию для анализа содержимого таблиц с использованием различных моделей глубокого обучения.

 pip install "openparse[ml]"

Затем загрузите веса модели с помощью

 openparse-download

Вы можете запустить анализ следующим образом.

 parser = openparse . DocumentParser (
        table_args = {
            "parsing_algorithm" : "unitable" ,
            "min_table_confidence" : 0.8 ,
        },
)
parsed_nodes = parser . parse ( pdf_path )

Обратите внимание, что в настоящее время мы используем табличные преобразователи для обнаружения всех таблиц и считаем, что их производительность не на должном уровне. Это негативно влияет на последующие результаты объединения. Если вам известна более совершенная модель, откройте проблему — команда unitable отметила, что, возможно, вскоре добавит и ее.