open parseダウンロード - open parseソースコードのダウンロード

open parse

その他のソースコード

v0.7.0

ダウンロード

人間と同じ方法で、複雑なドキュメントを簡単に分割できます。

ドキュメントのチャンク化は、RAG システムの基盤となる困難なタスクです。 AI アプリケーションを成功させるには高品質の結果が不可欠ですが、ほとんどのオープンソースライブラリは複雑なドキュメントを処理する能力に限界があります。

Open Parse は、ドキュメントレイアウトを視覚的に識別し、効果的にチャンク化できる柔軟で使いやすいライブラリを提供することで、このギャップを埋めるように設計されています。

これは他のレイアウトパーサーとどう違うのでしょうか?

✂️ テキストの分割

テキスト分割では、ファイルを生のテキストに変換し、スライスします。

元の PDF にチャンクを簡単にオーバーレイする機能が失われます。
ファイルの基礎となる意味構造を無視します。見出し、セクション、箇条書きは貴重な情報を表します。
テーブル、画像、マークダウンはサポートされていません。

? ML レイアウトパーサー

レイアウトパーサーのような素晴らしいライブラリがいくつかあります。

テキストブロック、画像、表などのさまざまな要素を識別できますが、関連するコンテンツを効果的にグループ化するようには構築されていません。
これらはレイアウト解析に厳密に焦点を当てています。画像からマークダウンを抽出したり、テーブルを解析したり、ノードをグループ化したりするには、別のモデルを追加する必要があります。
多くのドキュメントではパフォーマンスが最適ではなく、計算量も多いことがわかりました。

商用ソリューション

通常、価格は 1,000 ページあたり ≈ $10 です。ここ、ここ、そしてここを参照してください。
ベンダーとデータを共有する必要がある

ハイライト

?視覚主導: Open-Parse は、単純なテキスト分割を超えて、文書を視覚的に分析して優れた LLM 入力を実現します。
✍️ マークダウンのサポート:見出し、太字、斜体を解析するための基本的なマークダウンサポート。
高精度テーブルのサポート:従来のツールを上回る精度でテーブルをクリーンなマークダウン形式に抽出します。
例
次の例は、unitable を使用して解析されました。
拡張可能:独自の後処理ステップを簡単に実装できます。
直感的:優れたエディターのサポート。どこもかしこも完成。デバッグにかかる時間が短縮されます。
簡単:使いやすく、学びやすいように設計されています。ドキュメントを読む時間が短縮されます。

例

基本的な例

 import openparse

basic_doc_path = "./sample-docs/mobile-home-manual.pdf"
parser = openparse . DocumentParser ()
parsed_basic_doc = parser . parse ( basic_doc_path )

for node in parsed_basic_doc . nodes :
    print ( node )

?こちらのサンプルノートブックをお試しください

セマンティック処理の例

ドキュメントのチャンク化は基本的に、類似したセマンティックノードをグループ化することです。各ノードのテキストを埋め込むことで、類似性に基づいてノードをクラスター化できます。

 from openparse import processing , DocumentParser

semantic_pipeline = processing . SemanticIngestionPipeline (
    openai_api_key = OPEN_AI_KEY ,
    model = "text-embedding-3-large" ,
    min_tokens = 64 ,
    max_tokens = 1024 ,
)
parser = DocumentParser (
    processing_pipeline = semantic_pipeline ,
)
parsed_content = parser . parse ( basic_doc_path )

?サンプルノートはこちら

結果のシリアル化

内部で pydantic を使用するため、結果をシリアル化できます。

 parsed_content . dict ()

# or to convert to a valid json dict
parsed_content . json ()

要件

Python 3.8+

PDF の処理:

pdfminer.six 完全にオープンソース。

テーブルの抽出:

PyMuPDF にはいくつかのテーブル検出機能があります。ライセンスを参照してください。
Table Transformer は深層学習アプローチです。
Unitable は、最先端のパフォーマンスを備えたもう 1 つのトランスベースのアプローチです。

インストール

1. コアライブラリ

 pip install openparse

OCR サポートを有効にする:

PyMuPDF には、OCR 機能をサポートするすべてのロジックがすでに含まれています。ただし、Tesseract の言語サポートデータも必要なので、Tesseract-OCR のインストールは依然として必要です。

言語サポートフォルダーの場所は、環境変数「TESSDATA_PREFIX」に保存するか、該当する関数のパラメーターとして伝達する必要があります。

したがって、OCR 機能を動作させるには、次のチェックリストを必ず完了してください。

Tesseractをインストールします。
Tesseract の言語サポートフォルダーを見つけます。通常、次の場所にあります。
- Windows: C:/Program Files/Tesseract-OCR/tessdata
- Unix システム: /usr/share/tesseract-ocr/5/tessdata
- macOS (Homebrew 経由でインストール):
  - 標準インストール: /opt/homebrew/share/tessdata
  - バージョン固有のインストール: /opt/homebrew/Cellar/tesseract/<version>/share/tessdata/
環境変数 TESSDATA_PREFIX を設定します。
- Windows: setx TESSDATA_PREFIX "C:/Program Files/Tesseract-OCR/tessdata"
- Unix システム: declare -x TESSDATA_PREFIX=/usr/share/tesseract-ocr/5/tessdata
- macOS (Homebrew 経由でインストール): export TESSDATA_PREFIX=$(brew --prefix tesseract)/share/tessdata

注: Windows システムでは、スクリプトを開始する前に、これを Python の外部で行う必要があります。 os.environ を操作するだけでは機能しません。

2. ML テーブルの検出 (オプション)

このリポジトリは、さまざまな深層学習モデルを使用してテーブルのコンテンツを解析するオプション機能を提供します。

 pip install "openparse[ml]"

次に、モデルの重みをダウンロードします。

 openparse-download

次のようにして解析を実行できます。

 parser = openparse . DocumentParser (
        table_args = {
            "parsing_algorithm" : "unitable" ,
            "min_table_confidence" : 0.8 ,
        },
)
parsed_nodes = parser . parse ( pdf_path )

現在、すべてのテーブル検出にテーブルトランスフォーマーを使用していますが、そのパフォーマンスが標準以下であることに注意してください。これは、unitable の下流の結果に悪影響を及ぼします。より良いモデルをご存知の場合は、問題を開いてください。unitable チームは、これもすぐに追加する可能性があると述べています。

料理本

https://github.com/Filimoa/open-parse/tree/main/src/cookbooks

ドキュメント

https://filimoa.github.io/open-parse/

スポンサー

あなたのユースケースには何か特別なものが必要ですか?手を差し伸べてください。

拡大する

追加情報

バージョン v0.7.0
タイプその他のソースコード
更新時間 2024-12-29
サイズ 50MB
から Github

open parse

✂️ テキストの分割

? ML レイアウトパーサー

商用ソリューション

ハイライト

例

基本的な例

セマンティック処理の例

結果のシリアル化

要件

インストール

1. コアライブラリ

2. ML テーブルの検出 (オプション)

料理本

ドキュメント

スポンサー

open webui

powsybl open rao

映画とテレビのアプリを開く

頭を開いてください

オープンアトリウム

ブログを開く

chat.petals.dev

GPT Prompt Templates

GPTyped

waymo open dataset

SmartTube

Sunamu

waymo open dataset

termwind

wp functions

open parse

✂️ テキストの分割

? ML レイアウト パーサー

商用ソリューション

ハイライト

例

基本的な例

セマンティック処理の例

結果のシリアル化

要件

インストール

1. コアライブラリ

2. ML テーブルの検出 (オプション)

料理本

ドキュメント

スポンサー

? ML レイアウトパーサー