The Pile PhilPapers
1.0.0
The-Pile 用のデータに対応したオープン アクセスの哲学出版物コレクション PhilPapers をダウンロード、解析、フィルタリングします。
PhilPapers (PP) は、メタデータ収集のための Open Archives Initiative Protocol である OAI-MPH を使用してインデックス付けされます。したがって、データを収集する最初のステップは、すべてのリンクの XML を取得することです。これは、ここから変更されたハーベスターを使用して行われました。
python pyoaiharvest.py -l https://philarchive.org/oai.pl -o data/phil_meta.xml
そこから、各出版物がダウンロードされます。一部のエントリは存在しないか、作成者によって削除されています。テキストを含む論文は pdfbox を使用して抽出されますが、機械可読でないテキストを含む論文は無視されます。英語以外の出版物は保持され、メタデータは OAI-MPH XML によって報告される言語を反映します。テキストは PDFextract の pdf_filter.py でフィルタリングされます
✔ Saved to PhilArchive.jsonl.zst
ℹ Collection completed 12/15/2021
ℹ 42,464 publications (8,474 added, 24.9% growth)
ℹ Uncompressed filesize 3,270,636,340
ℹ Compressed filesize 985,311,313
ℹ sha256sum 9311a57fcbde8dd832e954821bdf0e1f3e2899d9567f6c3b5d7a2d1161fa3e7d
✔ Saved to PhilArchive.jsonl.zst
ℹ 33,990 publications
ℹ Uncompressed filesize 2,610,566,629
ℹ Compressed filesize 797,708,027
ℹ sha256sum e90529b9b3961328d1e34b60534a8e0f73d5ad1f104e22a217de53cd53c41fea
The-Pile V1 用に作成された統計シート。