The Pile PhilPapers
1.0.0
下載、解析和過濾哲學出版物 PhilPapers 的開放獲取集合,為 The-Pile 做好數據準備。
PhilPapers (PP) 使用 OAI-MPH(元資料收集開放檔案倡議協議)進行索引。因此,收集資料的第一步是取得所有連結的 XML。這是使用從此處修改的收割機完成的:
python pyoaiharvest.py -l https://philarchive.org/oai.pl -o data/phil_meta.xml
從那裡下載每個出版物。有些條目不存在,或已被作者刪除。使用 pdfbox 提取包含文字的論文,但包含非機器可讀文本的論文將被忽略。保留非英語出版物,元資料反映 OAI-MPH XML 報告的語言。使用 PDFextract 中的 pdf_filter.py 過濾文字
✔ Saved to PhilArchive.jsonl.zst
ℹ Collection completed 12/15/2021
ℹ 42,464 publications (8,474 added, 24.9% growth)
ℹ Uncompressed filesize 3,270,636,340
ℹ Compressed filesize 985,311,313
ℹ sha256sum 9311a57fcbde8dd832e954821bdf0e1f3e2899d9567f6c3b5d7a2d1161fa3e7d
✔ Saved to PhilArchive.jsonl.zst
ℹ 33,990 publications
ℹ Uncompressed filesize 2,610,566,629
ℹ Compressed filesize 797,708,027
ℹ sha256sum e90529b9b3961328d1e34b60534a8e0f73d5ad1f104e22a217de53cd53c41fea
為 The-Pile V1 建立的統計表。