The Pile PhilPapers
1.0.0
下载、解析和过滤哲学出版物 PhilPapers 的开放获取集合,为 The-Pile 做好数据准备。
PhilPapers (PP) 使用 OAI-MPH(元数据收集开放档案倡议协议)进行索引。因此,收集数据的第一步是获取所有链接的 XML。这是使用从此处修改的收割机完成的:
python pyoaiharvest.py -l https://philarchive.org/oai.pl -o data/phil_meta.xml
从那里下载每个出版物。有些条目不存在,或者已被作者删除。使用 pdfbox 提取包含文本的论文,但包含非机器可读文本的论文将被忽略。保留非英语出版物,元数据反映 OAI-MPH XML 报告的语言。使用 PDFextract 中的 pdf_filter.py 过滤文本
✔ Saved to PhilArchive.jsonl.zst
ℹ Collection completed 12/15/2021
ℹ 42,464 publications (8,474 added, 24.9% growth)
ℹ Uncompressed filesize 3,270,636,340
ℹ Compressed filesize 985,311,313
ℹ sha256sum 9311a57fcbde8dd832e954821bdf0e1f3e2899d9567f6c3b5d7a2d1161fa3e7d
✔ Saved to PhilArchive.jsonl.zst
ℹ 33,990 publications
ℹ Uncompressed filesize 2,610,566,629
ℹ Compressed filesize 797,708,027
ℹ sha256sum e90529b9b3961328d1e34b60534a8e0f73d5ad1f104e22a217de53cd53c41fea
为 The-Pile V1 创建的统计表。