The Pile PhilPapers
1.0.0
ดาวน์โหลด แยกวิเคราะห์ และกรองคอลเลกชันสิ่งพิมพ์ปรัชญา PhilPapers ที่เข้าถึงได้แบบเปิด พร้อมข้อมูลสำหรับ The-Pile
PhilPapers (PP) ได้รับการจัดทำดัชนีโดยใช้ OAI-MPH ซึ่งเป็นโปรโตคอล Open Archives Initiative สำหรับการเก็บเกี่ยวข้อมูลเมตา ดังนั้น ขั้นตอนแรกในการรวบรวมข้อมูลคือการรับ XML สำหรับลิงก์ทั้งหมด ทำได้โดยใช้เครื่องเก็บเกี่ยวที่ดัดแปลงจากที่นี่:
python pyoaiharvest.py -l https://philarchive.org/oai.pl -o data/phil_meta.xml
จากนั้นจะมีการดาวน์โหลดสิ่งพิมพ์แต่ละฉบับ บางรายการไม่มีอยู่หรือถูกลบโดยผู้เขียน เอกสารที่มีข้อความจะถูกแยกโดยใช้ pdfbox แต่เอกสารที่มีข้อความที่ไม่สามารถอ่านได้ด้วยเครื่องจะถูกละเว้น สิ่งพิมพ์ที่ไม่ใช่ภาษาอังกฤษจะถูกเก็บไว้ และข้อมูลเมตาสะท้อนถึงภาษาที่รายงานโดย OAI-MPH XML ข้อความถูกกรองด้วย pdf_filter.py จาก PDFextract
✔ Saved to PhilArchive.jsonl.zst
ℹ Collection completed 12/15/2021
ℹ 42,464 publications (8,474 added, 24.9% growth)
ℹ Uncompressed filesize 3,270,636,340
ℹ Compressed filesize 985,311,313
ℹ sha256sum 9311a57fcbde8dd832e954821bdf0e1f3e2899d9567f6c3b5d7a2d1161fa3e7d
✔ Saved to PhilArchive.jsonl.zst
ℹ 33,990 publications
ℹ Uncompressed filesize 2,610,566,629
ℹ Compressed filesize 797,708,027
ℹ sha256sum e90529b9b3961328d1e34b60534a8e0f73d5ad1f104e22a217de53cd53c41fea
แผ่นสถิติ ที่สร้างขึ้นสำหรับ The-Pile V1