Unduh, parse, dan filter koleksi akses terbuka publikasi filsafat PhilPapers, data siap untuk The-Pile.
PhilPapers (PP) diindeks menggunakan OAI-MPH, Open Archives Initiative Protocol for Metadata Harvesting. Oleh karena itu, langkah pertama untuk mengumpulkan data adalah mendapatkan XML untuk semua tautan. Ini dilakukan dengan menggunakan pemanen yang dimodifikasi dari sini:
python pyoaiharvest.py -l https://philarchive.org/oai.pl -o data/phil_meta.xml
Dari situ, setiap publikasi diunduh. Beberapa entri tidak ada, atau telah dihapus oleh penulis. Makalah dengan teks diekstraksi menggunakan pdfbox, tetapi makalah dengan teks yang tidak dapat dibaca mesin diabaikan. Publikasi non-bahasa Inggris disimpan, dan metadatanya mencerminkan bahasa yang dilaporkan oleh XML OAI-MPH. Teks disaring dengan pdf_filter.py dari ekstrak PDF
✔ Saved to PhilArchive.jsonl.zst
ℹ Collection completed 12/15/2021
ℹ 42,464 publications (8,474 added, 24.9% growth)
ℹ Uncompressed filesize 3,270,636,340
ℹ Compressed filesize 985,311,313
ℹ sha256sum 9311a57fcbde8dd832e954821bdf0e1f3e2899d9567f6c3b5d7a2d1161fa3e7d
✔ Saved to PhilArchive.jsonl.zst
ℹ 33,990 publications
ℹ Uncompressed filesize 2,610,566,629
ℹ Compressed filesize 797,708,027
ℹ sha256sum e90529b9b3961328d1e34b60534a8e0f73d5ad1f104e22a217de53cd53c41fea
Lembar Stat dibuat untuk The-Pile V1.