Laden Sie eine Open-Access-Sammlung philosophischer Publikationen von PhilPapers herunter, analysieren und filtern Sie sie, datenbereit für The-Pile.
Die PhilPapers (PP) werden mithilfe von OAI-MPH, dem Open Archives Initiative Protocol for Metadata Harvesting, indiziert. Daher besteht der erste Schritt zum Sammeln der Daten darin, das XML für alle Links abzurufen. Dies wurde mit einem von hier modifizierten Harvester durchgeführt:
python pyoaiharvest.py -l https://philarchive.org/oai.pl -o data/phil_meta.xml
Von dort wird jede Publikation heruntergeladen. Einige Einträge existieren nicht oder wurden von den Autoren entfernt. Papiere mit Text werden mit pdfbox extrahiert, Papiere mit nicht maschinenlesbarem Text werden jedoch ignoriert. Nicht englischsprachige Veröffentlichungen werden aufbewahrt und die Metadaten spiegeln die vom OAI-MPH XML gemeldete Sprache wider. Der Text wird mit pdf_filter.py von PDFextract gefiltert
✔ Saved to PhilArchive.jsonl.zst
ℹ Collection completed 12/15/2021
ℹ 42,464 publications (8,474 added, 24.9% growth)
ℹ Uncompressed filesize 3,270,636,340
ℹ Compressed filesize 985,311,313
ℹ sha256sum 9311a57fcbde8dd832e954821bdf0e1f3e2899d9567f6c3b5d7a2d1161fa3e7d
✔ Saved to PhilArchive.jsonl.zst
ℹ 33,990 publications
ℹ Uncompressed filesize 2,610,566,629
ℹ Compressed filesize 797,708,027
ℹ sha256sum e90529b9b3961328d1e34b60534a8e0f73d5ad1f104e22a217de53cd53c41fea
Statistikblatt erstellt für The-Pile V1.