Téléchargez, analysez et filtrez une collection en libre accès de publications philosophiques PhilPapers, prêtes pour les données pour The-Pile.
Les PhilPapers (PP) sont indexés à l'aide de l'OAI-MPH, le protocole de l'Open Archives Initiative for Metadata Harvesting. En tant que tel, la première étape pour collecter les données consiste à obtenir le XML pour tous les liens. Cela a été fait à l'aide d'une moissonneuse modifiée à partir d'ici :
python pyoaiharvest.py -l https://philarchive.org/oai.pl -o data/phil_meta.xml
À partir de là, chaque publication est téléchargée. Certaines entrées n'existent pas ou ont été supprimées par les auteurs. Les articles contenant du texte sont extraits à l'aide de pdfbox, mais les articles contenant du texte non lisible par machine sont ignorés. Les publications en langue autre que l'anglais sont conservées et les métadonnées reflètent la langue indiquée par le XML OAI-MPH. Le texte est filtré avec pdf_filter.py depuis PDFextract
✔ Saved to PhilArchive.jsonl.zst
ℹ Collection completed 12/15/2021
ℹ 42,464 publications (8,474 added, 24.9% growth)
ℹ Uncompressed filesize 3,270,636,340
ℹ Compressed filesize 985,311,313
ℹ sha256sum 9311a57fcbde8dd832e954821bdf0e1f3e2899d9567f6c3b5d7a2d1161fa3e7d
✔ Saved to PhilArchive.jsonl.zst
ℹ 33,990 publications
ℹ Uncompressed filesize 2,610,566,629
ℹ Compressed filesize 797,708,027
ℹ sha256sum e90529b9b3961328d1e34b60534a8e0f73d5ad1f104e22a217de53cd53c41fea
Feuille de statistiques créée pour The-Pile V1.