Descargue, analice y filtre una colección de acceso abierto de publicaciones de filosofía PhilPapers, preparada para The-Pile.
Los PhilPapers (PP) están indexados utilizando OAI-MPH, el Protocolo de la Iniciativa de Archivos Abiertos para la recolección de metadatos. Como tal, el primer paso para recopilar datos es obtener el XML de todos los enlaces. Esto se hizo usando una cosechadora modificada desde aquí:
python pyoaiharvest.py -l https://philarchive.org/oai.pl -o data/phil_meta.xml
A partir de ahí se descarga cada publicación. Algunas entradas no existen o han sido eliminadas por los autores. Los artículos con texto se extraen mediante pdfbox, pero los artículos con texto que no es legible por máquina se ignoran. Se conservan las publicaciones en idiomas distintos del inglés y los metadatos reflejan el idioma informado por el XML de OAI-MPH. El texto se filtra con pdf_filter.py de PDFextract
✔ Saved to PhilArchive.jsonl.zst
ℹ Collection completed 12/15/2021
ℹ 42,464 publications (8,474 added, 24.9% growth)
ℹ Uncompressed filesize 3,270,636,340
ℹ Compressed filesize 985,311,313
ℹ sha256sum 9311a57fcbde8dd832e954821bdf0e1f3e2899d9567f6c3b5d7a2d1161fa3e7d
✔ Saved to PhilArchive.jsonl.zst
ℹ 33,990 publications
ℹ Uncompressed filesize 2,610,566,629
ℹ Compressed filesize 797,708,027
ℹ sha256sum e90529b9b3961328d1e34b60534a8e0f73d5ad1f104e22a217de53cd53c41fea
Hoja de estadísticas creada para The-Pile V1.