Baixe, analise e filtre uma coleção de publicações de filosofia de acesso aberto PhilPapers, pronta para dados para The-Pile.
Os PhilPapers (PP) são indexados usando OAI-MPH, o Open Archives Initiative Protocol for Metadata Harvesting. Dessa forma, a primeira etapa para coletar os dados é obter o XML de todos os links. Isso foi feito usando uma colheitadeira modificada aqui:
python pyoaiharvest.py -l https://philarchive.org/oai.pl -o data/phil_meta.xml
A partir disso, cada publicação é baixada. Algumas entradas não existem ou foram removidas pelos autores. Os artigos com texto são extraídos usando o pdfbox, mas os artigos com texto não legível por máquina são ignorados. As publicações em idiomas diferentes do inglês são mantidas e os metadados refletem o idioma relatado pelo XML OAI-MPH. O texto é filtrado com pdf_filter.py do PDFextract
✔ Saved to PhilArchive.jsonl.zst
ℹ Collection completed 12/15/2021
ℹ 42,464 publications (8,474 added, 24.9% growth)
ℹ Uncompressed filesize 3,270,636,340
ℹ Compressed filesize 985,311,313
ℹ sha256sum 9311a57fcbde8dd832e954821bdf0e1f3e2899d9567f6c3b5d7a2d1161fa3e7d
✔ Saved to PhilArchive.jsonl.zst
ℹ 33,990 publications
ℹ Uncompressed filesize 2,610,566,629
ℹ Compressed filesize 797,708,027
ℹ sha256sum e90529b9b3961328d1e34b60534a8e0f73d5ad1f104e22a217de53cd53c41fea
Folha de estatísticas criada para The-Pile V1.