The Pile PhilPapers
1.0.0
The-Pile용 데이터 지원 철학 출판물 PhilPapers의 오픈 액세스 컬렉션을 다운로드하고, 구문 분석하고, 필터링하세요.
PhilPapers(PP)는 메타데이터 수집을 위한 Open Archives Initiative Protocol인 OAI-MPH를 사용하여 색인화됩니다. 따라서 데이터를 수집하는 첫 번째 단계는 모든 링크에 대한 XML을 가져오는 것입니다. 이 작업은 여기에서 수정된 수확기를 사용하여 수행되었습니다.
python pyoaiharvest.py -l https://philarchive.org/oai.pl -o data/phil_meta.xml
여기에서 각 출판물이 다운로드됩니다. 일부 항목이 존재하지 않거나 작성자에 의해 제거되었습니다. 텍스트가 있는 논문은 pdfbox를 사용하여 추출되지만 기계가 읽을 수 없는 텍스트가 있는 논문은 무시됩니다. 영어 이외의 언어로 된 출판물은 보관되며 메타데이터는 OAI-MPH XML에서 보고된 언어를 반영합니다. 텍스트는 PDFextract의 pdf_filter.py로 필터링됩니다.
✔ Saved to PhilArchive.jsonl.zst
ℹ Collection completed 12/15/2021
ℹ 42,464 publications (8,474 added, 24.9% growth)
ℹ Uncompressed filesize 3,270,636,340
ℹ Compressed filesize 985,311,313
ℹ sha256sum 9311a57fcbde8dd832e954821bdf0e1f3e2899d9567f6c3b5d7a2d1161fa3e7d
✔ Saved to PhilArchive.jsonl.zst
ℹ 33,990 publications
ℹ Uncompressed filesize 2,610,566,629
ℹ Compressed filesize 797,708,027
ℹ sha256sum e90529b9b3961328d1e34b60534a8e0f73d5ad1f104e22a217de53cd53c41fea
The-Pile V1용으로 생성된 통계 시트 .