قم بتنزيل وتحليل وتصفية مجموعة الوصول المفتوح من منشورات الفلسفة PhilPapers، الجاهزة للبيانات لـ The-Pile.
تمت فهرسة PhilPapers (PP) باستخدام OAI-MPH، بروتوكول مبادرة الأرشيف المفتوح لحصاد البيانات الوصفية. وعلى هذا النحو، فإن الخطوة الأولى لجمع البيانات هي الحصول على ملف XML لجميع الروابط. تم ذلك باستخدام آلة الحصاد المعدلة من هنا:
python pyoaiharvest.py -l https://philarchive.org/oai.pl -o data/phil_meta.xml
ومن هنا يتم تنزيل كل منشور. بعض الإدخالات غير موجودة، أو تمت إزالتها من قبل المؤلفين. يتم استخراج الأوراق التي تحتوي على نص باستخدام pdfbox، ولكن يتم تجاهل الأوراق التي تحتوي على نص غير قابل للقراءة آليًا. يتم الاحتفاظ بالمنشورات غير الإنجليزية، وتعكس البيانات الوصفية اللغة التي تم الإبلاغ عنها بواسطة OAI-MPH XML. تتم تصفية النص باستخدام pdf_filter.py من PDFextract
✔ Saved to PhilArchive.jsonl.zst
ℹ Collection completed 12/15/2021
ℹ 42,464 publications (8,474 added, 24.9% growth)
ℹ Uncompressed filesize 3,270,636,340
ℹ Compressed filesize 985,311,313
ℹ sha256sum 9311a57fcbde8dd832e954821bdf0e1f3e2899d9567f6c3b5d7a2d1161fa3e7d
✔ Saved to PhilArchive.jsonl.zst
ℹ 33,990 publications
ℹ Uncompressed filesize 2,610,566,629
ℹ Compressed filesize 797,708,027
ℹ sha256sum e90529b9b3961328d1e34b60534a8e0f73d5ad1f104e22a217de53cd53c41fea
تم إنشاء ورقة الإحصائيات لـ The-Pile V1.