ArXiv Miner عبارة عن مجموعة أدوات لتعدين الأوراق البحثية على CS ArXiv.
arxiv-miner
هي مكتبة سريعة وسهلة الاستخدام تساعد في تشغيل Sci-Genie [لم يعد المشروع مستضافًا وستكون أجزاء منه مفتوحة المصدر في المستقبل]. كان Sci-Genie محرك بحث للبحث بسرعة في النص الكامل للأبحاث الموجودة على CS ArXiv.
يساعد arxiv-miner
في استخراج وتحليل مستندات LaTeX من CS ArXiv. كما أنه يدعم تخزين تلك المستندات التي تم تحليلها والبحث فيها باستخدام Elasticsearch . يمكن أن تكون المكتبة قابلة للتطبيق في جميع المجالات الأخرى مثل الرياضيات والفيزياء والأحياء وما إلى ذلك.
يتم توفير كافة الوثائق المتعلقة بكيفية تثبيت واستخدام arxiv-miner
في موقع التوثيق أو داخل مجلد المستندات. يتم أيضًا توفير إرشادات المساهمة هناك.
تم إنشاء ArXiv Miner لسهولة استخراج محتوى البحث وتحليله والبحث فيه على ArXiv. تم إنشاء هذه المكتبة بعد تجميع الحلول من كود أدوات مختلفة مثل arxiv-sanity، وarxiv-vanity/engrafo، وarxivscraper، وtex2py، وcso-classifier، وaxcell. يمكن أن تكون البنية المحللة للمحتوى مفيدة في البحث أو في أي تطبيقات للبحث العلمي/الذكاء الاصطناعي كخط أساس إرشادي.
arxiv-table-miner
: قريبًا.arxiv-table-ml-models
: قريبًا.semantic-scholar-data-pipeline
: https://github.com/valayDave/semantic-scholar-data-pipeline تم تطوير هذا المشروع مثل مبرمج رعاة البقر خلال جائحة كوفيد-19. ومن ثم، قد يحتوي هذا على أخطاء وليس الكود الأمثل . كان السبب الرئيسي للتطوير هو مساعدة أبحاث علوم الكمبيوتر والتعلم الآلي/الذكاء الاصطناعي، ولكن يمكن توسيع هذه الأداة لتشمل جميع مستندات 3M+ على ArXiv.
نرحب تمامًا بأي مساعدة في المساهمات لتحسين المشروع أو إصلاح الأخطاء. يرجى قراءة دليل المساهمة في الوثائق.
لقد تم بناء هذا المشروع مثل كل المشاريع الأخرى على أكتاف العمالقة. شكرًا جزيلاً لمنشئي المكتبات/المشاريع مفتوحة المصدر التالية التي ساعدت في تطوير arxiv-miner
ومجموعة مشاريعه:
معهد ماساتشوستس للتكنولوجيا