ArXiv Miner adalah toolkit untuk menambang makalah penelitian di CS ArXiv.
arxiv-miner
adalah perpustakaan praktis yang membantu mendukung Sci-Genie [Proyek tidak lagi dihosting dan sebagian darinya akan menjadi sumber terbuka di masa mendatang]. Sci-Genie adalah mesin pencari untuk mencari dengan cepat teks lengkap makalah di CS ArXiv.
arxiv-miner
membantu mengekstrak dan mengurai dokumen LaTeX dari CS ArXiv. Ini juga mendukung penyimpanan dan pencarian dokumen yang diurai menggunakan Elasticsearch . Perpustakaan dapat diterapkan untuk semua domain lain seperti Matematika, Fisika, Biologi, dll.
Semua dokumentasi tentang cara menginstal dan menggunakan arxiv-miner
disediakan di situs dokumentasi atau di dalam folder docs. Pedoman kontribusi juga disediakan di sana.
ArXiv Miner dibuat untuk memudahkan pengikisan, penguraian, dan pencarian konten penelitian di ArXiv. Pustaka ini dibuat setelah menggabungkan solusi dari kode berbagai alat seperti arxiv-sanity, arxiv-vanity/engrafo, arxivscraper, tex2py, cso-classifier, dan axcell. Struktur konten yang diurai dapat berguna dalam penelusuran atau penelitian ilmiah apa pun, penambangan/aplikasi AI sebagai dasar heuristik.
arxiv-table-miner
: Segera Hadir.arxiv-table-ml-models
: Segera Hadir.semantic-scholar-data-pipeline
: https://github.com/valayDave/semantic-scholar-data-pipeline Proyek ini dikembangkan seperti pembuat kode Cowboy selama pandemi COVID-19. Oleh karena itu, ini mungkin memiliki bug dan bukan kode yang dioptimalkan dengan baik . Alasan utama pengembangan ini adalah untuk membantu penelitian CS dan Machine Learning/AI, namun alat ini dapat diperluas ke semua dokumen 3M+ di ArXiv.
Bantuan apa pun dengan kontribusi untuk meningkatkan proyek atau memperbaiki bug sangat kami harapkan. Silakan baca panduan kontribusi dalam dokumentasi.
Proyek ini, seperti proyek lainnya, dibangun di atas bahu para raksasa. Terima kasih yang sebesar-besarnya kepada pencipta perpustakaan/proyek sumber terbuka berikut yang membantu pengembangan arxiv-miner
, dan rangkaian proyeknya:
MIT