ArXiv Miner est une boîte à outils pour les documents de recherche minière sur CS ArXiv.
arxiv-miner
est une bibliothèque rapide et pratique qui permet d'alimenter Sci-Genie [le projet n'est plus hébergé et certaines parties seront open source à l'avenir]. Sci-Genie était un moteur de recherche permettant de rechercher rapidement dans le texte intégral des articles sur CS ArXiv.
arxiv-miner
permet d'extraire et d'analyser les documents LaTeX de CS ArXiv. Il prend également en charge le stockage et la recherche de ces documents analysés à l'aide d'Elasticsearch . La bibliothèque peut être applicable à tous les autres domaines comme les mathématiques, la physique, la biologie, etc.
Toute la documentation sur la façon d'installer et d'utiliser arxiv-miner
est fournie sur le site Web de documentation ou dans le dossier docs. Des directives de contribution y sont également fournies.
ArXiv Miner a été créé pour récupérer, analyser et rechercher facilement du contenu de recherche sur ArXiv. Cette bibliothèque a été créée après avoir assemblé des solutions à partir du code de divers outils comme arxiv-sanity, arxiv-vanity/engrafo, arxivscraper, tex2py, cso-classifier et axcell. La structure analysée du contenu peut être utile dans la recherche ou dans toute application d'exploration de recherche scientifique/IA comme base heuristique.
arxiv-table-miner
: bientôt disponible.arxiv-table-ml-models
: bientôt disponible.semantic-scholar-data-pipeline
: https://github.com/valayDave/semantic-scholar-data-pipeline Ce projet a été développé comme un codeur Cowboy pendant la pandémie de COVID-19. Par conséquent, cela peut avoir des bugs et pas le code le mieux optimisé . La principale raison du développement était de faciliter la recherche sur l'informatique et l'apprentissage automatique/IA, mais cet outil peut être étendu à plus de 3 millions de documents sur ArXiv.
Toute aide avec des contributions pour améliorer le projet ou corriger des bugs est la bienvenue. Veuillez lire le guide de contribution dans la documentation.
Ce projet, comme tous les autres, a été bâti sur les épaules de géants. Un grand merci aux créateurs des bibliothèques/projets open source suivants qui ont aidé au développement d' arxiv-miner
et de sa famille de projets :
MIT