arxiv miner
v2.0.3 : Bug
ArXiv Miner 是一个用于挖掘 CS ArXiv 上研究论文的工具包。
arxiv-miner
是一个快速方便的库,可帮助支持 Sci-Genie [项目不再托管,部分内容将来将开源]。 Sci-Genie 是一个快速搜索 CS ArXiv 上论文全文的搜索引擎。
arxiv-miner
帮助从 CS ArXiv 中提取和解析 LaTeX 文档。它还支持使用Elasticsearch存储和搜索那些已解析的文档。该库可适用于数学、物理、生物学等所有其他领域。
有关如何安装和使用arxiv-miner
所有文档都在文档网站或 docs 文件夹内提供。那里还提供了贡献指南。
ArXiv Miner 的创建是为了轻松抓取、解析和搜索 ArXiv 上的研究内容。该库是在将 arxiv-sanity、arxiv-vanity/engrafo、arxivscraper、tex2py、cso-classifier 和 axcell 等各种工具的代码拼接在一起后创建的。内容的解析结构可作为启发式基线在搜索或任何科学研究挖掘/人工智能应用中有用。
arxiv-table-miner
:即将推出。arxiv-table-ml-models
:即将推出。semantic-scholar-data-pipeline
:https://github.com/valayDave/semantic-scholar-data-pipeline 该项目的开发就像 COVID-19 大流行期间的牛仔编码员一样。因此,这可能存在错误,并且不是最优化的代码。开发的主要原因是为了帮助 CS 和机器学习/人工智能研究,但该工具可以扩展到 ArXiv 上的所有 3M+ 文档。
完全欢迎任何有助于改进项目或修复错误的贡献。请阅读文档中的贡献指南。
与其他所有项目一样,这个项目也是建立在巨人的肩膀上的。非常感谢以下库/开源项目的创建者,它们帮助了arxiv-miner
及其项目系列的开发:
麻省理工学院