arxiv miner
v2.0.3 : Bug
ArXiv Miner 是一個用於挖掘 CS ArXiv 上研究論文的工具包。
arxiv-miner
是一個快速方便的函式庫,可協助支援 Sci-Genie [專案不再託管,部分內容將在未來開源]。 Sci-Genie 是一個快速搜尋 CS ArXiv 上論文全文的搜尋引擎。
arxiv-miner
可協助從 CS ArXiv 擷取和解析 LaTeX 文件。它還支援使用Elasticsearch儲存和搜尋那些已解析的文件。該庫可適用於數學、物理、生物學等所有其他領域。
有關如何安裝和使用arxiv-miner
所有文件都在文件網站或 docs 資料夾內提供。那裡還提供了貢獻指南。
ArXiv Miner 的創建是為了輕鬆抓取、解析和搜尋 ArXiv 上的研究內容。該函式庫是在將 arxiv-sanity、arxiv-vanity/engrafo、arxivscraper、tex2py、cso-classifier 和 axcell 等各種工具的程式碼拼接在一起後創建的。內容的解析結構可作為啟發式基線在搜尋或任何科學研究挖掘/人工智慧應用中有用。
arxiv-table-miner
:即將推出。arxiv-table-ml-models
:即將推出。semantic-scholar-data-pipeline
:https://github.com/valayDave/semantic-scholar-data-pipeline 該項目的開發就像 COVID-19 大流行期間的牛仔編碼員一樣。因此,這可能存在錯誤,並且不是最優化的程式碼。開發的主要原因是為了幫助 CS 和機器學習/人工智慧研究,但該工具可以擴展到 ArXiv 上的所有 3M+ 文件。
完全歡迎任何有助於改進專案或修復錯誤的貢獻。請閱讀文件中的貢獻指南。
與其他所有項目一樣,這個項目也是建立在巨人的肩膀上的。非常感謝以下函式庫/開源專案的創建者,它們幫助了arxiv-miner
及其專案系列的開發:
麻省理工學院