ArXiv Miner é um kit de ferramentas para mineração de artigos de pesquisa em CS ArXiv.
arxiv-miner
é uma biblioteca rápida e útil que ajuda a potencializar o Sci-Genie [o projeto não está mais hospedado e partes dele serão de código aberto no futuro]. Sci-Genie era um mecanismo de busca para pesquisar rapidamente o texto completo de artigos no CS ArXiv.
arxiv-miner
ajuda a extrair e analisar documentos LaTeX do CS ArXiv. Ele também suporta armazenamento e pesquisa desses documentos analisados usando Elasticsearch . A biblioteca pode ser aplicável a todos os outros domínios, como matemática, física, biologia, etc.
Toda a documentação sobre como instalar e usar arxiv-miner
é fornecida no site de documentação ou dentro da pasta docs. Diretrizes de contribuição também são fornecidas lá.
O ArXiv Miner foi criado para extrair, analisar e pesquisar facilmente conteúdo de pesquisa no ArXiv. Esta biblioteca foi criada após unir soluções do código de várias ferramentas como arxiv-sanity, arxiv-vanity/engrafo, arxivscraper, tex2py, cso-classifier e axcell. A estrutura analisada do conteúdo pode ser útil em pesquisas ou em qualquer aplicação de mineração/IA de pesquisa científica como base heurística.
arxiv-table-miner
: Em breve.arxiv-table-ml-models
: Em breve.semantic-scholar-data-pipeline
: https://github.com/valayDave/semantic-scholar-data-pipeline Este projeto foi desenvolvido como um programador Cowboy durante a pandemia de COVID-19. Portanto, pode haver bugs e não o código mais bem otimizado . O principal motivo do desenvolvimento foi ajudar na pesquisa de CS e aprendizado de máquina/IA, mas esta ferramenta pode ser estendida a todos os mais de 3 milhões de documentos no ArXiv.
Qualquer ajuda com contribuições para melhorar o projeto ou corrigir bugs é totalmente bem-vinda. Por favor, leia o guia de contribuição na documentação.
Este projeto, como todos os outros, foi construído sobre ombros de gigantes. Um grande obrigado aos criadores das seguintes bibliotecas/projetos de código aberto que ajudaram no desenvolvimento do arxiv-miner
e de sua família de projetos:
MIT