ArXiv Miner — это набор инструментов для анализа исследовательских работ в CS ArXiv.
arxiv-miner
— это быстрая и удобная библиотека, помогающая Sci-Genie [проект больше не размещается на хосте, и в будущем его части будут открыты с открытым исходным кодом]. Sci-Genie — поисковая система для быстрого поиска по полному тексту статей по CS ArXiv.
arxiv-miner
помогает извлекать и анализировать документы LaTeX из CS ArXiv. Он также поддерживает хранение и поиск этих проанализированных документов с помощью Elasticsearch . Библиотека может быть применима для всех других областей, таких как математика, физика, биология и т. д.
Вся документация по установке и использованию arxiv-miner
представлена на веб-сайте документации или в папке docs. Там же приведены рекомендации по внесению взносов.
ArXiv Miner был создан для простого сбора, анализа и поиска исследовательского контента на ArXiv. Эта библиотека была создана после объединения решений из кода различных инструментов, таких как arxiv-sanity, arxiv-vanity/engrafo, arxivscraper, tex2py, cso-classifier и axcell. Разобранная структура контента может быть полезна в поиске или любых научных исследованиях, приложениях искусственного интеллекта в качестве эвристической основы.
arxiv-table-miner
: Скоро.arxiv-table-ml-models
: Скоро.semantic-scholar-data-pipeline
: https://github.com/valayDave/semantic-scholar-data-pipeline Этот проект был разработан как программист Cowboy во время пандемии COVID-19. Следовательно, здесь могут быть ошибки и не самый хорошо оптимизированный код . Основная причина разработки заключалась в том, чтобы помочь исследованиям в области компьютерных технологий и машинного обучения/ИИ, но этот инструмент можно распространить на все документы 3M+ на ArXiv.
Любая помощь в улучшении проекта или исправлении ошибок приветствуется. Пожалуйста, прочтите руководство по вкладу в документации.
Этот проект, как и все остальные, был построен на плечах гигантов. Большое спасибо создателям следующих библиотек/проектов с открытым исходным кодом, которые помогли в разработке arxiv-miner
и семейства его проектов:
Массачусетский технологический институт