arXivRAG 는 arXiv 데이터베이스에서 학술 콘텐츠의 검색 및 생성을 향상하도록 설계된 포괄적인 도구입니다. arXivRAG는 고급 RAG(Retrieval-Augmented Generation) 기술을 활용하여 연구자, 학생 및 열성팬에게 arXiv 논문의 요약, 통찰력 및 분석을 효율적으로 발견하고 생성할 수 있는 기능을 제공합니다.
검색 증강 생성(Retrieval-Augmented Generation) : 검색 시스템의 성능을 생성 모델과 결합하여 응답의 정확성과 관련성을 향상시킵니다.
arXiv 통합 : arXiv 저장소에 직접 쿼리하여 학술 논문을 가져오고 요약합니다.
사용자 친화적인 인터페이스 : 과학 논문의 요약을 쿼리하고 얻기 위한 사용하기 쉬운 인터페이스를 제공합니다.
사용자 정의 가능 : 사용자가 특정 요구 사항에 맞게 검색 및 생성 매개변수를 사용자 정의할 수 있습니다.
향상된 검색 : 관련 논문을 빠르게 찾을 수 있는 고급 검색 기능입니다.
요약 : arXiv 논문에 대한 간결한 요약을 자동으로 생성합니다.
맞춤형 쿼리 : 학술 논문에서 특정 정보를 검색하는 맞춤형 쿼리를 지원합니다.
실시간 액세스 : 실시간 데이터 액세스를 위해 arXiv API와 원활하게 통합됩니다.
인용 및 동향 분석 : 인용 네트워크를 분석하고, 논문의 영향력을 시각화하며, 최근 출판물 및 인용 패턴을 기반으로 새로운 연구 동향을 식별합니다.
arXivRAG를 시작하려면 다음 단계를 따르세요.
저장소를 복제합니다.
git clone https://github.com/phitrann/arXivRAG.git cd arXivRAG
가상 환경을 생성합니다(conda 사용을 권장합니다):
conda create -n arxiv-rag python=3.10 conda activate arxiv-rag
필요한 종속성을 설치합니다.
pip install -r requirements.txt
arXivRAG를 사용하려면 다음 단계를 따르세요.
기본 스크립트를 실행합니다.
python main.py
시스템을 쿼리합니다.
과학 논문과 관련된 검색어를 입력하세요.
시스템은 arXiv에서 관련 논문을 검색하고 요약을 생성합니다.
구성 파일 config.yaml
수정하여 arXivRAG의 동작을 사용자 정의할 수 있습니다. 주요 매개변수는 다음과 같습니다.
retrieval_model : 관련 논문을 검색하는 데 사용되는 모델입니다.
Generation_model : 요약을 생성하는 데 사용되는 모델입니다.
num_retrievals : 각 쿼리에 대해 검색할 논문 수입니다.
max_summary_length : 생성된 요약의 최대 길이입니다.
우리는 커뮤니티의 기여를 환영합니다! 새로운 기능이나 개선 사항에 대한 아이디어가 있다면 언제든지 이슈를 공개하거나 풀 요청을 제출해 주세요.
풀 요청을 제출하려면 다음 단계를 따르세요.
저장소를 포크하십시오.
새 분기를 만듭니다.
git checkout -b feature/your-feature-name
변경하고 커밋합니다.
git commit -m "Add your commit message"
지점으로 푸시:
git push origin feature/your-feature-name
풀 요청을 생성합니다.
이 프로젝트는 Apache 2.0 라이센스에 따라 릴리스됩니다. 자세한 내용은 LICENSE 파일을 참조하세요.
arXivRAG 프로젝트의 기여자들에게 감사드립니다.
이 프로젝트에 사용된 검색 및 생성 모델 개발자에게 특별히 감사드립니다.