LLM을 사용하여 논문에 자동으로 주석 달기
annotateai
LLM(대형 언어 모델)을 사용하여 논문에 자동으로 주석을 답니다. LLM은 논문을 요약하고, 논문을 검색하고, 논문에 대한 생성 텍스트를 작성할 수 있지만, 이 프로젝트는 인간 독자가 읽을 때 맥락을 제공하는 데 중점을 둡니다.
한 줄 호출은 다음을 수행합니다.
논문을 읽습니다
제목과 중요한 핵심 개념을 찾습니다.
각 페이지를 살펴보고 핵심 개념을 가장 잘 강조하는 섹션을 찾습니다.
섹션을 읽고 간결하고 짧은 주제를 구성합니다.
논문에 주석을 달고 해당 섹션을 강조 표시합니다.
가장 쉬운 설치 방법은 pip와 PyPI를 이용하는 것입니다.
pip install annotateai
Python 3.9+가 지원됩니다. Python 가상 환경을 사용하는 것이 좋습니다.
annotateai
GitHub에서 직접 설치하여 아직 출시되지 않은 최신 기능에 액세스할 수도 있습니다.
pip install git+https://github.com/neuml/annotateai
annotateai
모든 PDF에 주석을 달 수 있지만 특히 의학 및 과학 논문에 적합합니다. 다음은 arXiv의 논문을 사용한 일련의 예를 보여줍니다.
이 프로젝트는 PubMed, bioRxiv 및 medRxiv의 논문에도 잘 작동합니다!
다음을 설치하십시오.
# flash-attn 오류가 발생하면 autoawq[kernels]를 "autoawq autoawq-kernels"로 변경합니다.pip install annotateai autoawq[kernels]# macOS 사용자는 대신 이것을 실행해야 합니다pip install annotateai llama-cpp-python
기본 입력 매개변수는 LLM에 대한 경로입니다. 이 프로젝트는 txtai의 지원을 받으며 txtai가 지원하는 모든 LLM을 지원합니다.
from annotateai import Annotate# 이 모델은 의학 및 과학 문헌에 잘 작동합니다.annotate = Annotate("NeuML/Llama-3.1_OpenScholar-8B-AWQ")# macOS 사용자는 대신 이것을 실행해야 합니다annotate = Annotate( "bartowski/Llama-3.1_OpenScholar-8B-GGUF/Llama-3.1_OpenScholar-8B-Q4_K_M.gguf")
이 문서에서는 우리 대부분이 RAG가 필요하다는 사실을 알기도 전에 RAG를 제안했습니다.
주석을 달다("https://arxiv.org/pdf/2005.11401")
출처: https://arxiv.org/pdf/2005.11401
이 문서는 가장 큰 오픈 소스 비디오 생성 모델을 구축합니다. 2024년 12월 현재 Papers With Code에서 인기를 끌고 있습니다.
주석을 달다("https://arxiv.org/pdf/2412.03603v2")
출처: https://arxiv.org/pdf/2412.03603v2
이 논문은 38th Conference on Neural Information Processing Systems (NeurIPS 2024) Track on Datasets and Benchmarks
에서 발표되었습니다.
주석을 달다("https://arxiv.org/pdf/2406.14657")
출처: https://arxiv.org/pdf/2406.14657
앞서 언급했듯이 이 프로젝트는 txtai가 지원하는 모든 LLM을 지원합니다. 아래에 몇 가지 예가 있습니다.
pip install txtai[pipeline-llm]
# LLM API servicesannotate = Annotate("gpt-4o")annotate = Annotate("claude-3-5-sonnet-20240620")# Ollama 엔드포인트annotate = Annotate("ollama/llama3.1")# llama.cpp Hugging의 GGUF 얼굴 Hubannotate = 주석 달기( "bartowski/Llama-3.1_OpenScholar-8B-GGUF/Llama-3.1_OpenScholar-8B-Q4_K_M.gguf")
annotate
인스턴스의 기본 모드는 검색할 주요 개념을 자동으로 생성하는 것입니다. 그러나 이러한 개념은 keywords
매개변수를 통해 제공될 수 있습니다.
주석("https://arxiv.org/pdf/2005.11401", 키워드=["환각", "llm"])
이는 대량의 논문이 있고 검토에 도움이 되는 특정 개념 세트를 식별하려는 상황에 유용합니다.
진행 표시줄은 다음과 같이 비활성화할 수 있습니다.
주석("https://arxiv.org/pdf/2005.11401", 진행=False)
neuml/annotateai는 Docker Hub에서 사용할 수 있는 웹 애플리케이션입니다.
다음과 같이 기본 설정으로 실행할 수 있습니다.
docker run -d --gpus=all -it -p 8501:8501 neuml/annotateai
LLM은 ENV 매개변수를 통해 설정할 수도 있습니다.
docker run -d --gpus=all -it -p 8501:8501 -e LLM=bartowski/Llama-3.2-1B-Instruct-GGUF/Llama-3.2-1B-Instruct-Q4_K_M.gguf neuml/annotateai
이 애플리케이션의 코드는 앱 폴더에서 찾을 수 있습니다.
AnnotateAI 소개