Anotar artículos automáticamente utilizando LLM
annotateai
anota automáticamente artículos utilizando modelos de lenguaje grandes (LLM). Si bien los LLM pueden resumir artículos, buscar artículos y crear textos generativos sobre artículos, este proyecto se enfoca en brindar a los lectores humanos un contexto mientras leen.
Una llamada de una línea hace lo siguiente:
lee el periódico
Encuentra el título y los conceptos clave importantes.
Revisa cada página y encuentra las secciones que mejor enfatizan los conceptos clave.
Lee la sección y construye un tema breve y conciso.
Anota el artículo y resalta esas secciones.
La forma más sencilla de instalar es mediante pip y PyPI.
pip install annotateai
Se admite Python 3.9+. Se recomienda utilizar un entorno virtual Python.
annotateai
también se puede instalar directamente desde GitHub para acceder a las funciones más recientes e inéditas.
pip install git+https://github.com/neuml/annotateai
annotateai
puede anotar cualquier PDF pero funciona especialmente bien para artículos médicos y científicos. A continuación se muestra una serie de ejemplos utilizando artículos de arXiv.
¡Este proyecto también funciona bien con artículos de PubMed, bioRxiv y medRxiv!
Instale lo siguiente.
# Cambie autoawq[kernels] a "autoawq autoawq-kernels" si se genera un error de atención de flashpip install annotateai autoawq[kernels]# Los usuarios de macOS deben ejecutar esto en su lugarpip install annotateai llama-cpp-python
El parámetro de entrada principal es la ruta al LLM. Este proyecto está respaldado por txtai y es compatible con cualquier LLM respaldado por txtai.
from annotateai import Annotate# Este modelo funciona bien con literatura médica y científicaannotate = Annotate("NeuML/Llama-3.1_OpenScholar-8B-AWQ")# Los usuarios de macOS deberían ejecutar esto en su lugarannotate = Annotate( "bartowski/Llama-3.1_OpenScholar-8B-GGUF/Llama-3.1_OpenScholar-8B-Q4_K_M.gguf")
Este artículo propuso RAG antes de que la mayoría de nosotros supiéramos que lo necesitábamos.
anotar ("https://arxiv.org/pdf/2005.11401")
Fuente: https://arxiv.org/pdf/2005.11401
Este artículo construye el modelo de generación de video de código abierto más grande. Es tendencia en Papers With Code a partir de diciembre de 2024.
anotar ("https://arxiv.org/pdf/2412.03603v2")
Fuente: https://arxiv.org/pdf/2412.03603v2
Este artículo se presentó en la 38th Conference on Neural Information Processing Systems (NeurIPS 2024) Track on Datasets and Benchmarks
.
anotar ("https://arxiv.org/pdf/2406.14657")
Fuente: https://arxiv.org/pdf/2406.14657
Como se mencionó anteriormente, este proyecto es compatible con cualquier LLM compatible con txtai. Algunos ejemplos a continuación.
pip install txtai[pipeline-llm]
# Servicios API de LLMannotate = Annotate("gpt-4o")annotate = Annotate("claude-3-5-sonnet-20240620")# Ollama endpointannotate = Annotate("ollama/llama3.1")# llama.cpp GGUF de Hugging Cara Hubannotate = Anotar( "bartowski/Llama-3.1_OpenScholar-8B-GGUF/Llama-3.1_OpenScholar-8B-Q4_K_M.gguf")
El modo predeterminado para una instancia annotate
es generar automáticamente los conceptos clave para buscar. Pero estos conceptos se pueden proporcionar mediante el parámetro keywords
.
annotate("https://arxiv.org/pdf/2005.11401", palabras clave=["alucinaciones", "llm"])
Esto es útil para situaciones en las que tenemos una gran cantidad de artículos y queremos que identifique un conjunto específico de conceptos para ayudar con una revisión.
La barra de progreso se puede desactivar de la siguiente manera:
anotar("https://arxiv.org/pdf/2005.11401", progreso=False)
neuml/annotateai es una aplicación web disponible en Docker Hub.
Esto se puede ejecutar con la configuración predeterminada de la siguiente manera.
docker run -d --gpus=all -it -p 8501:8501 neuml/annotateai
El LLM también se puede configurar mediante parámetros ENV.
docker run -d --gpus=all -it -p 8501:8501 -e LLM=bartowski/Llama-3.2-1B-Instruct-GGUF/Llama-3.2-1B-Instruct-Q4_K_M.gguf neuml/annotateai
El código de esta aplicación se puede encontrar en la carpeta de la aplicación.
Presentamos AnnotateAI