Annoter automatiquement les articles à l'aide des LLM
annotateai
annote automatiquement les articles à l'aide de grands modèles linguistiques (LLM). Alors que les LLM peuvent résumer des articles, rechercher des articles et créer un texte génératif sur les articles, ce projet vise à fournir aux lecteurs humains un contexte pendant leur lecture.
Un appel sur une seule ligne effectue les opérations suivantes :
Lit le journal
Trouve le titre et les concepts clés importants
Parcourt chaque page et trouve les sections qui mettent le mieux l’accent sur les concepts clés
Lit la section et construit un sujet court et concis
Annote le document et met en évidence ces sections
Le moyen le plus simple d'installer est via pip et PyPI
pip install annotateai
Python 3.9+ est pris en charge. L'utilisation d'un environnement virtuel Python est recommandée.
annotateai
peut également être installé directement depuis GitHub pour accéder aux dernières fonctionnalités inédites.
pip install git+https://github.com/neuml/annotateai
annotateai
peut annoter n'importe quel PDF, mais il fonctionne particulièrement bien pour les articles médicaux et scientifiques. Ce qui suit montre une série d'exemples utilisant des articles d'arXiv.
Ce projet fonctionne également bien avec les articles de PubMed, bioRxiv et medRxiv !
Installez ce qui suit.
# Remplacez autoawq[kernels] par "autoawq autoawq-kernels" si une erreur flash-attn est généréepip install annotateai autoawq[kernels]# Les utilisateurs de macOS devraient exécuter ceci à la placepip install annotateai llama-cpp-python
Le paramètre d'entrée principal est le chemin d'accès au LLM. Ce projet est soutenu par txtai et prend en charge tout LLM pris en charge par txtai.
from annotateai import Annotate# Ce modèle fonctionne bien avec la littérature médicale et scientifiqueannotate = Annotate("NeuML/Llama-3.1_OpenScholar-8B-AWQ")# Les utilisateurs de macOS devraient l'exécuter à la placeannotate = Annotate( "bartowski/Llama-3.1_OpenScholar-8B- GGUF/Llama-3.1_OpenScholar-8B-Q4_K_M.gguf")
Cet article a proposé RAG avant que la plupart d’entre nous sachent que nous en avions besoin.
annoter("https://arxiv.org/pdf/2005.11401")
Source : https://arxiv.org/pdf/2005.11401
Cet article construit le plus grand modèle de génération vidéo open source. C'est une tendance sur Papers With Code en décembre 2024.
annoter("https://arxiv.org/pdf/2412.03603v2")
Source : https://arxiv.org/pdf/2412.03603v2
Cet article a été présenté lors de la 38th Conference on Neural Information Processing Systems (NeurIPS 2024) Track on Datasets and Benchmarks
.
annoter("https://arxiv.org/pdf/2406.14657")
Source : https://arxiv.org/pdf/2406.14657
Comme mentionné précédemment, ce projet prend en charge tout LLM pris en charge par txtai. Quelques exemples ci-dessous.
pip install txtai[pipeline-llm]
# Services API LLMannotate = Annotate("gpt-4o")annotate = Annotate("claude-3-5-sonnet-20240620")# Ollama endpointannotate = Annotate("ollama/llama3.1")# lama.cpp GGUF de Hugging Face Hubannoter = Annoter ( "bartowski/Llama-3.1_OpenScholar-8B-GGUF/Llama-3.1_OpenScholar-8B-Q4_K_M.gguf")
Le mode par défaut d'une instance annotate
consiste à générer automatiquement les concepts clés à rechercher. Mais ces concepts peuvent être fournis via le paramètre keywords
.
annoter("https://arxiv.org/pdf/2005.11401", mots-clés=["hallucinations", "llm"])
Ceci est utile dans les situations où nous avons un grand nombre d'articles et où nous souhaitons qu'il identifie un ensemble spécifique de concepts pour faciliter une révision.
La barre de progression peut être désactivée comme suit :
annoter("https://arxiv.org/pdf/2005.11401", progress=False)
neuml/annotateai est une application web disponible sur Docker Hub.
Cela peut être exécuté avec les paramètres par défaut comme suit.
docker run -d --gpus=all -it -p 8501:8501 neuml/annotateai
Le LLM peut également être défini via les paramètres ENV.
docker run -d --gpus=all -it -p 8501:8501 -e LLM=bartowski/Llama-3.2-1B-Instruct-GGUF/Llama-3.2-1B-Instruct-Q4_K_M.gguf neuml/annotateai
Le code de cette application se trouve dans le dossier de l'application.
Présentation d'AnnotateAI