使用法学硕士自动注释论文
annotateai
使用大型语言模型 (LLM) 自动注释论文。虽然法学硕士可以总结论文、搜索论文并构建有关论文的生成文本,但该项目的重点是为人类读者提供阅读时的上下文。
单行调用执行以下操作:
读论文
查找标题和重要的关键概念
浏览每一页并找到最能强调关键概念的部分
阅读该部分并构建一个简洁的简短主题
对论文进行注释并突出显示这些部分
最简单的安装方法是通过 pip 和 PyPI
pip install annotateai
支持 Python 3.9+。推荐使用Python虚拟环境。
annotateai
也可以直接从 GitHub 安装,以访问最新的、未发布的功能。
pip install git+https://github.com/neuml/annotateai
annotateai
可以注释任何 PDF,但它对于医学和科学论文尤其有效。下面展示了一系列使用 arXiv 论文的示例。
该项目还可以与 PubMed、bioRxiv 和 medRxiv 的论文很好地配合!
安装以下内容。
# 如果出现 flash-attn 错误,请将 autoawq[kernels] 更改为“autoawq autoawq-kernels”pip install annotateai autoawq[kernels]# macOS 用户应该运行此命令 pip install annotateai llama-cpp-python
主要输入参数是 LLM 的路径。该项目由 txtai 支持,并且支持任何 txtai 支持的 LLM。
from annotateai import Annotate# 这个模型适用于医学和科学文献annotate = Annotate("NeuML/Llama-3.1_OpenScholar-8B-AWQ")# macOS 用户应该运行这个annotate = Annotate( “巴托夫斯基/Llama-3.1_OpenScholar-8B-GGUF/Llama-3.1_OpenScholar-8B-Q4_K_M.gguf”)
在我们大多数人知道我们需要 RAG 之前,这篇论文就提出了它。
注释(“https://arxiv.org/pdf/2005.11401”)
资料来源:https://arxiv.org/pdf/2005.11401
本文构建了最大的开源视频生成模型。截至 2024 年 12 月,它是 Papers With Code 上的热门话题。
注释(“https://arxiv.org/pdf/2412.03603v2”)
资料来源:https://arxiv.org/pdf/2412.03603v2
该论文已在38th Conference on Neural Information Processing Systems (NeurIPS 2024) Track on Datasets and Benchmarks
发表。
注释(“https://arxiv.org/pdf/2406.14657”)
资料来源:https://arxiv.org/pdf/2406.14657
如前所述,该项目支持任何 txtai 支持的 LLM。下面是一些例子。
pip install txtai[pipeline-llm]
# LLM API servicesannotate = Annotate("gpt-4o")annotate = Annotate("claude-3-5-sonnet-20240620")# Ollama端点annotate = Annotate("ollama/llama3.1")# llama.cpp GGUF from Hugging脸部 Hubannotate = 注释( “巴托夫斯基/Llama-3.1_OpenScholar-8B-GGUF/Llama-3.1_OpenScholar-8B-Q4_K_M.gguf”)
annotate
实例的默认模式是自动生成要搜索的关键概念。但这些概念可以通过keywords
参数提供。
注释(“https://arxiv.org/pdf/2005.11401”,关键字= [“幻觉”,“llm”])
这对于我们拥有大量论文并且希望它识别一组特定概念来帮助审阅的情况非常有用。
可以按如下方式禁用进度条:
注释(“https://arxiv.org/pdf/2005.11401”,进度= False)
neuml/annotateai 是 Docker Hub 上可用的 Web 应用程序。
这可以使用默认设置运行,如下所示。
docker run -d --gpus=all -it -p 8501:8501 neuml/annotateai
LLM 也可以通过 ENV 参数进行设置。
docker run -d --gpus=all -it -p 8501:8501 -e LLM=bartowski/Llama-3.2-1B-Instruct-GGUF/Llama-3.2-1B-Instruct-Q4_K_M.gguf neuml/annotateai
该应用程序的代码可以在应用程序文件夹中找到。
介绍 AnnotateAI