该项目 ChemInstruct 有 3 个主要组成部分:
这两个组件的安装是不同的,并且在各自的文件夹中提到了相同的内容。
NERLLaMA 是一种命名实体识别 (NER) 工具,它使用机器学习方法来识别文本中的命名实体。该工具利用大型语言模型 (LLM) 的强大功能。该工具的设计易于使用且灵活,允许用户根据自己的数据训练和评估模型。
要安装 NERLLaMA,您的系统上需要安装 Python 3.9 或更高版本。要安装 NERLLaMA,请导航到 ChemInstruct/NERLLaMA,然后运行以下命令:
pip install -e .
该工具/包可以如下使用
1:作为包装:
这会在您的活动 python venv 或 conda env 中安装 nerllama 包。因此,该包可以直接在您自己的自定义代码中使用。
from nerllama . schemas . ChemStruct import InstructDataset
id = InstructDataset ()
id . convert_instruction_causal ()
2:从 CLI
上述安装完成后。还可以从终端访问nerl
CLI 界面。此 cli 命令有助于快速、轻松地使用 nerllama 命令来提取实体等。请检查 CLI-Interaction,了解有关如何使用该命令的更多详细信息。
该项目的某些部分依赖于 vllm。确保您拥有 gcc 版本 5 或更高版本,以及 CUDA 版本在 11.0 和 11.8 之间,如 vllm 的安装要求中指定。
NERLLaMA 使用 Hugging Face Transformers 库与法学硕士一起工作。您需要在 Hugging Face 网站上拥有一个帐户才能使用该工具。您可以在这里注册一个帐户。我们通过 GPU 微调并评估了预训练模型。因此,该项目需要在您的系统上安装 CUDA 和 cuDNN。
只有从 Meta AI 门户和 Hugging Face 访问模型后才能访问 LLaMA 模型。可以向 LLaMA HuggingFace 提出同样的要求。
要使用 NERLLaMA,您需要有一个经过训练的模型。在此项目中,我们提供了一个预训练模型,您可以使用它来入门。要使用预训练模型,请运行以下命令:
python main.py --text " Your text goes here " --model " llama2-chat-ft " --pipeline " llm " --auth_token " <your huggingface auth token> "
python main.py --file " <workspace_root>/ChemInstruct/NERLLaMA/nerllama/data/sample.txt " --model " llama2-chat-ft " --pipeline " llm " --auth_token " <your huggingface auth
型号:
llama2-chat-ft
-LLaMA2 聊天微调llama2-base-ft
-LLaMA2 基础微调llama2-chat
- LLaMA2 聊天 HFllama2-chat-70b
- LLaMA2 聊天 HF 70Bmistral-chat-7b
- MistralAI 7B 指令 v0.2falcon-chat-7b
- TII 的 Falcon 7b 指令管道:
llm
- 大语言模型rag
- 检索增强生成我们使用 W&B 来收集和同步生成/训练数据。使用 CLI 时,系统可能会提示您连接到 W&B。
wandb: (1) Create a W & B account
wandb: (2) Use an existing W & B account
wandb: (3) Don ' t visualize my results
wandb: Enter your choice: 3
当要求选择时,输入 3,以跳过连接到 W&B
NERLLaMA 公开了nerl
cli 命令,以便轻松访问收费功能
运行nerl nerllama
命令从给定文件中提取化学实体
nerl nerllama run "<path to file containing chemical literature>" <model HF path / or shorthand (mentioned above)> <pipeline: LLM/RAG> <hf token>
nerl nerllama run /home/ubuntu/data/sample_text.txt llama2-chat-ft LLM hf_*****
nerl nerllama run /home/ubuntu/data/sample_text.txt meta-llama/Meta-Llama-3-8B-Instruct LLM hf_*****
nerl nerllama run /home/ubuntu/data/sample_text.txt llama2-chat-ft RAG hf_*****
TestingNERTools 是一个测试市场上可用的 NER 工具的项目。该项目被设计为易于使用且灵活,允许用户轻松测试项目中支持的工具。
该项目分为两部分:第一部分基于java,第二部分基于python。
首先:要安装 java 部分,您需要在系统上安装 Java 8 或更高版本。
下载以下文件:
将以上下载的所有文件移动到packages文件夹中。
将javafx-sdk-21.zip解压到packages文件夹中
要构建项目,请运行以下命令:
javac -cp " .;<root directory>ChemInstructTestingNERToolspackages*;<root directory>ChemInstructTestingNERToolssrc " <root directory>ChemInstructTestingNERToolssrcStartEvaluation.java
java -cp " .;<root directory>ChemInstructTestingNERToolspackages*;<root directory>ChemInstructTestingNERToolssrc " <root directory>ChemInstructTestingNERToolssrcStartEvaluation.java --directory <input directory path> --tool <tool name> --dataset <dataset>
论据:
第二:要安装 python 部分,您需要在系统上安装 Python 3.9 或更高版本。
要安装所有依赖项,请运行以下命令:
cd python_src
pip install -r requirements.txt
这两个组件的用法不同,并且在各自的文件夹中提到了相同的内容。
该项目根据 MIT 许可证获得许可 - 有关详细信息,请参阅许可证文件。
我们要感谢 Hugging Face 团队提供的基础设施和工具,使这个项目成为可能。我们还要感谢社区的支持和贡献。