يحتوي هذا المشروع ChemInstruct على 3 مكونات رئيسية:
يختلف التثبيت لكلا المكونين ويتم ذكر نفس الشيء في المجلدات المعنية.
NERLLaMA هي أداة للتعرف على الكيانات المسماة (NER) تستخدم أسلوب التعلم الآلي لتحديد الكيانات المسماة في النص. تستخدم الأداة قوة نماذج اللغات الكبيرة (LLMs). تم تصميم الأداة لتكون سهلة الاستخدام ومرنة، مما يسمح للمستخدمين بتدريب النماذج وتقييمها بناءً على بياناتهم الخاصة.
لتثبيت NERLLaMA، ستحتاج إلى تثبيت Python 3.9 أو إصدار أحدث على نظامك. لتثبيت NERLLaMA، انتقل إلى ChemInstruct/NERLLaMA، وقم بتشغيل الأمر التالي:
pip install -e .
يمكن استخدام الأداة/الحزمة على النحو التالي
1: كحزمة:
يؤدي هذا إلى تثبيت حزمة nerllama في python venv النشط أو conda env. ومن ثم يمكن استخدام الحزمة مباشرة في الكود المخصص الخاص بك.
from nerllama . schemas . ChemStruct import InstructDataset
id = InstructDataset ()
id . convert_instruction_causal ()
2: من CLI
بمجرد اكتمال التثبيت أعلاه. تتوفر أيضًا واجهة nerl
CLI للوصول إليها من الجهاز. يسهل أمر cli هذا الاستخدام السريع والسهل لأوامر nerllama لاستخراج الكيانات وما إلى ذلك. تحقق من تفاعل CLI، لمزيد من التفاصيل حول كيفية استخدام الأمر.
يعتمد جزء من هذا المشروع على vllm. تأكد من أن لديك إصدار gcc 5 أو أحدث، وإصدارات CUDA بين 11.0 و11.8، كما هو محدد في متطلبات التثبيت لـ vllm.
تستخدم NERLLaMA مكتبة Hugging Face Transformers للعمل مع LLMs. ستحتاج إلى أن يكون لديك حساب على موقع Hugging Face لاستخدام الأداة. يمكنك التسجيل للحصول على حساب هنا. لقد قمنا بضبط وتقييم النماذج المدربة مسبقًا عبر وحدة معالجة الرسومات. ومن ثم يتطلب المشروع تثبيت CUDA وcuDNN على نظامك.
لا يمكن الوصول إلى نماذج LLaMA إلا بعد الوصول إلى النماذج من بوابة Meta AI وHugging Face. يمكن طلب الشيء نفسه من LLaMA HuggingFace.
لاستخدام NERLLaMA، سوف تحتاج إلى نموذج مدرب. نقدم في هذا المشروع نموذجًا مُدربًا مسبقًا يمكنك استخدامه للبدء. لاستخدام النموذج المُدرب مسبقًا، قم بتشغيل الأمر التالي:
python main.py --text " Your text goes here " --model " llama2-chat-ft " --pipeline " llm " --auth_token " <your huggingface auth token> "
python main.py --file " <workspace_root>/ChemInstruct/NERLLaMA/nerllama/data/sample.txt " --model " llama2-chat-ft " --pipeline " llm " --auth_token " <your huggingface auth
النماذج:
llama2-chat-ft
- LLaMA2 Chat تم ضبطه بشكل دقيقllama2-base-ft
- قاعدة LLaMA2 مضبوطة بدقةllama2-chat
- LLaMA2 Chat HFllama2-chat-70b
- LLaMA2 Chat HF 70Bmistral-chat-7b
- MistralAI 7B Instruct v0.2falcon-chat-7b
- تعليمات Falcon 7b الخاصة بمعهد دراسات الترجمةخطوط الأنابيب:
llm
- نموذج اللغة الكبيرrag
- استرجاع الجيل المعززلقد استخدمنا W&B لجمع ومزامنة بيانات التوليد/التدريب. عند استخدام CLI، قد تتم مطالبتك بالاتصال بـ W&B.
wandb: (1) Create a W & B account
wandb: (2) Use an existing W & B account
wandb: (3) Don ' t visualize my results
wandb: Enter your choice: 3
عندما يُطلب منك الاختيار، أدخل 3 لتخطي الاتصال بـ W&B
يعرض NERLLaMA أمر nerl
cli لسهولة الوصول إلى وظائف الرسوم
تشغيل أمر nerl nerllama
لاستخراج الكيانات الكيميائية من ملف معين
nerl nerllama run "<path to file containing chemical literature>" <model HF path / or shorthand (mentioned above)> <pipeline: LLM/RAG> <hf token>
nerl nerllama run /home/ubuntu/data/sample_text.txt llama2-chat-ft LLM hf_*****
nerl nerllama run /home/ubuntu/data/sample_text.txt meta-llama/Meta-Llama-3-8B-Instruct LLM hf_*****
nerl nerllama run /home/ubuntu/data/sample_text.txt llama2-chat-ft RAG hf_*****
TestingNERTools هو مشروع لاختبار أدوات NER المتوفرة في السوق. تم تصميم المشروع ليكون سهل الاستخدام ومرنًا، مما يسمح للمستخدمين باختبار الأدوات المدعومة في المشروع بسهولة.
ينقسم المشروع إلى قسمين: الجزء الأول مبني على لغة جافا والجزء الثاني مبني على لغة بايثون.
أولاً: لتثبيت جزء جافا، ستحتاج إلى تثبيت Java 8 أو أعلى على نظامك.
قم بتحميل الملفات التالية:
انقل جميع الملفات التي تم تنزيلها أعلاه إلى مجلد الحزم.
قم باستخراج javafx-sdk-21.zip في مجلد الحزم
لبناء المشروع، قم بتشغيل الأمر التالي:
javac -cp " .;<root directory>ChemInstructTestingNERToolspackages*;<root directory>ChemInstructTestingNERToolssrc " <root directory>ChemInstructTestingNERToolssrcStartEvaluation.java
java -cp " .;<root directory>ChemInstructTestingNERToolspackages*;<root directory>ChemInstructTestingNERToolssrc " <root directory>ChemInstructTestingNERToolssrcStartEvaluation.java --directory <input directory path> --tool <tool name> --dataset <dataset>
الحجج:
ثانيًا: لتثبيت جزء python، ستحتاج إلى تثبيت Python 3.9 أو أعلى على نظامك.
لتثبيت كافة التبعيات، قم بتشغيل الأمر التالي:
cd python_src
pip install -r requirements.txt
يختلف استخدام كلا المكونين ويتم ذكر نفس الشيء في المجلدات المعنية.
هذا المشروع مرخص بموجب ترخيص MIT - راجع ملف الترخيص للحصول على التفاصيل.
نود أن نشكر فريق Hugging Face على توفير البنية التحتية والأدوات التي جعلت هذا المشروع ممكنًا. كما نود أن نشكر المجتمع على دعمهم ومساهماتهم.