أدوات CAMeL هي مجموعة من أدوات معالجة اللغة العربية الطبيعية التي طورها مختبر CAMeL في جامعة نيويورك أبوظبي.
الرجاء استخدام مشكلات GitHub للإبلاغ عن خطأ أو إذا كنت بحاجة إلى مساعدة في استخدام أدوات CAMeL.
ستحتاج إلى إصدار Python 3.8 - 3.12 (64 بت) بالإضافة إلى تثبيت مترجم Rust.
ستحتاج إلى تثبيت بعض التبعيات الإضافية على Linux وmacOS. في المقام الأول CMake، وتعزيز.
على Ubuntu/Debian، يمكنك تثبيت هذه التبعيات عن طريق تشغيل:
sudo apt-get install cmake libboost-all-dev
على نظام التشغيل macOS، يمكنك تثبيتها باستخدام Homewbrew عن طريق تشغيل:
brew install cmake boost
pip install camel-tools
# or run the following if you already have camel_tools installed
pip install camel-tools --upgrade
على أجهزة Mac التي تعمل بنظام Apple silicon، قد يتعين عليك تشغيل ما يلي بدلاً من ذلك:
CMAKE_OSX_ARCHITECTURES=arm64 pip install camel-tools
# or run the following if you already have camel_tools installed
CMAKE_OSX_ARCHITECTURES=arm64 pip install camel-tools --upgrade
# Clone the repo
git clone https://github.com/CAMeL-Lab/camel_tools.git
cd camel_tools
# Install from source
pip install .
# or run the following if you already have camel_tools installed
pip install --upgrade .
لتثبيت مجموعات البيانات المطلوبة بواسطة مكونات أدوات CAMeL، قم بتشغيل أحد الإجراءات التالية:
# To install all datasets
camel_data -i all
# or just the datasets for morphology and MLE disambiguation only
camel_data -i light
# or just the default datasets for each component
camel_data -i defaults
راجع الحزم المتاحة للحصول على قائمة بجميع مجموعات البيانات المتاحة.
بشكل افتراضي، يتم تخزين البيانات في ~/.camel_tools
. وبدلاً من ذلك، إذا كنت ترغب في تثبيت البيانات في موقع مختلف، فستحتاج إلى تعيين متغير البيئة CAMELTOOLS_DATA
على المسار المطلوب.
أضف ما يلي إلى .bashrc
و .zshrc
و .profile
وما إلى ذلك:
export CAMELTOOLS_DATA=/path/to/camel_tools_data
ملاحظة: تم اختبار أدوات CAMeL على نظام التشغيل Windows 10. ولا يتوفر مكون تعريف اللهجة على نظام التشغيل Windows في الوقت الحالي.
pip install camel-tools -f https://download.pytorch.org/whl/torch_stable.html
# or run the following if you already have camel_tools installed
pip install --upgrade -f https://download.pytorch.org/whl/torch_stable.html camel-tools
# Clone the repo
git clone https://github.com/CAMeL-Lab/camel_tools.git
cd camel_tools
# Install from source
pip install -f https://download.pytorch.org/whl/torch_stable.html .
pip install --upgrade -f https://download.pytorch.org/whl/torch_stable.html .
لتثبيت حزم البيانات التي تتطلبها مكونات أدوات CAMeL، قم بتشغيل أحد الأوامر التالية:
# To install all datasets
camel_data -i all
# or just the datasets for morphology and MLE disambiguation only
camel_data -i light
# or just the default datasets for each component
camel_data -i defaults
راجع الحزم المتاحة للحصول على قائمة بجميع مجموعات البيانات المتاحة.
افتراضيًا، يتم تخزين البيانات في C:Usersyour_user_nameAppDataRoamingcamel_tools
. وبدلاً من ذلك، إذا كنت ترغب في تثبيت البيانات في موقع مختلف، فستحتاج إلى تعيين متغير البيئة CAMELTOOLS_DATA
على المسار المطلوب. فيما يلي تعليمات القيام بذلك (على نظام التشغيل Windows 10):
env
.CAMELTOOLS_DATA
في مربع إدخال اسم المتغير ومسار البيانات المطلوب في قيمة المتغير . وبدلاً من ذلك، يمكنك تصفح دليل البيانات من خلال النقر على زر تصفح الدليل....للبدء، يمكنك متابعة الجولة الإرشادية للحصول على نظرة عامة سريعة على المكونات التي توفرها أدوات CAMeL.
يمكنك العثور على الوثائق الكاملة عبر الإنترنت هنا لكل من أدوات سطر الأوامر وPython API.
وبدلاً من ذلك، يمكنك إنشاء نسختك المحلية من الوثائق كما يلي:
# Install dependencies
pip install sphinx myst-parser sphinx-rtd-theme
# Go to docs subdirectory
cd docs
# Build HTML docs
make html
يجب أن يقوم هذا بتجميع كافة وثائق HTML في docs/build/html
.
إذا وجدت أن أدوات CAMeL مفيدة في بحثك، فيرجى الاستشهاد بمقالتنا:
@inproceedings { obeid-etal-2020-camel ,
title = " {CAM}e{L} Tools: An Open Source Python Toolkit for {A}rabic Natural Language Processing " ,
author = " Obeid, Ossama and
Zalmout, Nasser and
Khalifa, Salam and
Taji, Dima and
Oudah, Mai and
Alhafni, Bashar and
Inoue, Go and
Eryani, Fadhl and
Erdmann, Alexander and
Habash, Nizar " ,
booktitle = " Proceedings of the 12th Language Resources and Evaluation Conference " ,
month = may,
year = " 2020 " ,
address = " Marseille, France " ,
publisher = " European Language Resources Association " ,
url = " https://www.aclweb.org/anthology/2020.lrec-1.868 " ,
pages = " 7022--7032 " ,
abstract = " We present CAMeL Tools, a collection of open-source tools for Arabic natural language processing in Python. CAMeL Tools currently provides utilities for pre-processing, morphological modeling, Dialect Identification, Named Entity Recognition and Sentiment Analysis. In this paper, we describe the design of CAMeL Tools and the functionalities it provides. " ,
language = " English " ,
ISBN = " 979-10-95546-34-4 " ,
}
أدوات CAMeL متاحة بموجب ترخيص MIT. راجع ملف الترخيص لمزيد من المعلومات.
إذا كنت ترغب في المساهمة في أدوات CAMeL، يرجى قراءة ملف CONTRIBUTE.rst.