CAMeL Tools 是由紐約大學阿布達比分校 CAMeL 實驗室開發的阿拉伯語自然語言處理工具套件。
請使用GitHub 問題來回報錯誤,或者如果您需要使用 CAMeL 工具的協助。
您需要安裝 Python 3.8 - 3.12(64 位元)以及 Rust 編譯器。
您需要在 Linux 和 macOS 上安裝一些額外的依賴項。主要是 CMake 和 Boost。
在 Ubuntu/Debian 上,您可以透過執行以下命令來安裝這些依賴項:
sudo apt-get install cmake libboost-all-dev
在 macOS 上,您可以透過執行以下命令使用 Homewbrew 安裝它們:
brew install cmake boost
pip install camel-tools
# or run the following if you already have camel_tools installed
pip install camel-tools --upgrade
在 Apple Silicon Mac 上,您可能必須執行以下命令:
CMAKE_OSX_ARCHITECTURES=arm64 pip install camel-tools
# or run the following if you already have camel_tools installed
CMAKE_OSX_ARCHITECTURES=arm64 pip install camel-tools --upgrade
# Clone the repo
git clone https://github.com/CAMeL-Lab/camel_tools.git
cd camel_tools
# Install from source
pip install .
# or run the following if you already have camel_tools installed
pip install --upgrade .
若要安裝 CAMeL Tools 元件所需的資料集,請執行下列命令之一:
# To install all datasets
camel_data -i all
# or just the datasets for morphology and MLE disambiguation only
camel_data -i light
# or just the default datasets for each component
camel_data -i defaults
有關所有可用資料集的列表,請參閱可用套件。
預設情況下,資料儲存在~/.camel_tools
中。或者,如果您想要將資料安裝在不同的位置,則需要將CAMELTOOLS_DATA
環境變數設定為所需的路徑。
將以下內容加入您的.bashrc
、 .zshrc
、 .profile
等:
export CAMELTOOLS_DATA=/path/to/camel_tools_data
注意: CAMeL Tools 已在 Windows 10 上進行了測試。
pip install camel-tools -f https://download.pytorch.org/whl/torch_stable.html
# or run the following if you already have camel_tools installed
pip install --upgrade -f https://download.pytorch.org/whl/torch_stable.html camel-tools
# Clone the repo
git clone https://github.com/CAMeL-Lab/camel_tools.git
cd camel_tools
# Install from source
pip install -f https://download.pytorch.org/whl/torch_stable.html .
pip install --upgrade -f https://download.pytorch.org/whl/torch_stable.html .
若要安裝 CAMeL Tools 元件所需的資料包,請執行下列命令之一:
# To install all datasets
camel_data -i all
# or just the datasets for morphology and MLE disambiguation only
camel_data -i light
# or just the default datasets for each component
camel_data -i defaults
有關所有可用資料集的列表,請參閱可用套件。
預設情況下,資料儲存在C:Usersyour_user_nameAppDataRoamingcamel_tools
中。或者,如果您想要將資料安裝在不同的位置,則需要將CAMELTOOLS_DATA
環境變數設定為所需的路徑。以下是執行此操作的說明(在 Windows 10 上):
env
。CAMELTOOLS_DATA
,並在變數值中鍵入所需的資料路徑。或者,您可以透過點擊「瀏覽目錄...」按鈕來瀏覽資料目錄。首先,您可以按照引導教學快速概述 CAMeL Tools 提供的元件。
您可以在此處找到命令列工具和 Python API 的完整線上文件。
或者,您可以建立自己的文件本機副本,如下所示:
# Install dependencies
pip install sphinx myst-parser sphinx-rtd-theme
# Go to docs subdirectory
cd docs
# Build HTML docs
make html
這應該將所有 HTML 文件編譯到docs/build/html
中。
如果您發現 CAMeL Tools 對您的研究有用,請引用我們的論文:
@inproceedings { obeid-etal-2020-camel ,
title = " {CAM}e{L} Tools: An Open Source Python Toolkit for {A}rabic Natural Language Processing " ,
author = " Obeid, Ossama and
Zalmout, Nasser and
Khalifa, Salam and
Taji, Dima and
Oudah, Mai and
Alhafni, Bashar and
Inoue, Go and
Eryani, Fadhl and
Erdmann, Alexander and
Habash, Nizar " ,
booktitle = " Proceedings of the 12th Language Resources and Evaluation Conference " ,
month = may,
year = " 2020 " ,
address = " Marseille, France " ,
publisher = " European Language Resources Association " ,
url = " https://www.aclweb.org/anthology/2020.lrec-1.868 " ,
pages = " 7022--7032 " ,
abstract = " We present CAMeL Tools, a collection of open-source tools for Arabic natural language processing in Python. CAMeL Tools currently provides utilities for pre-processing, morphological modeling, Dialect Identification, Named Entity Recognition and Sentiment Analysis. In this paper, we describe the design of CAMeL Tools and the functionalities it provides. " ,
language = " English " ,
ISBN = " 979-10-95546-34-4 " ,
}
CAMeL Tools 可在 MIT 許可下使用。有關詳細信息,請參閱許可證文件。
如果您想為 CAMeL Tools 做出貢獻,請閱讀 CONTRIBUTE.rst 檔案。