CAMeL Tools は、ニューヨーク大学アブダビ校の CAMeL Lab によって開発されたアラビア語自然言語処理ツールのスイートです。
バグを報告する場合、または CAMeL ツールの使用に関するサポートが必要な場合は、 GitHub の問題を使用してください。
Python 3.8 ~ 3.12 (64 ビット) と Rust コンパイラがインストールされている必要があります。
Linux および macOS には追加の依存関係をインストールする必要があります。主に CMake と Boost です。
Ubuntu/Debian では、次のコマンドを実行してこれらの依存関係をインストールできます。
sudo apt-get install cmake libboost-all-dev
macOS では、Homewbrew を使用して以下を実行してインストールできます。
brew install cmake boost
pip install camel-tools
# or run the following if you already have camel_tools installed
pip install camel-tools --upgrade
Apple Silicon Mac では、代わりに次のコマンドを実行する必要がある場合があります。
CMAKE_OSX_ARCHITECTURES=arm64 pip install camel-tools
# or run the following if you already have camel_tools installed
CMAKE_OSX_ARCHITECTURES=arm64 pip install camel-tools --upgrade
# Clone the repo
git clone https://github.com/CAMeL-Lab/camel_tools.git
cd camel_tools
# Install from source
pip install .
# or run the following if you already have camel_tools installed
pip install --upgrade .
CAMeL Tools コンポーネントに必要なデータセットをインストールするには、次のいずれかを実行します。
# To install all datasets
camel_data -i all
# or just the datasets for morphology and MLE disambiguation only
camel_data -i light
# or just the default datasets for each component
camel_data -i defaults
利用可能なすべてのデータセットのリストについては、「利用可能なパッケージ」を参照してください。
デフォルトでは、データは~/.camel_tools
に保存されます。あるいは、データを別の場所にインストールする場合は、 CAMELTOOLS_DATA
環境変数を目的のパスに設定する必要があります。
以下を.bashrc
、 .zshrc
、 .profile
などに追加します。
export CAMELTOOLS_DATA=/path/to/camel_tools_data
注: CAMeL ツールは Windows 10 でテストされています。現時点では、方言識別コンポーネントは Windows では使用できません。
pip install camel-tools -f https://download.pytorch.org/whl/torch_stable.html
# or run the following if you already have camel_tools installed
pip install --upgrade -f https://download.pytorch.org/whl/torch_stable.html camel-tools
# Clone the repo
git clone https://github.com/CAMeL-Lab/camel_tools.git
cd camel_tools
# Install from source
pip install -f https://download.pytorch.org/whl/torch_stable.html .
pip install --upgrade -f https://download.pytorch.org/whl/torch_stable.html .
CAMeL Tools コンポーネントに必要なデータ パッケージをインストールするには、次のコマンドのいずれかを実行します。
# To install all datasets
camel_data -i all
# or just the datasets for morphology and MLE disambiguation only
camel_data -i light
# or just the default datasets for each component
camel_data -i defaults
利用可能なすべてのデータセットのリストについては、「利用可能なパッケージ」を参照してください。
デフォルトでは、データはC:Usersyour_user_nameAppDataRoamingcamel_tools
に保存されます。あるいは、データを別の場所にインストールする場合は、 CAMELTOOLS_DATA
環境変数を目的のパスに設定する必要があります。その手順は次のとおりです (Windows 10 の場合)。
env
と入力します。CAMELTOOLS_DATA
と入力し、 [変数値]に目的のデータ パスを入力します。あるいは、 「ディレクトリの参照...」ボタンをクリックしてデータ ディレクトリを参照することもできます。まず、ガイド付きツアーに従って、CAMeL ツールが提供するコンポーネントの概要を簡単に理解できます。
コマンドライン ツールと Python API の両方に関する完全なオンライン ドキュメントはここで見つけることができます。
あるいは、次のようにドキュメントの独自のローカル コピーを作成することもできます。
# Install dependencies
pip install sphinx myst-parser sphinx-rtd-theme
# Go to docs subdirectory
cd docs
# Build HTML docs
make html
これにより、すべての HTML ドキュメントがdocs/build/html
にコンパイルされます。
CAMeL ツールが研究に役立つと思われる場合は、私たちの論文を引用してください。
@inproceedings { obeid-etal-2020-camel ,
title = " {CAM}e{L} Tools: An Open Source Python Toolkit for {A}rabic Natural Language Processing " ,
author = " Obeid, Ossama and
Zalmout, Nasser and
Khalifa, Salam and
Taji, Dima and
Oudah, Mai and
Alhafni, Bashar and
Inoue, Go and
Eryani, Fadhl and
Erdmann, Alexander and
Habash, Nizar " ,
booktitle = " Proceedings of the 12th Language Resources and Evaluation Conference " ,
month = may,
year = " 2020 " ,
address = " Marseille, France " ,
publisher = " European Language Resources Association " ,
url = " https://www.aclweb.org/anthology/2020.lrec-1.868 " ,
pages = " 7022--7032 " ,
abstract = " We present CAMeL Tools, a collection of open-source tools for Arabic natural language processing in Python. CAMeL Tools currently provides utilities for pre-processing, morphological modeling, Dialect Identification, Named Entity Recognition and Sentiment Analysis. In this paper, we describe the design of CAMeL Tools and the functionalities it provides. " ,
language = " English " ,
ISBN = " 979-10-95546-34-4 " ,
}
CAMeL ツールは MIT ライセンスの下で利用できます。詳細については、LICENSE ファイルを参照してください。
CAMeL Tools に貢献したい場合は、CONTRIBUTE.rst ファイルをお読みください。