CAMeL Tools est une suite d'outils de traitement du langage naturel arabe développés par le CAMeL Lab de l'Université de New York à Abu Dhabi.
Veuillez utiliser GitHub Issues pour signaler un bug ou si vous avez besoin d'aide pour utiliser les outils CAMeL.
Vous aurez besoin de Python 3.8 - 3.12 (64 bits) ainsi que du compilateur Rust installé.
Vous devrez installer quelques dépendances supplémentaires sur Linux et macOS. Principalement CMake et Boost.
Sur Ubuntu/Debian, vous pouvez installer ces dépendances en exécutant :
sudo apt-get install cmake libboost-all-dev
Sur macOS, vous pouvez les installer à l'aide de Homewbrew en exécutant :
brew install cmake boost
pip install camel-tools
# or run the following if you already have camel_tools installed
pip install camel-tools --upgrade
Sur les Mac Apple Silicon, vous devrez peut-être exécuter ce qui suit à la place :
CMAKE_OSX_ARCHITECTURES=arm64 pip install camel-tools
# or run the following if you already have camel_tools installed
CMAKE_OSX_ARCHITECTURES=arm64 pip install camel-tools --upgrade
# Clone the repo
git clone https://github.com/CAMeL-Lab/camel_tools.git
cd camel_tools
# Install from source
pip install .
# or run the following if you already have camel_tools installed
pip install --upgrade .
Pour installer les ensembles de données requis par les composants CAMeL Tools, exécutez l'une des opérations suivantes :
# To install all datasets
camel_data -i all
# or just the datasets for morphology and MLE disambiguation only
camel_data -i light
# or just the default datasets for each component
camel_data -i defaults
Voir Packages disponibles pour une liste de tous les ensembles de données disponibles.
Par défaut, les données sont stockées dans ~/.camel_tools
. Alternativement, si vous souhaitez installer les données dans un emplacement différent, vous devez définir la variable d'environnement CAMELTOOLS_DATA
sur le chemin souhaité.
Ajoutez ce qui suit à votre .bashrc
, .zshrc
, .profile
, etc :
export CAMELTOOLS_DATA=/path/to/camel_tools_data
Remarque : CAMeL Tools a été testé sur Windows 10. Le composant Identification des dialectes n'est pas disponible sur Windows pour le moment.
pip install camel-tools -f https://download.pytorch.org/whl/torch_stable.html
# or run the following if you already have camel_tools installed
pip install --upgrade -f https://download.pytorch.org/whl/torch_stable.html camel-tools
# Clone the repo
git clone https://github.com/CAMeL-Lab/camel_tools.git
cd camel_tools
# Install from source
pip install -f https://download.pytorch.org/whl/torch_stable.html .
pip install --upgrade -f https://download.pytorch.org/whl/torch_stable.html .
Pour installer les packages de données requis par les composants CAMeL Tools, exécutez l'une des commandes suivantes :
# To install all datasets
camel_data -i all
# or just the datasets for morphology and MLE disambiguation only
camel_data -i light
# or just the default datasets for each component
camel_data -i defaults
Voir Packages disponibles pour une liste de tous les ensembles de données disponibles.
Par défaut, les données sont stockées dans C:Usersyour_user_nameAppDataRoamingcamel_tools
. Alternativement, si vous souhaitez installer les données dans un emplacement différent, vous devez définir la variable d'environnement CAMELTOOLS_DATA
sur le chemin souhaité. Voici les instructions pour ce faire (sous Windows 10) :
env
.CAMELTOOLS_DATA
dans la zone de saisie Nom de la variable et le chemin de données souhaité dans Valeur de la variable . Vous pouvez également rechercher le répertoire de données en cliquant sur le bouton Parcourir le répertoire....Pour commencer, vous pouvez suivre la visite guidée pour un aperçu rapide des composants fournis par CAMeL Tools.
Vous pouvez trouver la documentation complète en ligne ici pour les outils de ligne de commande et l'API Python.
Vous pouvez également créer votre propre copie locale de la documentation comme suit :
# Install dependencies
pip install sphinx myst-parser sphinx-rtd-theme
# Go to docs subdirectory
cd docs
# Build HTML docs
make html
Cela devrait compiler toute la documentation HTML dans docs/build/html
.
Si vous trouvez les outils CAMeL utiles dans votre recherche, veuillez citer notre article :
@inproceedings { obeid-etal-2020-camel ,
title = " {CAM}e{L} Tools: An Open Source Python Toolkit for {A}rabic Natural Language Processing " ,
author = " Obeid, Ossama and
Zalmout, Nasser and
Khalifa, Salam and
Taji, Dima and
Oudah, Mai and
Alhafni, Bashar and
Inoue, Go and
Eryani, Fadhl and
Erdmann, Alexander and
Habash, Nizar " ,
booktitle = " Proceedings of the 12th Language Resources and Evaluation Conference " ,
month = may,
year = " 2020 " ,
address = " Marseille, France " ,
publisher = " European Language Resources Association " ,
url = " https://www.aclweb.org/anthology/2020.lrec-1.868 " ,
pages = " 7022--7032 " ,
abstract = " We present CAMeL Tools, a collection of open-source tools for Arabic natural language processing in Python. CAMeL Tools currently provides utilities for pre-processing, morphological modeling, Dialect Identification, Named Entity Recognition and Sentiment Analysis. In this paper, we describe the design of CAMeL Tools and the functionalities it provides. " ,
language = " English " ,
ISBN = " 979-10-95546-34-4 " ,
}
CAMeL Tools est disponible sous licence MIT. Voir le fichier LICENSE pour plus d'informations.
Si vous souhaitez contribuer à CAMeL Tools, veuillez lire le fichier CONTRIBUTE.rst.