CAMeL Tools es un conjunto de herramientas de procesamiento del lenguaje natural árabe desarrollado por el Laboratorio CAMeL de la Universidad de Nueva York en Abu Dhabi.
Utilice Problemas de GitHub para informar un error o si necesita ayuda para utilizar las herramientas CAMeL.
Necesitará Python 3.8 - 3.12 (64 bits), así como el compilador Rust instalado.
Necesitará instalar algunas dependencias adicionales en Linux y macOS. Principalmente CMake y Boost.
En Ubuntu/Debian puedes instalar estas dependencias ejecutando:
sudo apt-get install cmake libboost-all-dev
En macOS puedes instalarlos usando Homewbrew ejecutando:
brew install cmake boost
pip install camel-tools
# or run the following if you already have camel_tools installed
pip install camel-tools --upgrade
En Macs Apple Silicon, es posible que tengas que ejecutar lo siguiente:
CMAKE_OSX_ARCHITECTURES=arm64 pip install camel-tools
# or run the following if you already have camel_tools installed
CMAKE_OSX_ARCHITECTURES=arm64 pip install camel-tools --upgrade
# Clone the repo
git clone https://github.com/CAMeL-Lab/camel_tools.git
cd camel_tools
# Install from source
pip install .
# or run the following if you already have camel_tools installed
pip install --upgrade .
Para instalar los conjuntos de datos requeridos por los componentes de CAMeL Tools, ejecute uno de los siguientes:
# To install all datasets
camel_data -i all
# or just the datasets for morphology and MLE disambiguation only
camel_data -i light
# or just the default datasets for each component
camel_data -i defaults
Consulte Paquetes disponibles para obtener una lista de todos los conjuntos de datos disponibles.
De forma predeterminada, los datos se almacenan en ~/.camel_tools
. Alternativamente, si desea instalar los datos en una ubicación diferente, debe configurar la variable de entorno CAMELTOOLS_DATA
en la ruta deseada.
Agregue lo siguiente a su .bashrc
, .zshrc
, .profile
, etc.:
export CAMELTOOLS_DATA=/path/to/camel_tools_data
Nota: CAMeL Tools se ha probado en Windows 10. El componente de identificación de dialecto no está disponible en Windows en este momento.
pip install camel-tools -f https://download.pytorch.org/whl/torch_stable.html
# or run the following if you already have camel_tools installed
pip install --upgrade -f https://download.pytorch.org/whl/torch_stable.html camel-tools
# Clone the repo
git clone https://github.com/CAMeL-Lab/camel_tools.git
cd camel_tools
# Install from source
pip install -f https://download.pytorch.org/whl/torch_stable.html .
pip install --upgrade -f https://download.pytorch.org/whl/torch_stable.html .
Para instalar los paquetes de datos requeridos por los componentes de CAMeL Tools, ejecute uno de los siguientes comandos:
# To install all datasets
camel_data -i all
# or just the datasets for morphology and MLE disambiguation only
camel_data -i light
# or just the default datasets for each component
camel_data -i defaults
Consulte Paquetes disponibles para obtener una lista de todos los conjuntos de datos disponibles.
De forma predeterminada, los datos se almacenan en C:Usersyour_user_nameAppDataRoamingcamel_tools
. Alternativamente, si desea instalar los datos en una ubicación diferente, debe configurar la variable de entorno CAMELTOOLS_DATA
en la ruta deseada. A continuación se muestran las instrucciones para hacerlo (en Windows 10):
env
.CAMELTOOLS_DATA
en el cuadro de entrada Nombre de variable y la ruta de datos deseada en Valor de variable . Alternativamente, puede buscar el directorio de datos haciendo clic en el botón Examinar directorio....Para comenzar, puede seguir la visita guiada para obtener una descripción general rápida de los componentes proporcionados por CAMeL Tools.
Puede encontrar la documentación completa en línea aquí tanto para las herramientas de línea de comandos como para la API de Python.
Alternativamente, puede crear su propia copia local de la documentación de la siguiente manera:
# Install dependencies
pip install sphinx myst-parser sphinx-rtd-theme
# Go to docs subdirectory
cd docs
# Build HTML docs
make html
Esto debería compilar toda la documentación HTML en docs/build/html
.
Si encuentra útiles las herramientas CAMeL en su investigación, cite nuestro artículo:
@inproceedings { obeid-etal-2020-camel ,
title = " {CAM}e{L} Tools: An Open Source Python Toolkit for {A}rabic Natural Language Processing " ,
author = " Obeid, Ossama and
Zalmout, Nasser and
Khalifa, Salam and
Taji, Dima and
Oudah, Mai and
Alhafni, Bashar and
Inoue, Go and
Eryani, Fadhl and
Erdmann, Alexander and
Habash, Nizar " ,
booktitle = " Proceedings of the 12th Language Resources and Evaluation Conference " ,
month = may,
year = " 2020 " ,
address = " Marseille, France " ,
publisher = " European Language Resources Association " ,
url = " https://www.aclweb.org/anthology/2020.lrec-1.868 " ,
pages = " 7022--7032 " ,
abstract = " We present CAMeL Tools, a collection of open-source tools for Arabic natural language processing in Python. CAMeL Tools currently provides utilities for pre-processing, morphological modeling, Dialect Identification, Named Entity Recognition and Sentiment Analysis. In this paper, we describe the design of CAMeL Tools and the functionalities it provides. " ,
language = " English " ,
ISBN = " 979-10-95546-34-4 " ,
}
CAMeL Tools está disponible bajo la licencia MIT. Consulte el archivo de LICENCIA para obtener más información.
Si desea contribuir a CAMeL Tools, lea el archivo CONTRIBUTE.rst.