CAMeL Tools é um conjunto de ferramentas de processamento de linguagem natural árabe desenvolvido pelo CAMeL Lab da Universidade de Nova York em Abu Dhabi.
Use o GitHub Issues para relatar um bug ou se precisar de ajuda para usar o CAMeL Tools.
Você precisará do Python 3.8 - 3.12 (64 bits), bem como do compilador Rust instalado.
Você precisará instalar algumas dependências adicionais no Linux e no macOS. Principalmente CMake e Boost.
No Ubuntu/Debian você pode instalar essas dependências executando:
sudo apt-get install cmake libboost-all-dev
No macOS você pode instalá-los usando Homewbrew executando:
brew install cmake boost
pip install camel-tools
# or run the following if you already have camel_tools installed
pip install camel-tools --upgrade
Em Macs Apple Silicon, talvez seja necessário executar o seguinte:
CMAKE_OSX_ARCHITECTURES=arm64 pip install camel-tools
# or run the following if you already have camel_tools installed
CMAKE_OSX_ARCHITECTURES=arm64 pip install camel-tools --upgrade
# Clone the repo
git clone https://github.com/CAMeL-Lab/camel_tools.git
cd camel_tools
# Install from source
pip install .
# or run the following if you already have camel_tools installed
pip install --upgrade .
Para instalar os conjuntos de dados exigidos pelos componentes do CAMeL Tools, execute um dos seguintes procedimentos:
# To install all datasets
camel_data -i all
# or just the datasets for morphology and MLE disambiguation only
camel_data -i light
# or just the default datasets for each component
camel_data -i defaults
Consulte Pacotes Disponíveis para obter uma lista de todos os conjuntos de dados disponíveis.
Por padrão, os dados são armazenados em ~/.camel_tools
. Como alternativa, se desejar instalar os dados em um local diferente, será necessário definir a variável de ambiente CAMELTOOLS_DATA
para o caminho desejado.
Adicione o seguinte ao seu .bashrc
, .zshrc
, .profile
, etc:
export CAMELTOOLS_DATA=/path/to/camel_tools_data
Nota: CAMeL Tools foi testado no Windows 10. O componente Dialect Identification não está disponível no Windows no momento.
pip install camel-tools -f https://download.pytorch.org/whl/torch_stable.html
# or run the following if you already have camel_tools installed
pip install --upgrade -f https://download.pytorch.org/whl/torch_stable.html camel-tools
# Clone the repo
git clone https://github.com/CAMeL-Lab/camel_tools.git
cd camel_tools
# Install from source
pip install -f https://download.pytorch.org/whl/torch_stable.html .
pip install --upgrade -f https://download.pytorch.org/whl/torch_stable.html .
Para instalar os pacotes de dados exigidos pelos componentes do CAMeL Tools, execute um dos seguintes comandos:
# To install all datasets
camel_data -i all
# or just the datasets for morphology and MLE disambiguation only
camel_data -i light
# or just the default datasets for each component
camel_data -i defaults
Consulte Pacotes Disponíveis para obter uma lista de todos os conjuntos de dados disponíveis.
Por padrão, os dados são armazenados em C:Usersyour_user_nameAppDataRoamingcamel_tools
. Como alternativa, se desejar instalar os dados em um local diferente, será necessário definir a variável de ambiente CAMELTOOLS_DATA
para o caminho desejado. Abaixo estão as instruções para fazer isso (no Windows 10):
env
.CAMELTOOLS_DATA
na caixa de entrada Nome da variável e o caminho de dados desejado em Valor da variável . Alternativamente, você pode procurar o diretório de dados clicando no botão Procurar no diretório....Para começar, você pode acompanhar o Tour Guiado para obter uma visão geral rápida dos componentes fornecidos pelo CAMeL Tools.
Você pode encontrar a documentação online completa aqui para as ferramentas de linha de comando e a API Python.
Como alternativa, você pode criar sua própria cópia local da documentação da seguinte maneira:
# Install dependencies
pip install sphinx myst-parser sphinx-rtd-theme
# Go to docs subdirectory
cd docs
# Build HTML docs
make html
Isso deve compilar toda a documentação HTML em docs/build/html
.
Se você achar as ferramentas CAMeL úteis em sua pesquisa, cite nosso artigo:
@inproceedings { obeid-etal-2020-camel ,
title = " {CAM}e{L} Tools: An Open Source Python Toolkit for {A}rabic Natural Language Processing " ,
author = " Obeid, Ossama and
Zalmout, Nasser and
Khalifa, Salam and
Taji, Dima and
Oudah, Mai and
Alhafni, Bashar and
Inoue, Go and
Eryani, Fadhl and
Erdmann, Alexander and
Habash, Nizar " ,
booktitle = " Proceedings of the 12th Language Resources and Evaluation Conference " ,
month = may,
year = " 2020 " ,
address = " Marseille, France " ,
publisher = " European Language Resources Association " ,
url = " https://www.aclweb.org/anthology/2020.lrec-1.868 " ,
pages = " 7022--7032 " ,
abstract = " We present CAMeL Tools, a collection of open-source tools for Arabic natural language processing in Python. CAMeL Tools currently provides utilities for pre-processing, morphological modeling, Dialect Identification, Named Entity Recognition and Sentiment Analysis. In this paper, we describe the design of CAMeL Tools and the functionalities it provides. " ,
language = " English " ,
ISBN = " 979-10-95546-34-4 " ,
}
CAMeL Tools está disponível sob a licença do MIT. Consulte o arquivo LICENSE para obter mais informações.
Se você gostaria de contribuir com o CAMeL Tools, leia o arquivo CONTRIBUTE.rst.