CAMeL Tools — это набор инструментов обработки арабского естественного языка, разработанный лабораторией CAMeL в Нью-Йоркском университете в Абу-Даби.
Используйте GitHub Issues , чтобы сообщить об ошибке или если вам нужна помощь с использованием инструментов CAMeL.
Вам понадобится Python 3.8–3.12 (64-разрядная версия), а также установленный компилятор Rust.
Вам нужно будет установить некоторые дополнительные зависимости для Linux и macOS. В первую очередь CMake и Boost.
В Ubuntu/Debian вы можете установить эти зависимости, выполнив:
sudo apt-get install cmake libboost-all-dev
В macOS вы можете установить их с помощью Homewbrew, запустив:
brew install cmake boost
pip install camel-tools
# or run the following if you already have camel_tools installed
pip install camel-tools --upgrade
На кремниевых компьютерах Mac Apple вместо этого вам, возможно, придется запустить следующее:
CMAKE_OSX_ARCHITECTURES=arm64 pip install camel-tools
# or run the following if you already have camel_tools installed
CMAKE_OSX_ARCHITECTURES=arm64 pip install camel-tools --upgrade
# Clone the repo
git clone https://github.com/CAMeL-Lab/camel_tools.git
cd camel_tools
# Install from source
pip install .
# or run the following if you already have camel_tools installed
pip install --upgrade .
Чтобы установить наборы данных, необходимые компонентам CAMeL Tools, выполните одно из следующих действий:
# To install all datasets
camel_data -i all
# or just the datasets for morphology and MLE disambiguation only
camel_data -i light
# or just the default datasets for each component
camel_data -i defaults
См. «Доступные пакеты» для получения списка всех доступных наборов данных.
По умолчанию данные хранятся в ~/.camel_tools
. Альтернативно, если вы хотите установить данные в другое место, вам необходимо установить для переменной среды CAMELTOOLS_DATA
нужный путь.
Добавьте следующее в свои .bashrc
, .zshrc
, .profile
и т. д.:
export CAMELTOOLS_DATA=/path/to/camel_tools_data
Примечание. Инструменты CAMeL были протестированы в Windows 10. Компонент идентификации диалекта в настоящее время недоступен в Windows.
pip install camel-tools -f https://download.pytorch.org/whl/torch_stable.html
# or run the following if you already have camel_tools installed
pip install --upgrade -f https://download.pytorch.org/whl/torch_stable.html camel-tools
# Clone the repo
git clone https://github.com/CAMeL-Lab/camel_tools.git
cd camel_tools
# Install from source
pip install -f https://download.pytorch.org/whl/torch_stable.html .
pip install --upgrade -f https://download.pytorch.org/whl/torch_stable.html .
Чтобы установить пакеты данных, необходимые компонентам CAMeL Tools, выполните одну из следующих команд:
# To install all datasets
camel_data -i all
# or just the datasets for morphology and MLE disambiguation only
camel_data -i light
# or just the default datasets for each component
camel_data -i defaults
См. «Доступные пакеты» для получения списка всех доступных наборов данных.
По умолчанию данные хранятся в C:Usersyour_user_nameAppDataRoamingcamel_tools
. Альтернативно, если вы хотите установить данные в другое место, вам необходимо установить для переменной среды CAMELTOOLS_DATA
нужный путь. Ниже приведены инструкции для этого (в Windows 10):
env
.CAMELTOOLS_DATA
в поле ввода имени переменной и желаемый путь к данным в поле «Значение переменной» . Альтернативно вы можете просмотреть каталог данных, нажав кнопку «Обзор каталога...» .Для начала вы можете пройти экскурсию, чтобы получить краткий обзор компонентов, предоставляемых CAMeL Tools.
Здесь вы можете найти полную онлайн-документацию как для инструментов командной строки, так и для Python API.
Альтернативно вы можете создать собственную локальную копию документации следующим образом:
# Install dependencies
pip install sphinx myst-parser sphinx-rtd-theme
# Go to docs subdirectory
cd docs
# Build HTML docs
make html
Это должно скомпилировать всю HTML-документацию в docs/build/html
.
Если вы найдете инструменты CAMeL полезными в своих исследованиях, процитируйте нашу статью:
@inproceedings { obeid-etal-2020-camel ,
title = " {CAM}e{L} Tools: An Open Source Python Toolkit for {A}rabic Natural Language Processing " ,
author = " Obeid, Ossama and
Zalmout, Nasser and
Khalifa, Salam and
Taji, Dima and
Oudah, Mai and
Alhafni, Bashar and
Inoue, Go and
Eryani, Fadhl and
Erdmann, Alexander and
Habash, Nizar " ,
booktitle = " Proceedings of the 12th Language Resources and Evaluation Conference " ,
month = may,
year = " 2020 " ,
address = " Marseille, France " ,
publisher = " European Language Resources Association " ,
url = " https://www.aclweb.org/anthology/2020.lrec-1.868 " ,
pages = " 7022--7032 " ,
abstract = " We present CAMeL Tools, a collection of open-source tools for Arabic natural language processing in Python. CAMeL Tools currently provides utilities for pre-processing, morphological modeling, Dialect Identification, Named Entity Recognition and Sentiment Analysis. In this paper, we describe the design of CAMeL Tools and the functionalities it provides. " ,
language = " English " ,
ISBN = " 979-10-95546-34-4 " ,
}
CAMeL Tools доступен по лицензии MIT. Дополнительную информацию смотрите в файле ЛИЦЕНЗИИ.
Если вы хотите внести свой вклад в CAMeL Tools, прочтите файл CONTRIBUTE.rst.