CAMeL Tools는 뉴욕 대학교 아부다비의 CAMeL Lab에서 개발한 아랍어 자연어 처리 도구 모음입니다.
버그를 보고하거나 CAMeL 도구 사용에 도움이 필요한 경우 GitHub 문제를 사용하세요 .
Python 3.8 - 3.12(64비트)와 Rust 컴파일러가 설치되어 있어야 합니다.
Linux 및 macOS에 몇 가지 추가 종속성을 설치해야 합니다. 주로 CMake 및 Boost.
Ubuntu/Debian에서는 다음을 실행하여 이러한 종속성을 설치할 수 있습니다.
sudo apt-get install cmake libboost-all-dev
macOS에서는 다음을 실행하여 Homewbrew를 사용하여 설치할 수 있습니다.
brew install cmake boost
pip install camel-tools
# or run the following if you already have camel_tools installed
pip install camel-tools --upgrade
Apple Silicon Mac에서는 대신 다음을 실행해야 할 수도 있습니다.
CMAKE_OSX_ARCHITECTURES=arm64 pip install camel-tools
# or run the following if you already have camel_tools installed
CMAKE_OSX_ARCHITECTURES=arm64 pip install camel-tools --upgrade
# Clone the repo
git clone https://github.com/CAMeL-Lab/camel_tools.git
cd camel_tools
# Install from source
pip install .
# or run the following if you already have camel_tools installed
pip install --upgrade .
CAMeL 도구 구성요소에 필요한 데이터세트를 설치하려면 다음 중 하나를 실행하세요.
# To install all datasets
camel_data -i all
# or just the datasets for morphology and MLE disambiguation only
camel_data -i light
# or just the default datasets for each component
camel_data -i defaults
사용 가능한 모든 데이터 세트 목록은 사용 가능한 패키지를 참조하세요.
기본적으로 데이터는 ~/.camel_tools
에 저장됩니다. 또는 데이터를 다른 위치에 설치하려면 CAMELTOOLS_DATA
환경 변수를 원하는 경로로 설정해야 합니다.
.bashrc
, .zshrc
, .profile
등에 다음을 추가하십시오.
export CAMELTOOLS_DATA=/path/to/camel_tools_data
참고: CAMeL 도구는 Windows 10에서 테스트되었습니다. 현재 Windows에서는 방언 식별 구성 요소를 사용할 수 없습니다.
pip install camel-tools -f https://download.pytorch.org/whl/torch_stable.html
# or run the following if you already have camel_tools installed
pip install --upgrade -f https://download.pytorch.org/whl/torch_stable.html camel-tools
# Clone the repo
git clone https://github.com/CAMeL-Lab/camel_tools.git
cd camel_tools
# Install from source
pip install -f https://download.pytorch.org/whl/torch_stable.html .
pip install --upgrade -f https://download.pytorch.org/whl/torch_stable.html .
CAMeL 도구 구성 요소에 필요한 데이터 패키지를 설치하려면 다음 명령 중 하나를 실행하세요.
# To install all datasets
camel_data -i all
# or just the datasets for morphology and MLE disambiguation only
camel_data -i light
# or just the default datasets for each component
camel_data -i defaults
사용 가능한 모든 데이터 세트 목록은 사용 가능한 패키지를 참조하세요.
기본적으로 데이터는 C:Usersyour_user_nameAppDataRoamingcamel_tools
에 저장됩니다. 또는 데이터를 다른 위치에 설치하려면 CAMELTOOLS_DATA
환경 변수를 원하는 경로로 설정해야 합니다. 다음은 이를 수행하는 지침입니다(Windows 10의 경우).
env
입력하세요.CAMELTOOLS_DATA
입력하고 변수 값 에 원하는 데이터 경로를 입력합니다. 또는 디렉터리 찾아보기... 버튼을 클릭하여 데이터 디렉터리를 찾아볼 수 있습니다.시작하려면 Guided Tour를 따라 CAMeL Tools에서 제공하는 구성 요소에 대한 간략한 개요를 살펴보세요.
여기에서 명령줄 도구와 Python API에 대한 전체 온라인 설명서를 찾을 수 있습니다.
또는 다음과 같이 문서의 로컬 복사본을 직접 만들 수 있습니다.
# Install dependencies
pip install sphinx myst-parser sphinx-rtd-theme
# Go to docs subdirectory
cd docs
# Build HTML docs
make html
그러면 모든 HTML 문서가 docs/build/html
로 컴파일됩니다.
연구에 CAMeL 도구가 유용하다고 생각되면 다음 논문을 인용해 주세요.
@inproceedings { obeid-etal-2020-camel ,
title = " {CAM}e{L} Tools: An Open Source Python Toolkit for {A}rabic Natural Language Processing " ,
author = " Obeid, Ossama and
Zalmout, Nasser and
Khalifa, Salam and
Taji, Dima and
Oudah, Mai and
Alhafni, Bashar and
Inoue, Go and
Eryani, Fadhl and
Erdmann, Alexander and
Habash, Nizar " ,
booktitle = " Proceedings of the 12th Language Resources and Evaluation Conference " ,
month = may,
year = " 2020 " ,
address = " Marseille, France " ,
publisher = " European Language Resources Association " ,
url = " https://www.aclweb.org/anthology/2020.lrec-1.868 " ,
pages = " 7022--7032 " ,
abstract = " We present CAMeL Tools, a collection of open-source tools for Arabic natural language processing in Python. CAMeL Tools currently provides utilities for pre-processing, morphological modeling, Dialect Identification, Named Entity Recognition and Sentiment Analysis. In this paper, we describe the design of CAMeL Tools and the functionalities it provides. " ,
language = " English " ,
ISBN = " 979-10-95546-34-4 " ,
}
CAMeL 도구는 MIT 라이선스에 따라 사용할 수 있습니다. 자세한 내용은 LICENSE 파일을 참조하세요.
CAMeL 도구에 기여하고 싶다면 CONTRIBUTE.rst 파일을 읽어보세요.