CAMeL Tools adalah rangkaian alat pemrosesan bahasa alami Arab yang dikembangkan oleh CAMeL Lab di New York University Abu Dhabi.
Silakan gunakan Masalah GitHub untuk melaporkan bug atau jika Anda memerlukan bantuan menggunakan Alat CAMeL.
Anda memerlukan Python 3.8 - 3.12 (64-bit) serta kompiler Rust yang diinstal.
Anda perlu menginstal beberapa dependensi tambahan di Linux dan macOS. Terutama CMake, dan Boost.
Di Ubuntu/Debian Anda dapat menginstal dependensi ini dengan menjalankan:
sudo apt-get install cmake libboost-all-dev
Di macOS Anda dapat menginstalnya menggunakan Homewbrew dengan menjalankan:
brew install cmake boost
pip install camel-tools
# or run the following if you already have camel_tools installed
pip install camel-tools --upgrade
Di Mac silikon Apple, Anda mungkin harus menjalankan perintah berikut:
CMAKE_OSX_ARCHITECTURES=arm64 pip install camel-tools
# or run the following if you already have camel_tools installed
CMAKE_OSX_ARCHITECTURES=arm64 pip install camel-tools --upgrade
# Clone the repo
git clone https://github.com/CAMeL-Lab/camel_tools.git
cd camel_tools
# Install from source
pip install .
# or run the following if you already have camel_tools installed
pip install --upgrade .
Untuk menginstal kumpulan data yang diperlukan oleh komponen CAMeL Tools, jalankan salah satu langkah berikut:
# To install all datasets
camel_data -i all
# or just the datasets for morphology and MLE disambiguation only
camel_data -i light
# or just the default datasets for each component
camel_data -i defaults
Lihat Paket yang Tersedia untuk daftar semua kumpulan data yang tersedia.
Secara default, data disimpan di ~/.camel_tools
. Alternatifnya, jika Anda ingin menginstal data di lokasi berbeda, Anda perlu mengatur variabel lingkungan CAMELTOOLS_DATA
ke jalur yang diinginkan.
Tambahkan yang berikut ke .bashrc
, .zshrc
, .profile
, dll:
export CAMELTOOLS_DATA=/path/to/camel_tools_data
Catatan: Alat CAMeL telah diuji pada Windows 10. Komponen Identifikasi Dialek tidak tersedia di Windows saat ini.
pip install camel-tools -f https://download.pytorch.org/whl/torch_stable.html
# or run the following if you already have camel_tools installed
pip install --upgrade -f https://download.pytorch.org/whl/torch_stable.html camel-tools
# Clone the repo
git clone https://github.com/CAMeL-Lab/camel_tools.git
cd camel_tools
# Install from source
pip install -f https://download.pytorch.org/whl/torch_stable.html .
pip install --upgrade -f https://download.pytorch.org/whl/torch_stable.html .
Untuk menginstal paket data yang diperlukan oleh komponen CAMeL Tools, jalankan salah satu perintah berikut:
# To install all datasets
camel_data -i all
# or just the datasets for morphology and MLE disambiguation only
camel_data -i light
# or just the default datasets for each component
camel_data -i defaults
Lihat Paket yang Tersedia untuk daftar semua kumpulan data yang tersedia.
Secara default, data disimpan di C:Usersyour_user_nameAppDataRoamingcamel_tools
. Alternatifnya, jika Anda ingin menginstal data di lokasi berbeda, Anda perlu mengatur variabel lingkungan CAMELTOOLS_DATA
ke jalur yang diinginkan. Berikut adalah petunjuk untuk melakukannya (di Windows 10):
env
.CAMELTOOLS_DATA
di kotak masukan Nama variabel dan jalur data yang diinginkan di Nilai variabel . Alternatifnya, Anda dapat menelusuri direktori data dengan mengklik tombol Telusuri Direktori....Untuk memulai, Anda dapat mengikuti Tur Terpandu untuk gambaran singkat tentang komponen yang disediakan oleh CAMeL Tools.
Anda dapat menemukan dokumentasi online lengkap di sini untuk alat baris perintah dan API Python.
Alternatifnya, Anda dapat membuat salinan dokumentasi lokal Anda sendiri sebagai berikut:
# Install dependencies
pip install sphinx myst-parser sphinx-rtd-theme
# Go to docs subdirectory
cd docs
# Build HTML docs
make html
Ini harus mengkompilasi semua dokumentasi HTML ke docs/build/html
.
Jika Anda merasa Alat CAMeL berguna dalam penelitian Anda, harap kutip makalah kami:
@inproceedings { obeid-etal-2020-camel ,
title = " {CAM}e{L} Tools: An Open Source Python Toolkit for {A}rabic Natural Language Processing " ,
author = " Obeid, Ossama and
Zalmout, Nasser and
Khalifa, Salam and
Taji, Dima and
Oudah, Mai and
Alhafni, Bashar and
Inoue, Go and
Eryani, Fadhl and
Erdmann, Alexander and
Habash, Nizar " ,
booktitle = " Proceedings of the 12th Language Resources and Evaluation Conference " ,
month = may,
year = " 2020 " ,
address = " Marseille, France " ,
publisher = " European Language Resources Association " ,
url = " https://www.aclweb.org/anthology/2020.lrec-1.868 " ,
pages = " 7022--7032 " ,
abstract = " We present CAMeL Tools, a collection of open-source tools for Arabic natural language processing in Python. CAMeL Tools currently provides utilities for pre-processing, morphological modeling, Dialect Identification, Named Entity Recognition and Sentiment Analysis. In this paper, we describe the design of CAMeL Tools and the functionalities it provides. " ,
language = " English " ,
ISBN = " 979-10-95546-34-4 " ,
}
Alat CAMeL tersedia di bawah lisensi MIT. Lihat file LISENSI untuk info lebih lanjut.
Jika Anda ingin berkontribusi pada CAMeL Tools, silakan baca file CONTRIBUTE.rst.