CAMeL Tools ist eine Reihe von Tools zur Verarbeitung natürlicher arabischer Sprache, die vom CAMeL Lab an der New York University Abu Dhabi entwickelt wurden.
Bitte verwenden Sie GitHub Issues , um einen Fehler zu melden oder wenn Sie Hilfe bei der Verwendung von CAMeL Tools benötigen.
Sie benötigen Python 3.8 - 3.12 (64-Bit) sowie den installierten Rust-Compiler.
Sie müssen einige zusätzliche Abhängigkeiten unter Linux und macOS installieren. Hauptsächlich CMake und Boost.
Unter Ubuntu/Debian können Sie diese Abhängigkeiten installieren, indem Sie Folgendes ausführen:
sudo apt-get install cmake libboost-all-dev
Unter macOS können Sie sie mit Homewbrew installieren, indem Sie Folgendes ausführen:
brew install cmake boost
pip install camel-tools
# or run the following if you already have camel_tools installed
pip install camel-tools --upgrade
Auf Apple-Silicon-Macs müssen Sie möglicherweise stattdessen Folgendes ausführen:
CMAKE_OSX_ARCHITECTURES=arm64 pip install camel-tools
# or run the following if you already have camel_tools installed
CMAKE_OSX_ARCHITECTURES=arm64 pip install camel-tools --upgrade
# Clone the repo
git clone https://github.com/CAMeL-Lab/camel_tools.git
cd camel_tools
# Install from source
pip install .
# or run the following if you already have camel_tools installed
pip install --upgrade .
Um die für die CAMeL Tools-Komponenten erforderlichen Datensätze zu installieren, führen Sie einen der folgenden Schritte aus:
# To install all datasets
camel_data -i all
# or just the datasets for morphology and MLE disambiguation only
camel_data -i light
# or just the default datasets for each component
camel_data -i defaults
Eine Liste aller verfügbaren Datensätze finden Sie unter Verfügbare Pakete.
Standardmäßig werden Daten in ~/.camel_tools
gespeichert. Wenn Sie die Daten alternativ an einem anderen Ort installieren möchten, müssen Sie die Umgebungsvariable CAMELTOOLS_DATA
auf den gewünschten Pfad setzen.
Fügen Sie Folgendes zu Ihrer .bashrc
, .zshrc
, .profile
usw. hinzu:
export CAMELTOOLS_DATA=/path/to/camel_tools_data
Hinweis: CAMeL Tools wurde unter Windows 10 getestet. Die Dialektidentifizierungskomponente ist derzeit nicht unter Windows verfügbar.
pip install camel-tools -f https://download.pytorch.org/whl/torch_stable.html
# or run the following if you already have camel_tools installed
pip install --upgrade -f https://download.pytorch.org/whl/torch_stable.html camel-tools
# Clone the repo
git clone https://github.com/CAMeL-Lab/camel_tools.git
cd camel_tools
# Install from source
pip install -f https://download.pytorch.org/whl/torch_stable.html .
pip install --upgrade -f https://download.pytorch.org/whl/torch_stable.html .
Um die für CAMeL Tools-Komponenten erforderlichen Datenpakete zu installieren, führen Sie einen der folgenden Befehle aus:
# To install all datasets
camel_data -i all
# or just the datasets for morphology and MLE disambiguation only
camel_data -i light
# or just the default datasets for each component
camel_data -i defaults
Eine Liste aller verfügbaren Datensätze finden Sie unter Verfügbare Pakete.
Standardmäßig werden Daten unter C:Usersyour_user_nameAppDataRoamingcamel_tools
gespeichert. Wenn Sie die Daten alternativ an einem anderen Ort installieren möchten, müssen Sie die Umgebungsvariable CAMELTOOLS_DATA
auf den gewünschten Pfad setzen. Nachfolgend finden Sie die Anweisungen dazu (unter Windows 10):
env
ein.CAMELTOOLS_DATA
in das Eingabefeld „Variablenname“ und den gewünschten Datenpfad in „Variablenwert“ ein. Alternativ können Sie nach dem Datenverzeichnis suchen, indem Sie auf die Schaltfläche „Verzeichnis durchsuchen...“ klicken.Um zu beginnen, können Sie der Guided Tour folgen, um einen schnellen Überblick über die von CAMeL Tools bereitgestellten Komponenten zu erhalten.
Die vollständige Online-Dokumentation sowohl für die Befehlszeilentools als auch für die Python-API finden Sie hier.
Alternativ können Sie wie folgt Ihre eigene lokale Kopie der Dokumentation erstellen:
# Install dependencies
pip install sphinx myst-parser sphinx-rtd-theme
# Go to docs subdirectory
cd docs
# Build HTML docs
make html
Dadurch sollte die gesamte HTML-Dokumentation in docs/build/html
kompiliert werden.
Wenn Sie CAMeL Tools für Ihre Forschung nützlich finden, zitieren Sie bitte unseren Artikel:
@inproceedings { obeid-etal-2020-camel ,
title = " {CAM}e{L} Tools: An Open Source Python Toolkit for {A}rabic Natural Language Processing " ,
author = " Obeid, Ossama and
Zalmout, Nasser and
Khalifa, Salam and
Taji, Dima and
Oudah, Mai and
Alhafni, Bashar and
Inoue, Go and
Eryani, Fadhl and
Erdmann, Alexander and
Habash, Nizar " ,
booktitle = " Proceedings of the 12th Language Resources and Evaluation Conference " ,
month = may,
year = " 2020 " ,
address = " Marseille, France " ,
publisher = " European Language Resources Association " ,
url = " https://www.aclweb.org/anthology/2020.lrec-1.868 " ,
pages = " 7022--7032 " ,
abstract = " We present CAMeL Tools, a collection of open-source tools for Arabic natural language processing in Python. CAMeL Tools currently provides utilities for pre-processing, morphological modeling, Dialect Identification, Named Entity Recognition and Sentiment Analysis. In this paper, we describe the design of CAMeL Tools and the functionalities it provides. " ,
language = " English " ,
ISBN = " 979-10-95546-34-4 " ,
}
CAMeL Tools ist unter der MIT-Lizenz verfügbar. Weitere Informationen finden Sie in der LICENSE-Datei.
Wenn Sie zu CAMeL Tools beitragen möchten, lesen Sie bitte die Datei CONTRIBUTE.rst.