CAMeL Tools คือชุดเครื่องมือประมวลผลภาษาธรรมชาติภาษาอาหรับที่พัฒนาโดย CAMeL Lab ที่มหาวิทยาลัยนิวยอร์กอาบูดาบี
โปรดใช้ ปัญหา GitHub เพื่อรายงานจุดบกพร่อง หรือหากคุณต้องการความช่วยเหลือในการใช้เครื่องมือ CAMeL
คุณจะต้องมี Python 3.8 - 3.12 (64 บิต) รวมถึงติดตั้งคอมไพเลอร์ Rust
คุณจะต้องติดตั้งการขึ้นต่อกันเพิ่มเติมบน Linux และ macOS โดยพื้นฐานแล้ว CMake และ Boost
บน Ubuntu/Debian คุณสามารถติดตั้งการขึ้นต่อกันเหล่านี้ได้โดยการเรียกใช้:
sudo apt-get install cmake libboost-all-dev
บน macOS คุณสามารถติดตั้งได้โดยใช้ Homewbrew โดยเรียกใช้:
brew install cmake boost
pip install camel-tools
# or run the following if you already have camel_tools installed
pip install camel-tools --upgrade
บน Apple Silicon Mac คุณอาจต้องเรียกใช้สิ่งต่อไปนี้แทน:
CMAKE_OSX_ARCHITECTURES=arm64 pip install camel-tools
# or run the following if you already have camel_tools installed
CMAKE_OSX_ARCHITECTURES=arm64 pip install camel-tools --upgrade
# Clone the repo
git clone https://github.com/CAMeL-Lab/camel_tools.git
cd camel_tools
# Install from source
pip install .
# or run the following if you already have camel_tools installed
pip install --upgrade .
หากต้องการติดตั้งชุดข้อมูลที่ส่วนประกอบ CAMeL Tools ต้องการ ให้ดำเนินการอย่างใดอย่างหนึ่งต่อไปนี้:
# To install all datasets
camel_data -i all
# or just the datasets for morphology and MLE disambiguation only
camel_data -i light
# or just the default datasets for each component
camel_data -i defaults
ดูแพ็คเกจที่มีอยู่สำหรับรายการชุดข้อมูลที่มีอยู่ทั้งหมด
ตามค่าเริ่มต้น ข้อมูลจะถูกเก็บไว้ใน ~/.camel_tools
หรือหากคุณต้องการติดตั้งข้อมูลในตำแหน่งอื่น คุณจะต้องตั้งค่าตัวแปรสภาพแวดล้อม CAMELTOOLS_DATA
ให้เป็นพาธที่ต้องการ
เพิ่มสิ่งต่อไปนี้ใน .bashrc
, .zshrc
, .profile
ฯลฯ ของคุณ:
export CAMELTOOLS_DATA=/path/to/camel_tools_data
หมายเหตุ: เครื่องมือ CAMeL ได้รับการทดสอบบน Windows 10 ส่วนประกอบ Dialect Identification ไม่พร้อมใช้งานบน Windows ในขณะนี้
pip install camel-tools -f https://download.pytorch.org/whl/torch_stable.html
# or run the following if you already have camel_tools installed
pip install --upgrade -f https://download.pytorch.org/whl/torch_stable.html camel-tools
# Clone the repo
git clone https://github.com/CAMeL-Lab/camel_tools.git
cd camel_tools
# Install from source
pip install -f https://download.pytorch.org/whl/torch_stable.html .
pip install --upgrade -f https://download.pytorch.org/whl/torch_stable.html .
หากต้องการติดตั้งแพ็กเกจข้อมูลที่คอมโพเนนต์ CAMeL Tools ต้องการ ให้รันคำสั่งใดคำสั่งหนึ่งต่อไปนี้:
# To install all datasets
camel_data -i all
# or just the datasets for morphology and MLE disambiguation only
camel_data -i light
# or just the default datasets for each component
camel_data -i defaults
ดูแพ็คเกจที่มีอยู่สำหรับรายการชุดข้อมูลที่มีอยู่ทั้งหมด
ตามค่าเริ่มต้น ข้อมูลจะถูกจัดเก็บไว้ใน C:Usersyour_user_nameAppDataRoamingcamel_tools
หรือหากคุณต้องการติดตั้งข้อมูลในตำแหน่งอื่น คุณจะต้องตั้งค่าตัวแปรสภาพแวดล้อม CAMELTOOLS_DATA
ให้เป็นพาธที่ต้องการ ด้านล่างนี้เป็นคำแนะนำในการดำเนินการดังกล่าว (บน Windows 10):
env
CAMELTOOLS_DATA
ในกล่องอินพุต ชื่อตัวแปร และเส้นทางข้อมูลที่ต้องการใน ค่าตัวแปร หรือคุณสามารถเรียกดูไดเร็กทอรีข้อมูลได้โดยคลิกที่ปุ่ม เรียกดูไดเร็กทอรี...ในการเริ่มต้น คุณสามารถทำตาม Guided Tour เพื่อดูภาพรวมโดยย่อของส่วนประกอบต่างๆ ที่ได้รับจาก CAMeL Tools
คุณสามารถค้นหาเอกสารออนไลน์ฉบับเต็มได้ที่นี่สำหรับทั้งเครื่องมือบรรทัดคำสั่งและ Python API
หรือคุณสามารถสร้างสำเนาเอกสารในเครื่องของคุณเองได้ดังนี้:
# Install dependencies
pip install sphinx myst-parser sphinx-rtd-theme
# Go to docs subdirectory
cd docs
# Build HTML docs
make html
สิ่งนี้ควรรวบรวมเอกสาร HTML ทั้งหมดใน docs/build/html
หากคุณพบว่าเครื่องมือ CAMeL มีประโยชน์ในการวิจัยของคุณ โปรดอ้างอิงรายงานของเรา:
@inproceedings { obeid-etal-2020-camel ,
title = " {CAM}e{L} Tools: An Open Source Python Toolkit for {A}rabic Natural Language Processing " ,
author = " Obeid, Ossama and
Zalmout, Nasser and
Khalifa, Salam and
Taji, Dima and
Oudah, Mai and
Alhafni, Bashar and
Inoue, Go and
Eryani, Fadhl and
Erdmann, Alexander and
Habash, Nizar " ,
booktitle = " Proceedings of the 12th Language Resources and Evaluation Conference " ,
month = may,
year = " 2020 " ,
address = " Marseille, France " ,
publisher = " European Language Resources Association " ,
url = " https://www.aclweb.org/anthology/2020.lrec-1.868 " ,
pages = " 7022--7032 " ,
abstract = " We present CAMeL Tools, a collection of open-source tools for Arabic natural language processing in Python. CAMeL Tools currently provides utilities for pre-processing, morphological modeling, Dialect Identification, Named Entity Recognition and Sentiment Analysis. In this paper, we describe the design of CAMeL Tools and the functionalities it provides. " ,
language = " English " ,
ISBN = " 979-10-95546-34-4 " ,
}
CAMeL Tools มีให้บริการภายใต้ใบอนุญาต MIT ดูไฟล์ใบอนุญาตสำหรับข้อมูลเพิ่มเติม
หากคุณต้องการสนับสนุน CAMeL Tools โปรดอ่านไฟล์ CONTRIBUTE.rst