️ Ungoliant เป็นไปป์ไลน์ประสิทธิภาพสูงที่ให้เครื่องมือในการสร้างไปป์ไลน์การสร้างคลังข้อมูลจาก CommonCrawl ?
ปัจจุบันเป็นไปป์ไลน์การสร้างสำหรับ OSCAR Corpus จาก CommonCrawl Ungoliant เป็นการแทนที่ goclassy
cargo
: cargo install ungoliant
git
: cargo install --git https://github.com/oscar-corpus/ungoliant
Ungoliant ต้องการการพึ่งพาจำนวนมากที่ควรรวบรวมเมื่อทำการติดตั้ง อย่างไรก็ตาม สามารถใช้ cmake / gcc
ได้เนื่องจากโปรเจ็กต์ใช้ fasttext-rs
คุณสมบัติ KenLM เป็นทางเลือกเนื่องจากต้องใช้รหัสที่ไม่ปลอดภัยซึ่งอาจเสียหายได้หากไฟล์โมเดลที่ให้มาไม่ถูกต้อง
หากต้องการเปิดใช้งาน ให้ติดตั้งข้อกำหนดของ KenLM:
apt install -y libboost-all-dev libeigen3-dev
และใช้ cargo install ungoliant --features kenlm
หรือ cargo b --features kenlm
หากคุณกำลังสร้างจากแหล่งที่มา
ตามค่าเริ่มต้น ungoliant
คาดหวังรุ่น lid.176.bin
ตามเมตาดาต้า ใช้ curl https://dl.fbaipublicfiles.com/fasttext/supervised-models/lid.176.bin -o lid.176.bin
เพื่อรับมัน
อย่างไรก็ตาม คุณสามารถใช้โมเดลที่คุณต้องการได้ เพียงชี้ไปที่เส้นทางโดยใช้ ungoliant download --lid-path
ตัวเลือกอื่นๆ ได้แก่:
วิธีปกติในการสร้างคอร์ปอราคือ:
wet.paths.gz
จากดัมพ์ CommonCrawl สุดท้ายแล้วขยายขนาดdownload
pipeline
(อาจใช้เวลาสักครู่) คุณสามารถค้นหาข้อมูลเพิ่มเติมเกี่ยวกับ --help
ของแต่ละคำสั่งได้
ungoliant 2
corpus generation tool.
USAGE:
ungoliant
FLAGS:
-h, --help Prints help information
-V, --version Prints version information
SUBCOMMANDS:
download Download a CommonCrawl release
help Prints this message or the help of the given subcommand(s)
pipeline Run pipeline
rebuild Rebuild the corpus for a given language.
Ungoliant ยังไม่ได้อยู่ใน docs.rs: ใช้ cargo doc --bins --open
เพื่อเปิดเอกสาร
ไปที่เอกสาร OSCAR เพื่อดูข้อมูลเพิ่มเติมเกี่ยวกับโครงการ