️ Ungoliant هو خط أنابيب عالي الأداء يوفر أدوات لبناء خطوط أنابيب إنشاء المجموعة من CommonCrawl. ?️
وهو حاليًا خط أنابيب الإنشاء لمجموعة OSCAR، من CommonCrawl. Ungoliant هو بديل لـ goclassy.
cargo
: cargo install ungoliant
git
: cargo install --git https://github.com/oscar-corpus/ungoliant
يحتاج Ungoliant إلى العديد من التبعيات التي يجب تجميعها عند التثبيت. ومع ذلك، قد تكون هناك حاجة إلى cmake / gcc
لأن المشروع يستخدم fasttext-rs.
تعد ميزة KenLM اختيارية لأنها تعتمد على تعليمات برمجية غير آمنة يمكن أن تنقطع إذا كانت ملفات النموذج المتوفرة غير صحيحة.
لتمكينه، قم بتثبيت متطلبات KenLM:
apt install -y libboost-all-dev libeigen3-dev
واستخدم cargo install ungoliant --features kenlm
أو cargo b --features kenlm
إذا كنت تقوم بالإنشاء من المصدر.
بشكل افتراضي، يتوقع ungoliant
النموذج lid.176.bin
بواسطة Meta. استخدم curl https://dl.fbaipublicfiles.com/fasttext/supervised-models/lid.176.bin -o lid.176.bin
للحصول عليه.
ومع ذلك، يمكنك استخدام النموذج الذي تريده: ما عليك سوى الإشارة إلى مساره باستخدام ungoliant download --lid-path
.
تشمل الخيارات الأخرى ما يلي:
الطريقة المعتادة لتوليد المجاميع هي:
wet.paths.gz
من ملف تفريغ CommonCrawl الأخير وفك ضغطه.download
.pipeline
(قد يستغرق الأمر بعض الوقت). يمكنك العثور على مزيد من المعلومات حول --help
لكل أمر.
ungoliant 2
corpus generation tool.
USAGE:
ungoliant
FLAGS:
-h, --help Prints help information
-V, --version Prints version information
SUBCOMMANDS:
download Download a CommonCrawl release
help Prints this message or the help of the given subcommand(s)
pipeline Run pipeline
rebuild Rebuild the corpus for a given language.
Ungoliant ليس موجودًا بعد في doc.rs: استخدم cargo doc --bins --open
لفتح الوثائق.
توجه إلى وثائق OSCAR لمزيد من المعلومات حول المشروع.