?️ Ungoliant adalah pipeline berkinerja tinggi yang menyediakan alat untuk membangun pipeline pembangkitan corpus dari CommonCrawl. ?️
Saat ini merupakan saluran generasi untuk korpus OSCAR, dari CommonCrawl. Ungoliant adalah pengganti goclassy.
cargo
: cargo install ungoliant
git
: cargo install --git https://github.com/oscar-corpus/ungoliant
Ungoliant membutuhkan banyak dependensi yang harus dikompilasi saat instalasi. Namun cmake / gcc
mungkin diperlukan karena proyek menggunakan fasttext-rs.
Fitur KenLM bersifat opsional karena bergantung pada kode tidak aman yang dapat rusak jika file model yang disediakan tidak benar.
Untuk mengaktifkannya, instal persyaratan KenLM:
apt install -y libboost-all-dev libeigen3-dev
dan gunakan cargo install ungoliant --features kenlm
atau cargo b --features kenlm
jika Anda membangun dari sumber.
Secara default, ungoliant
mengharapkan model lid.176.bin
berdasarkan meta. Gunakan curl https://dl.fbaipublicfiles.com/fasttext/supervised-models/lid.176.bin -o lid.176.bin
untuk mendapatkannya.
Namun, Anda dapat menggunakan model yang Anda inginkan: cukup arahkan ke jalurnya menggunakan ungoliant download --lid-path
.
Pilihan lainnya meliputi:
Cara umum untuk menghasilkan corpora adalah:
wet.paths.gz
dari dump CommonCrawl terakhir dan dekompresi.download
.pipeline
(mungkin memerlukan waktu). Anda dapat menemukan informasi lebih lanjut di setiap perintah --help
.
ungoliant 2
corpus generation tool.
USAGE:
ungoliant
FLAGS:
-h, --help Prints help information
-V, --version Prints version information
SUBCOMMANDS:
download Download a CommonCrawl release
help Prints this message or the help of the given subcommand(s)
pipeline Run pipeline
rebuild Rebuild the corpus for a given language.
Ungoliant belum ada di docs.rs: gunakan cargo doc --bins --open
untuk membuka dokumentasi.
Kunjungi Dokumentasi OSCAR untuk informasi lebih lanjut tentang proyek ini.