ungoliant
v2.0.0
️ Ungoliant 是一個高效能管道,提供從 CommonCrawl 建立語料庫產生管道的工具。 ?
它目前是來自 CommonCrawl 的 OSCAR 語料庫的生成管道。 Ungoliant 是 goclassy 的替代品。
cargo
: cargo install ungoliant
git
: cargo install --git https://github.com/oscar-corpus/ungoliant
Ungoliant 需要大量依賴項,應在安裝時進行編譯。但是,由於專案使用 fasttext-rs,因此可能需要cmake / gcc
。
KenLM 功能是可選的,因為它依賴不安全的程式碼,如果提供的模型檔案不正確,這些程式碼可能會中斷。
要啟用它,請安裝 KenLM 要求:
apt install -y libboost-all-dev libeigen3-dev
如果您是從原始碼建立的話,請使用cargo install ungoliant --features kenlm
或cargo b --features kenlm
。
預設情況下, ungoliant
需要元的lid.176.bin
模型。使用curl https://dl.fbaipublicfiles.com/fasttext/supervised-models/lid.176.bin -o lid.176.bin
來取得它。
但是,您可以使用所需的模型:只需使用ungoliant download --lid-path
指向其路徑。
其他選項包括:
生成語料庫的常用方式是:
wet.paths.gz
檔案並將其解壓縮。download
指令下載檔案。pipeline
命令產生語料庫(可能需要一些時間)。您可以找到有關每個命令的--help
的更多資訊。
ungoliant 2
corpus generation tool.
USAGE:
ungoliant
FLAGS:
-h, --help Prints help information
-V, --version Prints version information
SUBCOMMANDS:
download Download a CommonCrawl release
help Prints this message or the help of the given subcommand(s)
pipeline Run pipeline
rebuild Rebuild the corpus for a given language.
Ungoliant 尚未出現在 docs.rs 上:使用cargo doc --bins --open
開啟文件。
請前往 OSCAR 文檔,以了解有關該項目的更多資訊。