ungoliant
v2.0.0
️ Ungoliant 是一个高性能管道,提供从 CommonCrawl 构建语料库生成管道的工具。 ?️
它目前是来自 CommonCrawl 的 OSCAR 语料库的生成管道。 Ungoliant 是 goclassy 的替代品。
cargo
: cargo install ungoliant
git
: cargo install --git https://github.com/oscar-corpus/ungoliant
Ungoliant 需要大量依赖项,应在安装时对其进行编译。但是,由于项目使用 fasttext-rs,因此可能需要cmake / gcc
。
KenLM 功能是可选的,因为它依赖于不安全的代码,如果提供的模型文件不正确,这些代码可能会中断。
要启用它,请安装 KenLM 要求:
apt install -y libboost-all-dev libeigen3-dev
如果您是从源代码构建的话,请使用cargo install ungoliant --features kenlm
或cargo b --features kenlm
。
默认情况下, ungoliant
需要元的lid.176.bin
模型。使用curl https://dl.fbaipublicfiles.com/fasttext/supervised-models/lid.176.bin -o lid.176.bin
来获取它。
但是,您可以使用所需的模型:只需使用ungoliant download --lid-path
指向其路径。
其他选项包括:
生成语料库的常用方式是:
wet.paths.gz
文件并将其解压缩。download
命令下载文件。pipeline
命令生成语料库(可能需要一些时间)。您可以找到有关每个命令的--help
的更多信息。
ungoliant 2
corpus generation tool.
USAGE:
ungoliant
FLAGS:
-h, --help Prints help information
-V, --version Prints version information
SUBCOMMANDS:
download Download a CommonCrawl release
help Prints this message or the help of the given subcommand(s)
pipeline Run pipeline
rebuild Rebuild the corpus for a given language.
Ungoliant 尚未出现在 docs.rs 上:使用cargo doc --bins --open
打开文档。
请前往 OSCAR 文档,了解有关该项目的更多信息。