?️ Ungoliant は、CommonCrawl からコーパス生成パイプラインを構築するツールを提供する高性能パイプラインです。 ⁉️
現在、これは CommonCrawl からの OSCAR コーパスの生成パイプラインです。 Ungoliant は goclassy の代替品です。
cargo
経由: cargo install ungoliant
git
経由: cargo install --git https://github.com/oscar-corpus/ungoliant
Ungoliant には、インストール時にコンパイルする必要がある多数の依存関係が必要です。ただし、プロジェクトでは fasttext-rs を使用するため、 cmake / gcc
必要になる場合があります。
KenLM 機能は、提供されたモデル ファイルが正しくない場合に破損する可能性がある安全でないコードに依存しているため、オプションです。
有効にするには、KenLM 要件をインストールします。
apt install -y libboost-all-dev libeigen3-dev
ソースからビルドする場合は、 cargo install ungoliant --features kenlm
またはcargo b --features kenlm
を使用します。
デフォルトでは、 ungoliant
メタによってlid.176.bin
モデルを期待します。これを取得するには、 curl https://dl.fbaipublicfiles.com/fasttext/supervised-models/lid.176.bin -o lid.176.bin
を使用します。
ただし、必要なモデルを使用することはできます。ungoliant ungoliant download --lid-path
を使用してそのパスを指定するだけです。
その他のオプションには次のものがあります。
コーパスを生成する通常の方法は次のとおりです。
wet.paths.gz
ファイルを取得し、解凍します。download
コマンドを使用してファイルをダウンロードします。pipeline
コマンドを使用してコーパスを生成します (時間がかかる場合があります)。詳細については、各コマンドの--help
を参照してください。
ungoliant 2
corpus generation tool.
USAGE:
ungoliant
FLAGS:
-h, --help Prints help information
-V, --version Prints version information
SUBCOMMANDS:
download Download a CommonCrawl release
help Prints this message or the help of the given subcommand(s)
pipeline Run pipeline
rebuild Rebuild the corpus for a given language.
Ungoliant はまだ docs.rs にありません。ドキュメントを開くには、 cargo doc --bins --open
を使用してください。
プロジェクトの詳細については、OSCAR ドキュメントにアクセスしてください。