?️ Ungoliant é um pipeline de alto desempenho que fornece ferramentas para construir pipelines de geração de corpus a partir do CommonCrawl. ?️
Atualmente é o pipeline de geração do corpus OSCAR, do CommonCrawl. Ungoliant é um substituto do goclassy.
cargo
: cargo install ungoliant
git
: cargo install --git https://github.com/oscar-corpus/ungoliant
Ungoliant precisa de inúmeras dependências que devem ser compiladas durante a instalação. No entanto, cmake / gcc
pode ser necessário, pois o projeto usa fasttext-rs.
O recurso KenLM é opcional porque depende de código inseguro que pode quebrar se os arquivos de modelo fornecidos não estiverem corretos.
Para habilitá-lo, instale os requisitos do KenLM:
apt install -y libboost-all-dev libeigen3-dev
e use cargo install ungoliant --features kenlm
ou cargo b --features kenlm
se você estiver construindo a partir do código-fonte.
Por padrão, ungoliant
espera o modelo lid.176.bin
por meta. Use curl https://dl.fbaipublicfiles.com/fasttext/supervised-models/lid.176.bin -o lid.176.bin
para obtê-lo.
Porém, você pode usar o modelo que desejar: basta apontar para seu caminho usando ungoliant download --lid-path
.
Outras opções incluem:
A forma usual de gerar corpora é:
wet.paths.gz
do último dump do CommonCrawl e descompacte-o.download
.pipeline
(pode levar algum tempo). Você pode encontrar mais informações sobre --help
de cada comando.
ungoliant 2
corpus generation tool.
USAGE:
ungoliant
FLAGS:
-h, --help Prints help information
-V, --version Prints version information
SUBCOMMANDS:
download Download a CommonCrawl release
help Prints this message or the help of the given subcommand(s)
pipeline Run pipeline
rebuild Rebuild the corpus for a given language.
Ungoliant ainda não está no docs.rs: use cargo doc --bins --open
para abrir a documentação.
Acesse a documentação do OSCAR para obter mais informações sobre o projeto.