?️ Ungoliant es una canalización de alto rendimiento que proporciona herramientas para crear canalizaciones de generación de corpus desde CommonCrawl. ?️
Actualmente es el canal de generación del corpus OSCAR, de CommonCrawl. Ungoliant es un reemplazo de goclassy.
cargo
: cargo install ungoliant
git
: cargo install --git https://github.com/oscar-corpus/ungoliant
Ungoliant necesita numerosas dependencias que deben compilarse durante la instalación. Sin embargo, puede ser necesario cmake / gcc
ya que el proyecto utiliza fasttext-rs.
La función KenLM es opcional porque se basa en código inseguro que puede fallar si los archivos de modelo proporcionados no son correctos.
Para habilitarlo, instale los requisitos de KenLM:
apt install -y libboost-all-dev libeigen3-dev
y use cargo install ungoliant --features kenlm
o cargo b --features kenlm
si está compilando desde la fuente.
De forma predeterminada, ungoliant
espera el modelo lid.176.bin
por meta. Utilice curl https://dl.fbaipublicfiles.com/fasttext/supervised-models/lid.176.bin -o lid.176.bin
para obtenerlo.
Sin embargo, puede usar el modelo que desee: simplemente señale su ruta usando ungoliant download --lid-path
.
Otras opciones incluyen:
La forma habitual de generar corpus es:
wet.paths.gz
del último volcado de CommonCrawl y descomprímalo.download
.pipeline
(puede llevar algún tiempo). Puede encontrar más información en --help
de cada comando.
ungoliant 2
corpus generation tool.
USAGE:
ungoliant
FLAGS:
-h, --help Prints help information
-V, --version Prints version information
SUBCOMMANDS:
download Download a CommonCrawl release
help Prints this message or the help of the given subcommand(s)
pipeline Run pipeline
rebuild Rebuild the corpus for a given language.
Ungoliant aún no está en docs.rs: use cargo doc --bins --open
para abrir la documentación.
Dirígete a la documentación de OSCAR para obtener más información sobre el proyecto.