?️ Ungoliant est un pipeline haute performance qui fournit des outils pour créer des pipelines de génération de corpus à partir de CommonCrawl. ?️
Il s'agit actuellement du pipeline de génération du corpus OSCAR, de CommonCrawl. Ungoliant remplace goclassy.
cargo
: cargo install ungoliant
git
: cargo install --git https://github.com/oscar-corpus/ungoliant
Ungoliant a besoin de nombreuses dépendances qui doivent être compilées lors de l'installation. Cependant, cmake / gcc
peut être nécessaire car le projet utilise fasttext-rs.
La fonctionnalité KenLM est facultative car elle repose sur un code dangereux qui peut être interrompu si les fichiers de modèle fournis ne sont pas corrects.
Pour l'activer, installez la configuration requise pour KenLM :
apt install -y libboost-all-dev libeigen3-dev
et utilisez cargo install ungoliant --features kenlm
ou cargo b --features kenlm
si vous construisez à partir des sources.
Par défaut, ungoliant
attend le modèle lid.176.bin
par méta. Utilisez curl https://dl.fbaipublicfiles.com/fasttext/supervised-models/lid.176.bin -o lid.176.bin
pour l'obtenir.
Cependant, vous pouvez utiliser le modèle de votre choix : pointez simplement son chemin en utilisant ungoliant download --lid-path <path to lid>
.
D'autres options incluent :
La manière habituelle de générer des corpus est la suivante :
wet.paths.gz
du dernier dump CommonCrawl et décompressez-le.download
.pipeline
(cela peut prendre un certain temps). Vous pouvez trouver plus d'informations sur --help
de chaque commande.
ungoliant 2
corpus generation tool.
USAGE:
ungoliant <SUBCOMMAND>
FLAGS:
-h, --help Prints help information
-V, --version Prints version information
SUBCOMMANDS:
download Download a CommonCrawl release
help Prints this message or the help of the given subcommand(s)
pipeline Run pipeline
rebuild Rebuild the corpus for a given language.
Ungoliant n'est pas encore sur docs.rs : utilisez cargo doc --bins --open
pour ouvrir la documentation.
Rendez-vous sur la documentation OSCAR pour plus d'informations sur le projet.