?️ Ungoliant ist eine Hochleistungs-Pipeline, die Tools zum Erstellen von Pipelines zur Korpusgenerierung aus CommonCrawl bereitstellt. ?️
Derzeit handelt es sich um die Generierungspipeline für das OSCAR-Korpus von CommonCrawl. Ungoliant ist ein Ersatz für Goclassy.
cargo
: cargo install ungoliant
git
: cargo install --git https://github.com/oscar-corpus/ungoliant
Ungoliant benötigt zahlreiche Abhängigkeiten, die bei der Installation kompiliert werden sollten. Allerdings kann cmake / gcc
erforderlich sein, da das Projekt fasttext-rs verwendet.
Die KenLM-Funktion ist optional, da sie auf unsicherem Code basiert, der beschädigt werden kann, wenn die bereitgestellten Modelldateien nicht korrekt sind.
Um es zu aktivieren, installieren Sie die KenLM-Anforderungen:
apt install -y libboost-all-dev libeigen3-dev
und verwenden Sie cargo install ungoliant --features kenlm
oder cargo b --features kenlm
wenn Sie aus dem Quellcode erstellen.
Standardmäßig erwartet ungoliant
das Modell lid.176.bin
per Meta. Verwenden Sie curl https://dl.fbaipublicfiles.com/fasttext/supervised-models/lid.176.bin -o lid.176.bin
um es zu erhalten.
Sie können jedoch das gewünschte Modell verwenden: Zeigen Sie einfach mit ungoliant download --lid-path
auf seinen Pfad.
Weitere Optionen sind:
Die übliche Methode zum Generieren von Korpora ist:
wet.paths.gz
aus dem letzten CommonCrawl-Dump ab und dekomprimieren Sie sie.download
-Befehl herunter.pipeline
-Befehl (dies kann einige Zeit dauern). Weitere Informationen finden Sie im --help
der einzelnen Befehle.
ungoliant 2
corpus generation tool.
USAGE:
ungoliant
FLAGS:
-h, --help Prints help information
-V, --version Prints version information
SUBCOMMANDS:
download Download a CommonCrawl release
help Prints this message or the help of the given subcommand(s)
pipeline Run pipeline
rebuild Rebuild the corpus for a given language.
Ungoliant ist noch nicht auf docs.rs: Verwenden Sie cargo doc --bins --open
um die Dokumentation zu öffnen.
Weitere Informationen zum Projekt finden Sie in der OSCAR-Dokumentation.