?️ Ungoliant — это высокопроизводительный конвейер, предоставляющий инструменты для создания конвейеров генерации корпусов из CommonCrawl. ?️
В настоящее время это конвейер генерации корпуса OSCAR от CommonCrawl. Унголиант — замена goclassy.
cargo
: cargo install ungoliant
git
: cargo install --git https://github.com/oscar-corpus/ungoliant
Ungoliant нуждается в многочисленных зависимостях, которые необходимо скомпилировать при установке. Однако может потребоваться cmake / gcc
, поскольку в проекте используется fasttext-rs.
Функция KenLM является необязательной, поскольку она основана на небезопасном коде, который может сломаться, если предоставленные файлы модели неверны.
Чтобы включить его, установите требования KenLM:
apt install -y libboost-all-dev libeigen3-dev
и используйте cargo install ungoliant --features kenlm
или cargo b --features kenlm
если вы собираете из исходного кода.
По умолчанию ungoliant
ожидает мета-модель lid.176.bin
. Используйте curl https://dl.fbaipublicfiles.com/fasttext/supervised-models/lid.176.bin -o lid.176.bin
чтобы получить его.
Однако вы можете использовать ту модель, которую хотите: просто укажите ее путь с помощью ungoliant download --lid-path
.
Другие варианты включают в себя:
Обычный способ создания корпусов:
wet.paths.gz
из последнего дампа CommonCrawl и распакуйте его.download
.pipeline
(это может занять некоторое время). Дополнительную информацию можно найти в --help
каждой команды.
ungoliant 2
corpus generation tool.
USAGE:
ungoliant
FLAGS:
-h, --help Prints help information
-V, --version Prints version information
SUBCOMMANDS:
download Download a CommonCrawl release
help Prints this message or the help of the given subcommand(s)
pipeline Run pipeline
rebuild Rebuild the corpus for a given language.
Ungoliant еще нет на docs.rs: используйте cargo doc --bins --open
чтобы открыть документацию.
Посетите документацию OSCAR для получения дополнительной информации о проекте.