?️ Ungoliant는 CommonCrawl에서 말뭉치 생성 파이프라인을 구축하는 도구를 제공하는 고성능 파이프라인입니다. ?️
현재 CommonCrawl의 OSCAR 코퍼스 생성 파이프라인입니다. Ungoliant는 goclassy를 대체합니다.
cargo
통해: cargo install ungoliant
git
통해: cargo install --git https://github.com/oscar-corpus/ungoliant
Ungoliant에는 설치 시 컴파일해야 하는 수많은 종속성이 필요합니다. 그러나 프로젝트에서 fasttext-rs를 사용하므로 cmake / gcc
필요할 수 있습니다.
KenLM 기능은 제공된 모델 파일이 올바르지 않을 경우 손상될 수 있는 안전하지 않은 코드에 의존하기 때문에 선택 사항입니다.
이를 활성화하려면 KenLM 요구 사항을 설치하십시오.
apt install -y libboost-all-dev libeigen3-dev
소스에서 빌드하는 경우 cargo install ungoliant --features kenlm
또는 cargo b --features kenlm
사용하십시오.
기본적으로 ungoliant
메타별로 lid.176.bin
모델을 기대합니다. 그것을 얻으려면 curl https://dl.fbaipublicfiles.com/fasttext/supervised-models/lid.176.bin -o lid.176.bin
사용하십시오.
그러나 원하는 모델을 사용할 수 있습니다. ungoliant download --lid-path <path to lid>
사용하여 해당 경로를 가리키기만 하면 됩니다.
기타 옵션은 다음과 같습니다.
말뭉치를 생성하는 일반적인 방법은 다음과 같습니다.
wet.paths.gz
파일을 가져와서 압축을 풉니다.download
명령을 사용하여 파일을 다운로드합니다.pipeline
명령을 사용하여 말뭉치를 생성합니다(시간이 걸릴 수 있음). 각 명령의 --help
에 대한 자세한 정보를 찾을 수 있습니다.
ungoliant 2
corpus generation tool.
USAGE:
ungoliant <SUBCOMMAND>
FLAGS:
-h, --help Prints help information
-V, --version Prints version information
SUBCOMMANDS:
download Download a CommonCrawl release
help Prints this message or the help of the given subcommand(s)
pipeline Run pipeline
rebuild Rebuild the corpus for a given language.
Ungoliant는 아직 docs.rs에 없습니다. 문서를 열려면 cargo doc --bins --open
사용하세요.
프로젝트에 대한 자세한 내용을 보려면 OSCAR 문서를 참조하세요.