?️ Ungoliant는 CommonCrawl에서 말뭉치 생성 파이프라인을 구축하는 도구를 제공하는 고성능 파이프라인입니다. ?️
현재 CommonCrawl의 OSCAR 코퍼스 생성 파이프라인입니다. Ungoliant는 goclassy를 대체합니다.
cargo
통해: cargo install ungoliant
git
통해: cargo install --git https://github.com/oscar-corpus/ungoliant
Ungoliant에는 설치 시 컴파일해야 하는 수많은 종속성이 필요합니다. 그러나 프로젝트에서 fasttext-rs를 사용하므로 cmake / gcc
필요할 수 있습니다.
KenLM 기능은 제공된 모델 파일이 올바르지 않을 경우 손상될 수 있는 안전하지 않은 코드에 의존하기 때문에 선택 사항입니다.
이를 활성화하려면 KenLM 요구 사항을 설치하십시오.
apt install -y libboost-all-dev libeigen3-dev
소스에서 빌드하는 경우 cargo install ungoliant --features kenlm
또는 cargo b --features kenlm
사용하십시오.
기본적으로 ungoliant
메타별로 lid.176.bin
모델을 기대합니다. 그것을 얻으려면 curl https://dl.fbaipublicfiles.com/fasttext/supervised-models/lid.176.bin -o lid.176.bin
사용하십시오.
그러나 원하는 모델을 사용할 수 있습니다. ungoliant download --lid-path
사용하여 해당 경로를 가리키기만 하면 됩니다.
기타 옵션은 다음과 같습니다.
말뭉치를 생성하는 일반적인 방법은 다음과 같습니다.
wet.paths.gz
파일을 가져와서 압축을 풉니다.download
명령을 사용하여 파일을 다운로드합니다.pipeline
명령을 사용하여 말뭉치를 생성합니다(시간이 걸릴 수 있음). 각 명령의 --help
에 대한 자세한 정보를 찾을 수 있습니다.
ungoliant 2
corpus generation tool.
USAGE:
ungoliant
FLAGS:
-h, --help Prints help information
-V, --version Prints version information
SUBCOMMANDS:
download Download a CommonCrawl release
help Prints this message or the help of the given subcommand(s)
pipeline Run pipeline
rebuild Rebuild the corpus for a given language.
Ungoliant는 아직 docs.rs에 없습니다. 문서를 열려면 cargo doc --bins --open
사용하세요.
프로젝트에 대한 자세한 내용을 보려면 OSCAR 문서를 참조하세요.