이것은 논문의 저장소입니다.
적대적 데이터와의 모호성에 직면 한 과잉. Margaret Li*와 Julian Michael,* NAACL 2022의 DADC (Dynamic Adversarial Data Collection)에 관한 첫 번째 워크숍의 절차 .
(어리석은 약어는 원래의 작업 이름, "대적 평가에 대한 모호한 평가")입니다.
이 저장소에서 :
aeae/
: 데이터, 메트릭 등에 대한 소스 코드 등scripts/
: 예측 실행, 평가 및 분석을위한 도표 생성을위한 진입 점. 이 논문에서, 우리는 열 NLI 데이터가 SNLI 및 MNLI와 함께 classical
모델을 훈련시키는 것을 언급하는 것을 잊어 버렸습니다. 이것은 ANLI에 대한 종자 모델이 훈련 된 모든 비 방향으로 수집되지 않은 모든 데이터에 대해 classical
훈련을 받는다는 것을 의미합니다.
이 프로젝트에는 Python 3이 필요하며 Allennlp 및 Pytorch를 사용하여 작성됩니다.
워크 스테이션 설정 :
python scripts/download.py
로 시작하여 데이터 세트를 다운로드하십시오.pip install -r requirements.txt
사용하여 파이썬 종속성을 설치하십시오.python scripts/build_data.py
사용한 전처리 데이터 세트.정신을 확인하기 위해 모델 훈련을 위해 실행하십시오
MODE=tiny allennlp train config/basic.jsonnet --include-package aeae -o '{"trainer.cuda_device": -1}' -s save/tiny
이것은 CPU를 사용하여 MNLI의 작은 서브 세트에서 모델을 훈련시킵니다. 그에 따라 다른 데이터 소스를 사용하여 다른 데이터 소스를 사용합니다 (Basic.jsonnet 참조) CUDA 장치는 사용되는 GPU를 결정합니다.
NLI 인스턴스는 다음과 같은 형식으로 전처리됩니다.
{
"uid": String,
"premise": String,
"hypothesis": String,
"label": "e" | "c" | "n"
}
문서의 나머지 부분은 Todo입니다.