LAUG 다운로드 - LAUG 소스코드 다운로드

LAUG

기타 소스코드

1.0.0

다운로드

LAUG

LAUG는 언어 이해 AUGmentation을 위한 오픈 소스 툴킷입니다. 이는 기존 데이터의 자연적인 섭동을 근사화하는 자동 방법입니다. 증강 데이터를 사용하여 블랙박스 견고성 테스트를 수행하거나 교육을 강화할 수 있습니다. [종이]

LAUG
- 설치
- 증강 방법
- 지원되는 데이터세트
- NLU 모델
- 인용
- 특허

설치

파이썬 3.6이 필요합니다.

다음 저장소를 복제하세요.

git clone https://github.com/thu-coai/LAUG.git

pip를 통해 설치:

 cd LAUG
pip install -e .

데이터 및 모델 다운로드:

우리 논문에 사용된 데이터와 우리가 사전 훈련한 모델 매개 변수는 Link에서 확인할 수 있습니다. 다운로드하여 해당 디렉토리에 배치하십시오. 다른 사람이 공개한 모델 매개변수는 LAUG/aug/Speech_Recognition/README.md 등 각 기능 보강 방법의 디렉토리에 있는 README.md 를 참조하세요.

증강 방법

우리 논문에 설명된 4가지 확대 방법은 다음과 같습니다. LAUG/aug dir 아래에 위치합니다.

Word Perturbation(WP), Word_Perturbation/ dir.
Text_Paraphrasing/ dir에 있는 텍스트 패러프레이징(TP).
음성 인식(SR), Speech_Recognition/ dir.
Speech Disfluency(SD), at Speech_Disfluency/ dir.

자세한 내용은 각 증강 방법에 대한 논문과 README.md를 참조하세요.

이러한 기능 보강 방법의 사용법은 demo.py 참조하세요.

python demo.py

우리의 증강 방법에는 여러 신경 모델이 포함되어 있으므로 사전 훈련된 매개변수를 사용하기 전에 다운로드해야 합니다. 우리가 사전 훈련한 매개변수는 Link에서 사용할 수 있습니다. 다른 사람이 공개한 매개변수의 경우 각 방법의 지침을 따르십시오.

지원되는 데이터세트

우리 논문에 사용된 데이터는 Link에서 확인할 수 있습니다. 다운로드하여 data/ dir에 배치하세요.

우리의 데이터에는 MultiWOZ 및 프레임이라는 2개의 데이터세트와 그 증가된 복사본이 포함되어 있습니다.

멀티WOZ
- 원본 데이터
  - 원본 데이터로는 MultiWOZ 2.3을 사용합니다. data/multiwoz/ dir에 배치합니다.
  - 훈련/평가/테스트 크기: 8434/999/1000 대화 상자.
  - 특허:
- 증강된 데이터
  - 우리는 4개의 증강된 테스트 세트를 가지고 있습니다:
    - WP(Word Perturbation), 크기: 1000, data/multiwoz/WP 에 배치됩니다.
    - TP(텍스트 패러프레이징), 크기: 1000, data/multiwoz/TP 에 배치됩니다.
    - SR(Speech Perturbation), 크기: 1000, data/multiwoz/SR 에 배치됨.
    - SD(Speech Disfluency), 크기: 1000, data/multiwoz/SD 에 배치됨.
  - 우리는 1개의 증강 훈련 세트를 가지고 있습니다:
    - 크기: 16868, 포함: 50%Original+(12.5%WP+12.5%TP+12.5%SR+12.5%SD), data/multiwoz/Enhanced 에 배치.
- 실제 사용자 평가 데이터:
  - 실제 사용자 평가를 위해 실제 사용자로부터 240개의 발화를 수집했습니다.
  - data/multiwoz/Real dir에 배치합니다.
  - 실제 데이터의 통계 및 수집에 대한 자세한 내용은 당사의 논문을 참조하세요.
프레임
- 원본 데이터
  - 프레임을 MultiWOZ와 동일한 형식으로 처리하여 data/Frames/ dir에 배치합니다.
  - 훈련/평가/테스트 크기: 1095/137/137 대화 상자.
  - 특허:
- 증강된 데이터
  - 우리는 4개의 증강된 테스트 세트를 가지고 있습니다:
    - WP(Word Perturbation), 크기: 137, data/Frames/WP 에 배치됩니다.
    - TP(텍스트 패러프레이징), 크기: 137, data/Frames/TP 에 배치됩니다.
    - SR(Speech Perturbation), 크기: 137, data/Frames/SR 에 배치됩니다.
    - SD(Speech Disfluency), 크기: 137, data/Frames/SD 에 배치됩니다.
  - 우리는 1개의 증강 훈련 세트를 가지고 있습니다:
    - 크기: 2190, 포함: 50%Original+(12.5%WP+12.5%TP+12.5%SR+12.5%SD), data/Frames/Enhanced 에 배치.

NLU 모델

우리는 논문에 설명된 네 가지 기본 NLU 모델을 제공합니다.

밀루
버트
카피넷
GPT-2

이 모델은 ConvLab-2에서 채택되었습니다. 자세한 내용은 LAUG/nlu/gpt/multiwoz/README.md 와 같이 LUAG/nlu/$model/$dataset 디렉터리 아래 README.md 를 참조하세요.

인용

연구에 LAUG를 사용하는 경우 다음을 인용해 주세요.

 @inproceedings{liu2021robustness,
    title={Robustness Testing of Language Understanding in Task-Oriented Dialog},
    author={Liu, Jiexi and Takanobu, Ryuichi and Wen, Jiaxin and Wan, Dazhen and Li, Hongguang and Nie, Weiran and Li, Cheng and Peng, Wei and Huang, Minlie},
    year={2021},
    booktitle={Proceedings of the 59th Annual Meeting of the Association for Computational Linguistics},
}