query wellformedness
1.0.0
Paralex corpus(Fader et al., 2013)의 25,100개 쿼리에는 올바른 형식의 자연어 질문인지 여부에 대한 사람의 평가가 추가되었습니다.
http://goo.gl/언어/query-wellformedness
Google의 쿼리 Wellformedness 데이터 세트는 Paralex 코퍼스의 25,100개 쿼리에 대한 Well-Formedness 주석을 크라우드소싱하여 생성되었습니다. 모든 쿼리에는 쿼리가 올바른 형식인지 여부에 대해 1/0 등급을 부여한 5명의 평가자가 주석을 달았습니다. 더 자세한 내용은 당사의 논문인 잘 구성된 자연어 질문 식별을 참조하세요.
각 쿼리에 대해 5개의 이진 판단의 평균을 쿼리의 형식성 점수로 제공합니다. 다음은 데이터 세트에 있는 쿼리의 몇 가지 예입니다.
질문 | 건강 평가 |
---|---|
그리스에는 아직도 어떤 형태의 정부가 존재하고 있나요? | 1.0 |
북미에만 올빼미의 인구가 있나요? | 0.0 |
조니 뎁이 켈트 팬인가요? | 0.8 |
로알드 달(Roald Dahl)은 십대 시절 어디에 살았습니까? | 0.6 |
데이터 세트는 train.tsv, dev.tsv 및 test.tsv의 세 가지 파일로 나누어지며 각각 평가된 쿼리를 포함합니다. 파일 크기는 다음과 같습니다.
파일 | 쿼리 수 |
---|---|
기차.tsv | 17,500 |
dev.tsv | 3,750 |
테스트.tsv | 3,850 |
각 파일의 예는 다음 열을 포함하는 탭으로 구분되어 있습니다.
열 | 콘텐츠 |
---|---|
1 | 유럽 연합에는 몇 개가 포함되어 있습니까? |
2 | 0.2 |
귀하의 작업에서 이 데이터세트를 사용하거나 논의하는 경우 다음 논문을 인용해 주세요.
@InProceedings{FaruquiDas2018,
title = {{Identifying Well-formed Natural Language Questions}},
author = {Faruqui, Manaal and Das, Dipanjan},
booktitle = {Proc. of EMNLP},
year = {2018}
}
쿼리 잘 구성된 데이터 세트는 CC BY-SA 4.0에 따라 라이선스가 부여됩니다. 제3자 콘텐츠나 데이터는 명시적이든 묵시적이든 어떠한 보증도 없이 "있는 그대로" 제공됩니다.
데이터세트나 출판물에 관한 기술적인 질문이 있는 경우 이 저장소에 이슈를 생성하세요.