lic2019 competition 다운로드 - lic2019 competition 소스코드 다운로드

lic2019 competition

AI 소스 코드

1.0.0

다운로드

1. 업무의 형식화

이 트랙의 목표는 지식 그래프를 기반으로 활성 채팅 작업을 설정하는 것입니다. 지식기반대화 공식 홈페이지 주소

입력하다:

대화 대상 g(여기서 g=START->TOPIC_A->TOPIC_B)는 머신이 콜드 스타트 상태에서 주제 A, 그리고 주제 B로 활발하게 채팅한다는 것을 의미합니다. 이는 이 작업에서 기계가 대화를 적극적으로 안내한다는 것을 의미하며 특정 주제에는 영화 및 엔터테인먼트 캐릭터가 포함됩니다.

관련 지식 정보 M(여기서 M=f1, f2,...,fn)에는 주제 A에 대한 지식 정보, 주제 B에 대한 지식 정보, 주제 A 및 주제 B에 대한 관련 정보의 세 가지 범주가 포함됩니다. 본 작업에서는 영화 흥행, 감독, 평가 등 구체적인 관련 지식정보를 SPO 형태로 표현한다. 즉 (주어, 술어, 목적어), 즉 (엔티티 1, 술어, 엔터티 2)입니다.

현재 대화 시퀀스 H=u1,u2,...u(t-1)

산출:

기계가 ut라고 대답합니다.

2. 데이터 소개(공식 홈페이지 참조)

3. 평가방법

자동 평가 지표와 수동 평가 지표를 결합한 것입니다. 자동 평가 지수는 문자 수준(F1-점수), 단어 수준(BLEU) 및 응답 다양성(DISTINCT)의 세 가지 측정 수준을 고려합니다. 응답의 다양성에 관해서는 여전히 단어 계산을 기반으로 하지만 생성된 단어의 다른 차원을 검토합니다. 참고문헌 2에서 저자는 다음과 같이 썼습니다.

개별-1 및 개별-2는 각각 개별 유니그램 및 바이그램 수를 생성된 총 단어 수로 나눈 값입니다.

4. 일반과정

PyTorch에서 공식적으로 제공하는 튜토리얼(참조 4 참조)을 참조하면 seq2seq 관점에서 문제를 해결하는 방법은 여러 라운드의 대화를 병렬 문장으로 분할하는 것입니다. 예를 들어, 현재 대화 시퀀스 H=u1,u2,...u(t-1)은 t-2개의 샘플 그룹으로 분할될 수 있습니다. u1->u2;u2->u3;...; u (t-2)->u(t-1); 그러나 이 분할 방법에는 문장 간의 부드러움이라는 명백한 문제가 있습니다. 이런 질문이 있어야 하는데 깊이 생각해보지는 않았습니다.