우리는 사용자 연구를 수행하여 사용자에게 트리거 질문과 관련하여 읽기 텍스트의 관련성을 평가하도록 요청했습니다. 우리는 사용자의 시선 신호와 관련성 등급을 기록했습니다. 이 저장소에는 기록 된 데이터 세트를로드, 처리 및 분석 할 수있는 스크립트 및 루틴 세트가 포함되어 있습니다. 궁극적 인 목표는 시선 신호를 입력 한 기계 학습을 사용하여 사용자의 인식 된 관련성을 입력하는 것입니다.
패키지 | 설명 |
---|---|
data_loading | 기록 된 데이터 세트 또는 그 일부를 단일 데이터 구조로로드하십시오. 단락 당 및 단락 당 방문, 즉 단락에 대한 연속 스캔 경로 인 단락의 초기 시선으로 시작하여 시선 신호가 단락 영역을 떠날 때 끝납니다. |
features | 특정 스캔 경로에 대한 시선 기반 기능의 추출. |
data | Gazere-dataset |
자세한 정보는 특정 readme 파일을 참조하십시오.
기록 된 데이터 세트에는 g-REL
Corpus의 12
자극에 대한 24
참가자와 Google NQ
코퍼스의 12
자극에 대한 관련성 등급 (인식 관련성)이 포함됩니다. 본 연구에 사용 된 자극 데이터는 하나 또는 여러 단락이있는 트리거 질문 및 문서 쌍입니다. 우리는 G-Rel Corpus [1]의 서브 세트를 한 페이지에 맞는 단일 파라 그라하 문서를 사용하고 Google Natural Questions (NQ) 코퍼스에서 선택한 쌍을 스크롤 해야하는 다중 파라 그라하 문서를 포함합니다 [2]. 두 Corpora에는 단락 당 관련 주석이 포함되어 있으며, 이는 시스템 관련성이라고합니다.
또한, 과제 전체에 걸쳐 화면의 참가자의 시선이 각 문서에 대해 기록되고 저장됩니다.
기록 된 데이터 세트에는 연구 참가자마다 하나의 폴더가 포함되어 있습니다. 폴더 이름의 첫 번째 문자는 사용자의 시작 코퍼스를 나타내며 각 코퍼스 g-rel
과 GoogleNQ
에는 하위 폴더가 있습니다. CSV 파일은 자극에 대한 참가자의 시선 기록을 포함하는 자극의 판독 단계로 만들어집니다. CSV 파일의 이름은 OrderID_StimulusID.csv
로, OrderID
(0-11)는 사용자가 자극을 읽는 순서를 나타냅니다. StimulusID
사용자보기를 문서화하는 것을 나타냅니다. 또한 User_Rating
파일은 등급 단계 후 각 자극에 대한 참가자의 관련성 추정을 저장합니다.
<participant_id>
-GoogleNQ
-<OrderID_StimulusID>.csv
-User_Rating
-g-REL
-<OrderID_StimulusID>.csv
-User_Rating
['timestamp', 'gaze_x', 'gaze_y', 'gaze_y_abs', 'fixation_id', 'scroll_y', 'paragraph_id']
필드 | 설명 |
---|---|
timestamp | [s] 의 각 시선 샘플에 대한 타임 스탬프 |
gaze_x | 수평 시선 위치 |
gaze_y | 수직 시선 위치 |
gaze_y_abs | 문서의 절대 수직 시선 위치. (왼쪽 상단 [0.0, doc_max_y] 하단 오른쪽 [2560.0, 0.0] ) |
fixation_id | 현재 고정의 ID [0, num_fixation] 또는 고정이없는 경우 None |
scroll_y | 상대 스크롤 위치 [1.0, 0.0] (상단 : 1.0 하단 : 0.0 ) |
paragraph_id | 시선 신호 [-2 to 6] 에 부딪히는 단락의 ID는 -1 이 헤드 라인 영역을, 나머지 여유 공간을 참조하는 -2 , 평가 버튼을 참조하는 -3 . |
화면의 해상도는 2560x1440
입니다. 따라서 모든 X 좌표는 [0.0, 2560.0]
과 y 좌표 사이에있다 [0.0, 1440.0]
.
데이터 세트 또는 기능 구현을 사용할 때는 다음 기사를 인용하십시오.
@article{barz_implicit_2021,
title = {Implicit {Estimation} of {Paragraph} {Relevance} from {Eye} {Movements}},
issn = {2624-9898},
url = {https://www.frontiersin.org/articles/10.3389/fcomp.2021.808507},
doi = {10.3389/fcomp.2021.808507},
journal = {Frontiers in Computer Science},
author = {Barz, Michael and Bhatti, Omair Shahzad and Sonntag, Daniel},
year = {2021},
}
[1] Jacek Gwizdka. 2014. 시선 추적 측정과 관련성을 특성화합니다. 컨텍스트 심포지엄에서 5 번째 정보 상호 작용의 절차 (IIIX '14). 미국 뉴욕, 뉴욕, 미국, 컴퓨팅 기계 협회, 58–67. doi : https://doi.org/10.1145/2637002.2637011
[2] Tom Kwiatkowski, Jennimaria Palomaki, Olivia Redfield, Michael Collins, Ankur Parikh, Chris Alberti, Danielle Epstein, Illia Polosukhin, Jacob Devlin, Kenton Lee, Kristina Toutanova, Lleion Jones, Matthew Klcey, Ming-Wei, Ming-Wei Chang. Dai, Jakob Uszkoreit, Quoc Le, Slav Petrov; 자연스러운 질문 : 질문에 대한 질문에 대한 벤치 마크. 컴퓨터 언어학 협회의 거래 2019; 7 453–466. doi : https://doi.org/10.1162/tacl_a_00276