我们进行了一项用户研究,在该研究中,我们要求用户对读取文本的相关性对触发问题的相关性进行评分。我们记录了用户的目光信号及其相关性评分。该存储库包含一组脚本和例程,用于加载,处理和分析录制的数据集。最终目标是使用用注视信号作为输入的机器学习来估算用户的感知相关性。
包裹 | 描述 |
---|---|
data_loading | 将记录的数据集或该数据集加载到单个数据结构中。每个段落和每个段落访问加载数据,即,对段落的连续扫描路径,该段落从初始注视开始,然后在凝视信号离开段落区域时结束。 |
features | 提取一定扫描路径的基于目光的特征。 |
data | Gazere-Dataset |
有关更多详细信息,请参见特定的读数文件。
记录的数据集包括来自g-REL
语料库的12
刺激的24
参与者的相关性评分(感知相关性)和Google NQ
语料库的12
刺激。我们研究中使用的刺激数据是一对带有一个或多个段落的触发问题和文档。我们将来自G-Rel语料库[1]的子集与适合一页的单段文档一起使用,并从Google自然问题(NQ)中选择对,其中包括需要滚动的多段落文档[2]。这两个语料库都包括每个段落的相关性注释,我们称为系统相关性。
此外,在他们的任务中,参与者在屏幕上的目光记录并为每个文档保存。
记录的数据集包含一个研究人员的一个文件夹。文件夹名称的第一个字母表示用户的启动语料库,每个语料库g-rel
和GoogleNQ
都有其子文件夹。创建了一个CSV文件的刺激的阅读阶段,其中包含参与者在刺激上的注视记录。 CSV文件命名为OrderID_StimulusID.csv
, OrderID
(0-11)指示用户读取刺激的顺序。 StimulusID
表示用户查看的记录。此外,在评分阶段之后, User_Rating
文件节省了参与者对每个刺激的相关性估计。
<participant_id>
-GoogleNQ
-<OrderID_StimulusID>.csv
-User_Rating
-g-REL
-<OrderID_StimulusID>.csv
-User_Rating
['timestamp', 'gaze_x', 'gaze_y', 'gaze_y_abs', 'fixation_id', 'scroll_y', 'paragraph_id']
场地 | 描述 |
---|---|
timestamp | [s] 中每个凝视样本的时间戳 |
gaze_x | 水平凝视位置 |
gaze_y | 垂直注视位置 |
gaze_y_abs | 文档中的绝对垂直凝视位置。 (左上[0.0, doc_max_y] 右下角[2560.0, 0.0] ) |
fixation_id | 当前固定的ID [0, num_fixation] 或None 固定 |
scroll_y | 相对滚动位置[1.0, 0.0] (顶部: 1.0 底部: 0.0 ) |
paragraph_id | 被凝视信号击中的段落的ID [-2 to 6] 其中-1 的是标题区域, -2 的是剩余的自由空间, -3 的是评分按钮 |
屏幕的分辨率为2560x1440
。因此,所有X坐标都位于[0.0, 2560.0]
和[0.0, 1440.0]
之间的y坐标之间。
使用我们的数据集或我们的功能实施时,请引用以下文章:
@article{barz_implicit_2021,
title = {Implicit {Estimation} of {Paragraph} {Relevance} from {Eye} {Movements}},
issn = {2624-9898},
url = {https://www.frontiersin.org/articles/10.3389/fcomp.2021.808507},
doi = {10.3389/fcomp.2021.808507},
journal = {Frontiers in Computer Science},
author = {Barz, Michael and Bhatti, Omair Shahzad and Sonntag, Daniel},
year = {2021},
}
[1] Jacek Gwizdka。 2014年。表征与眼睛追踪措施相关性。在上下文研讨会中第五信息相互作用的会议录中(IIIX '14)。计算机协会,美国纽约,纽约,58-67。 doi:https://doi.org/10.1145/2637002.2637011
[2] Tom Kwiatkowski,Jennimaria Palomaki,Olivia Redfield,Michael Collins,Ankur Parikh,Chris Alberti,Chris Alberti,Chris Alberti,Danielle Epstein,Illia Polosukhin,Jacob Devlin,Kenton Lee,Kenton Lee,Kristina Toutanova,Kristina Toutanova,Kristina Toutanova,Llion Jones,Llion Jones,Matthew Kelcey,Matthew Kelcey,M.Charper,M.Charch和M.N.M.N.M.N.M.S. Dai,Jakob Uszkoreit,Quoc LE,Slav Petrov;自然问题:回答研究的问题的基准。 2019年计算语言学协会交易; 7 453–466。 doi:https://doi.org/10.1162/tacl_a_00276