Realizamos un estudio de usuarios en el que les pedimos a los usuarios que calificaran la relevancia de los textos de lectura con respecto a una pregunta de activación. Grabamos la señal de mirada del usuario y sus calificaciones de relevancia. Este repositorio contiene un conjunto de scripts y rutinas para cargar, procesar y analizar el conjunto de datos grabado. El objetivo final es estimar la relevancia percibida del usuario usando el aprendizaje automático con la señal de mirada como entrada.
paquete | descripción |
---|---|
data_loading | Cargue el conjunto de datos grabado, o partes de él, en una sola estructura de datos. Carga los datos por párrafo y por visita al párrafo, es decir, un camino de escaneo continuo para un párrafo que comienza con una mirada inicial a un párrafo y termina cuando la señal de la mirada sale del área del párrafo. |
features | Extracción de las características basadas en la mirada para una cierta red de escaneo. |
data | gazere-dataset |
Consulte los archivos ReadMe particular para obtener información más detallada.
El conjunto de datos registrado incluye calificaciones de relevancia (relevancia percibida) de 24
participantes para 12
estímulos del corpus g-REL
y 12
estímulos del Corpus Google NQ
. Los datos de estímulos utilizados en nuestro estudio son pares de preguntas y documentos desencadenantes con uno o múltiples párrafos. Utilizamos un subconjunto del Corpus G-Rel [1] con documentos de un solo párrafo que se ajustan en una página y pares seleccionados del Corpus de Google Natural Preguntas (NQ) que incluye documentos de varios párrafos que requieren desplazamiento [2]. Ambos corpus incluyen anotaciones de relevancia por párrafo que referimos como relevancia del sistema.
Además, a lo largo de su tarea, la mirada del participante en la pantalla se registra y guarda para cada documento.
El conjunto de datos grabado contiene una carpeta para cada participante del estudio. La primera letra del nombre de la carpeta denota el corpus inicial del usuario, y cada cuerpo g-rel
y GoogleNQ
tienen su subcarpeta. Se crea un archivo CSV la fase de lectura de un estímulo, que contiene las grabaciones de la mirada de los participantes en el estímulo. El archivo CSV se llama OrderID_StimulusID.csv
, con el OrderID
(0-11) que indica el orden en el que el usuario lee el estímulo. El StimulusID
denota que documentan las vistas del usuario. Además, un archivo User_Rating
guarda la estimación de relevancia del participante para cada estímulo después de la fase de calificación.
<participant_id>
-GoogleNQ
-<OrderID_StimulusID>.csv
-User_Rating
-g-REL
-<OrderID_StimulusID>.csv
-User_Rating
['timestamp', 'gaze_x', 'gaze_y', 'gaze_y_abs', 'fixation_id', 'scroll_y', 'paragraph_id']
campo | descripción |
---|---|
timestamp | Marca de tiempo para cada muestra de mirada en [s] |
gaze_x | Posición de mirada horizontal |
gaze_y | Posición de mirada vertical |
gaze_y_abs | Posición de mirada vertical absoluta en el documento. (Arriba a la izquierda [0.0, doc_max_y] abajo a la derecha [2560.0, 0.0] ) |
fixation_id | ID de la fijación actual [0, num_fixation] o None si no hay fijación |
scroll_y | Posición de desplazamiento relativo [1.0, 0.0] (arriba: 1.0 inferior: 0.0 ) |
paragraph_id | ID del párrafo que es golpeado por la señal de mirada [-2 to 6] con -1 que se refiere al área principal y -2 que se refiere al espacio libre restante y -3 que se refiere al botón de calificación |
La pantalla tiene una resolución de 2560x1440
. Por lo tanto, todas las coordenadas X se encuentran entre [0.0, 2560.0]
y las coordenadas y entre [0.0, 1440.0]
.
Al usar nuestro conjunto de datos o nuestra implementación de funciones, cita el siguiente artículo:
@article{barz_implicit_2021,
title = {Implicit {Estimation} of {Paragraph} {Relevance} from {Eye} {Movements}},
issn = {2624-9898},
url = {https://www.frontiersin.org/articles/10.3389/fcomp.2021.808507},
doi = {10.3389/fcomp.2021.808507},
journal = {Frontiers in Computer Science},
author = {Barz, Michael and Bhatti, Omair Shahzad and Sonntag, Daniel},
year = {2021},
}
[1] Jacek Gwizdka. 2014. Caracterización de relevancia con las medidas de seguimiento ocular. En procedimientos de la quinta interacción de la información en el Simposio de contexto (IIIX '14). Asociación para la Maquinaria de Computación, Nueva York, NY, EE. UU., 58–67. Doi: https://doi.org/10.1145/2637002.2637011
[2] Tom Kwiatkowski, Jennimaria Palomaki, Olivia Redfield, Michael Collins, Ankur Parikh, Chris Alberti, Danielle Epstein, Illia Polosukhin, Jacob Devlin, Kenton Lee, Kristina Toutanova, Llion Jones, Matthew Kelcey, Ming-Wei Chang, yew M. Dai, Jakob Uszkoreit, Quoc Le, Slav Petrov; Preguntas naturales: un punto de referencia para la investigación de respuesta a preguntas. Transacciones de la Asociación de Lingüística Computacional 2019; 7 453–466. doi: https://doi.org/10.1162/tacl_a_00276