Wir haben eine Benutzerstudie durchgeführt, in der wir die Benutzer gebeten haben, die Relevanz von Lesetexten in Bezug auf eine Auslöserfrage zu bewerten. Wir haben das Blick des Benutzers und ihre Relevanzbewertungen aufgezeichnet. Dieses Repository enthält eine Reihe von Skripten und Routinen zum Laden, Verarbeiten und Analysieren des aufgezeichneten Datensatzes. Das ultimative Ziel ist es, die wahrgenommene Relevanz des Benutzers mithilfe des maschinellen Lernens mit dem Blicksignal als Eingabe abzuschätzen.
Paket | Beschreibung |
---|---|
data_loading | Laden Sie den aufgezeichneten Datensatz oder Teile davon in einer einzelnen Datenstruktur. Laden Sie Daten pro Absatz und einen Absatzbesuch, dh ein kontinuierlicher Scan-Pfad für einen Absatz, der mit einem anfänglichen Blick auf einen Absatz beginnt und endet, wenn das Blick des Blicks den Absatzbereich verlässt. |
features | Extraktion von Blickbasis von Blicks für einen bestimmten Scan-Pfad. |
data | Gazere-Dataset |
In den jeweiligen ReadMe -Dateien finden Sie detailliertere Informationen.
Der aufgezeichnete Datensatz enthält Relevanzbewertungen (wahrgenommene Relevanz) von 24
Teilnehmern für 12
Stimuli aus dem g-REL
Corpus und 12
Stimuli aus dem Google NQ
Corpus. Die in unserer Studie verwendeten Stimuli -Daten sind Paare von Triggerfragen und Dokumenten mit einem oder mehreren Absätzen. Wir verwenden eine Teilmenge vom G-Rel Corpus [1] mit Einzelabsatz-Dokumenten, die auf eine Seite passen, und ausgewählte Paare aus dem Corpus von Google Natures Natures (NAQUS), das Dokumente mit mehreren Absätzen enthält, für die Scrolling [2] erforderlich ist. Beide Korpora enthalten Relevanzanmerkungen pro Absatz, die wir als Systemrelevanz bezeichnen.
Darüber hinaus wird während ihrer Aufgabe der Blick des Teilnehmers auf dem Bildschirm für jedes Dokument aufgezeichnet und gespeichert.
Der aufgezeichnete Datensatz enthält einen Ordner für jeden Teilnehmer der Studie. Der erste Buchstabe des Ordnersnamens bedeutet den Startkorpus des Benutzers, und jeder Corpus g-rel
und GoogleNQ
haben seinen Unterordner. Eine CSV -Datei wird in der Lesephase eines Stimulus erstellt, der die Blickaufnahmen der Teilnehmer auf dem Stimulus enthält. Die CSV-Datei heißt OrderID_StimulusID.csv
, wobei der OrderID
(0-11) die Reihenfolge angibt, in der der Benutzer den Stimulus liest. Die StimulusID
bezeichnet, welche Dokumentation die Benutzeransichten dokumentieren. Darüber hinaus speichert eine User_Rating
-Datei die Relevanzschätzung des Teilnehmers für jeden Stimulus nach der Bewertungsphase.
<participant_id>
-GoogleNQ
-<OrderID_StimulusID>.csv
-User_Rating
-g-REL
-<OrderID_StimulusID>.csv
-User_Rating
['timestamp', 'gaze_x', 'gaze_y', 'gaze_y_abs', 'fixation_id', 'scroll_y', 'paragraph_id']
Feld | Beschreibung |
---|---|
timestamp | Zeitstempel für jede Blickprobe in [s] |
gaze_x | Horizontale Blickposition |
gaze_y | Vertikale Blickposition |
gaze_y_abs | Absolute vertikale Blickposition im Dokument. (Oben links [0.0, doc_max_y] unten rechts [2560.0, 0.0] ) |
fixation_id | ID der aktuellen Fixierung [0, num_fixation] oder None , wenn keine Fixierung vorliegt |
scroll_y | Relative Scrolling -Position [1.0, 0.0] (oben: 1.0 unten: 0.0 ) |
paragraph_id | ID des Absatzes, der vom Blicksignal [-2 to 6] angefahren wird und sich auf den Schlagzeilenbereich -2 -1 und sich auf den verbleibenden freien Speicherplatz bezieht und -3 auf die Bewertungsschaltfläche bezieht |
Der Bildschirm hat eine Auflösung von 2560x1440
. Daher liegen alle X-Koordinaten zwischen [0.0, 2560.0]
und Y-Koordinaten zwischen [0.0, 1440.0]
.
Bei Verwendung unseres Datensatzes oder unserer Feature -Implementierung geben Sie den folgenden Artikel an:
@article{barz_implicit_2021,
title = {Implicit {Estimation} of {Paragraph} {Relevance} from {Eye} {Movements}},
issn = {2624-9898},
url = {https://www.frontiersin.org/articles/10.3389/fcomp.2021.808507},
doi = {10.3389/fcomp.2021.808507},
journal = {Frontiers in Computer Science},
author = {Barz, Michael and Bhatti, Omair Shahzad and Sonntag, Daniel},
year = {2021},
}
[1] Jacek Gwizdka. 2014. Charakterisierung der Relevanz mit Eye-Tracking-Maßnahmen. In Proceedings of the 5. Information Interaction im Kontext -Symposium (IIIX '14). Vereinigung für Computermaschinen, New York, NY, USA, 58–67. Doi: https://doi.org/10.1145/2637002.2637011
[2] Tom Kwiatkowski, Jennimaria Palomaki, Olivia Redfield, Michael Collins, Ankur Parikh, Chris Alberti, Danielle Epstein, Illia Polosukhin, Jacob Devlin, Kenton Lee, Kristina Toutanova, Llion Jones, Matthew Kelcey, Ming-Were, Andrew M. Dai, Jakob Uszkoreit, Quoc Le, Slav Petrov; Natürliche Fragen: Ein Benchmark für die Beantwortung von Fragen zur Beantwortung der Forschung. Transaktionen des Association for Computational Linguistics 2019; 7 453–466. doi: https://doi.org/10.1162/tacl_a_00276