เราทำการศึกษาผู้ใช้ซึ่งเราขอให้ผู้ใช้ให้คะแนนความเกี่ยวข้องของข้อความอ่านเกี่ยวกับคำถามทริกเกอร์ เราบันทึกสัญญาณการจ้องมองของผู้ใช้และการจัดอันดับความเกี่ยวข้องของพวกเขา ที่เก็บนี้มีชุดของสคริปต์และรูทีนเพื่อโหลดกระบวนการและวิเคราะห์ชุดข้อมูลที่บันทึกไว้ เป้าหมายสูงสุดคือการประเมินความเกี่ยวข้องที่รับรู้ของผู้ใช้โดยใช้การเรียนรู้ของเครื่องด้วยสัญญาณจ้องมองเป็นอินพุต
บรรจุุภัณฑ์ | คำอธิบาย |
---|---|
data_loading | โหลดชุดข้อมูลที่บันทึกไว้หรือบางส่วนของมันในโครงสร้างข้อมูลเดียว โหลดข้อมูลต่อย่อหน้าและการเยี่ยมชมต่อย่อหน้าเช่นการสแกนแบบต่อเนื่องสำหรับย่อหน้าซึ่งเริ่มต้นด้วยการจ้องมองเริ่มต้นที่ย่อหน้าและสิ้นสุดเมื่อสัญญาณจ้องมองออกจากพื้นที่ย่อหน้า |
features | การสกัดคุณสมบัติที่อิงกับการจ้องมองสำหรับเส้นทางการสแกนบางอย่าง |
data | การดูหมิ่น |
ดูไฟล์ readme เฉพาะสำหรับข้อมูลรายละเอียดเพิ่มเติม
ชุดข้อมูลที่บันทึกไว้รวมถึงการจัดอันดับความเกี่ยวข้อง (รับรู้ถึงความเกี่ยวข้อง) จากผู้เข้าร่วม 24
คนสำหรับสิ่งเร้า 12
จาก g-REL
Corpus และสิ่งเร้า 12
จาก Google NQ
Corpus ข้อมูลสิ่งเร้าที่ใช้ในการศึกษาของเราคือคู่ของคำถามทริกเกอร์และเอกสารที่มีหนึ่งหรือหลายย่อหน้า เราใช้ชุดย่อยจาก G-Rel Corpus [1] พร้อมเอกสารย่อหน้าเดียวที่พอดีกับหน้าเดียวและคู่ที่เลือกจากคลังข้อมูลของ Google Natural Questions (NQ) ซึ่งรวมถึงเอกสารหลายย่อหน้าที่ต้องเลื่อน [2] Corpora ทั้งสองรวมถึงคำอธิบายประกอบที่เกี่ยวข้องต่อวรรคซึ่งเราอ้างถึงความเกี่ยวข้องของระบบ
นอกจากนี้ตลอดงานของพวกเขาการจ้องมองของผู้เข้าร่วมบนหน้าจอจะถูกบันทึกและบันทึกไว้สำหรับแต่ละเอกสาร
ชุดข้อมูลที่บันทึกไว้มีหนึ่งโฟลเดอร์สำหรับผู้เข้าร่วมการศึกษาแต่ละคน ตัวอักษรตัวแรกของชื่อโฟลเดอร์หมายถึงคลังข้อมูลเริ่มต้นของผู้ใช้และแต่ละคอร์ปัส g-rel
และ GoogleNQ
มีโฟลเดอร์ย่อย ไฟล์ CSV ถูกสร้างขึ้นขั้นตอนการอ่านของสิ่งเร้าที่มีการบันทึกการจ้องมองของผู้เข้าร่วมในการกระตุ้น ไฟล์ CSV มีชื่อว่า OrderID_StimulusID.csv
โดยมี OrderID
(0-11) ระบุลำดับที่ผู้ใช้อ่านสิ่งเร้า StimulusID
หมายถึงเอกสารที่ผู้ใช้มุมมอง นอกจากนี้ไฟล์ User_Rating
จะช่วยลดการประมาณความเกี่ยวข้องของผู้เข้าร่วมสำหรับการกระตุ้นแต่ละครั้งหลังจากขั้นตอนการจัดอันดับ
<participant_id>
-GoogleNQ
-<OrderID_StimulusID>.csv
-User_Rating
-g-REL
-<OrderID_StimulusID>.csv
-User_Rating
['timestamp', 'gaze_x', 'gaze_y', 'gaze_y_abs', 'fixation_id', 'scroll_y', 'paragraph_id']
สนาม | คำอธิบาย |
---|---|
timestamp | การประทับเวลาสำหรับตัวอย่างจ้องแต่ละตัวอย่างใน [s] |
gaze_x | ตำแหน่งจ้องมองแนวนอน |
gaze_y | ตำแหน่งจ้องมองแนวตั้ง |
gaze_y_abs | ตำแหน่งการจ้องมองแนวตั้งที่แน่นอนในเอกสาร (ซ้ายบน [0.0, doc_max_y] ด้านล่างขวา [2560.0, 0.0] ) |
fixation_id | id ของการตรึงปัจจุบัน [0, num_fixation] หรือ None ถ้าไม่มีการแก้ไข |
scroll_y | ตำแหน่งการเลื่อนสัมพัทธ์ [1.0, 0.0] (ด้านบน: 1.0 ด้านล่าง: 0.0 ) |
paragraph_id | ID ของย่อหน้าที่ถูกส่งมาโดยสัญญาณจ้องมอง [-2 to 6] ด้วย -1 หมายถึงพื้นที่พาดหัวและ -2 หมายถึงพื้นที่ว่างที่เหลืออยู่และ -3 หมายถึงปุ่มจัดอันดับ |
หน้าจอมีความละเอียด 2560x1440
ดังนั้น X-coordinates ทั้งหมดอยู่ระหว่าง [0.0, 2560.0]
และ Y-coordinates ระหว่าง [0.0, 1440.0]
เมื่อใช้ชุดข้อมูลของเราหรือการใช้งานคุณสมบัติของเราโปรดอ้างอิงบทความต่อไปนี้:
@article{barz_implicit_2021,
title = {Implicit {Estimation} of {Paragraph} {Relevance} from {Eye} {Movements}},
issn = {2624-9898},
url = {https://www.frontiersin.org/articles/10.3389/fcomp.2021.808507},
doi = {10.3389/fcomp.2021.808507},
journal = {Frontiers in Computer Science},
author = {Barz, Michael and Bhatti, Omair Shahzad and Sonntag, Daniel},
year = {2021},
}
[1] Jacek Gwizdka 2014. ลักษณะความเกี่ยวข้องกับมาตรการติดตามสายตา ในการดำเนินการของการโต้ตอบข้อมูลครั้งที่ 5 ในบริบทการประชุมสัมมนา (IIIX '14) สมาคมสำหรับคอมพิวเตอร์เครื่องจักร, นิวยอร์ก, นิวยอร์ก, สหรัฐอเมริกา, 58–67 ดอย: https://doi.org/10.1145/2637002.2637011
[2] Tom Kwiatkowski, Jennimaria Palomaki, Olivia Redfield, Michael Collins, Ankur Parikh, Chris Alberti, Danielle Epstein, Illia Polosukhin, Jacob Devlin, Kenton Lee, Kristina Toutanova Dai, Jakob Uszkoreit, Quoc Le, Slav Petrov; คำถามธรรมชาติ: มาตรฐานสำหรับการวิจัยตอบคำถาม การทำธุรกรรมของสมาคมการคำนวณภาษาศาสตร์ 2019; 7 453–466 ดอย: https://doi.org/10.1162/tacl_a_00276