เครื่องมือคำบรรยาย Visual Captions Visual Captions เป็นเครื่องมือคำบรรยายที่ทรงพลังที่เพิ่งเปิดตัวใหม่ ซึ่งสามารถปรับปรุงการแสดงคำบรรยายเพิ่มเติมสำหรับการประชุมงานของผู้ใช้ และทำให้การสื่อสารในสำนักงานสะดวกยิ่งขึ้น ผู้ใช้ที่ต้องการความช่วยเหลือสามารถมาร่วมกับเราได้
Google สาธิตระบบ Visual Captions ที่ ACM CHI (การประชุมเกี่ยวกับปัจจัยมนุษย์ในระบบคอมพิวเตอร์) ซึ่งเป็นการประชุมชั้นนำเกี่ยวกับการโต้ตอบระหว่างมนุษย์กับคอมพิวเตอร์ โดยนำเสนอโซลูชันภาพใหม่ในการประชุมระยะไกลที่สามารถสร้างหรือเรียกค้นรูปภาพในบริบทของ การสนทนาเพื่อปรับปรุงประสิทธิภาพของอีกฝ่าย ความรู้เกี่ยวกับแนวคิดที่ซับซ้อนหรือไม่คุ้นเคย
ระบบคำบรรยายภาพนั้นใช้โมเดลภาษาขนาดใหญ่ที่ได้รับการปรับแต่งอย่างละเอียด ซึ่งสามารถแนะนำองค์ประกอบภาพที่เกี่ยวข้องในการสนทนาแบบเปิดในเชิงรุกได้ และได้ถูกรวมเข้ากับโครงการโอเพ่นซอร์ส ARCChat
ในการสำรวจผู้ใช้ นักวิจัยได้เชิญผู้เข้าร่วม 26 คนในห้องปฏิบัติการและผู้เข้าร่วม 10 คนนอกห้องปฏิบัติการเพื่อประเมินระบบ โดยพื้นฐานแล้วผู้ใช้มากกว่า 80% เห็นด้วยว่าคำบรรยายวิดีโอสามารถให้คำบรรยายวิดีโอในสถานการณ์ต่างๆ ได้ และเพิ่มประสบการณ์การสื่อสาร
ก่อนการพัฒนา นักวิจัยได้เชิญผู้เข้าร่วมภายใน 10 รายเป็นครั้งแรก รวมถึงวิศวกรซอฟต์แวร์ นักวิจัย นักออกแบบ UX ศิลปินทัศนศิลป์ นักศึกษา และผู้ปฏิบัติงานอื่นๆ ที่มีพื้นฐานด้านเทคนิคและไม่ใช่ด้านเทคนิค เพื่อหารือเกี่ยวกับความต้องการและข้อกำหนดเฉพาะสำหรับบริการปรับปรุงภาพแบบเรียลไทม์ คาดหวัง.
หลังจากการประชุมสองครั้ง ตามระบบข้อความเป็นรูปภาพที่มีอยู่ การออกแบบพื้นฐานของระบบต้นแบบที่คาดหวังได้ถูกสร้างขึ้น โดยส่วนใหญ่รวมถึงแปดมิติ (แสดงเป็น D1 ถึง D8)
D1: การกำหนดเวลา ระบบเพิ่มประสิทธิภาพการมองเห็นสามารถแสดงผลแบบซิงโครนัสหรืออะซิงโครนัสกับบทสนทนาได้
D2: หัวข้อ ซึ่งสามารถใช้เพื่อแสดงและทำความเข้าใจเนื้อหาคำพูด
D3: ภาพ โดยใช้เนื้อหาภาพ ประเภทภาพ และแหล่งที่มาของภาพที่หลากหลาย
D4: ขนาด การปรับปรุงภาพอาจแตกต่างกันไปขึ้นอยู่กับขนาดการประชุม
D5: พื้นที่ ไม่ว่าจะเป็นการประชุมทางวิดีโอจะอยู่ร่วมกันหรืออยู่ในสถานที่ระยะไกล
D6: ความเป็นส่วนตัว ปัจจัยเหล่านี้ยังมีอิทธิพลต่อว่าควรแสดงภาพแบบส่วนตัว แบ่งปันระหว่างผู้เข้าร่วม หรือเปิดให้ทุกคนเข้าถึงได้
D7: สถานะเริ่มต้น ผู้เข้าร่วมยังระบุวิธีต่างๆ ที่พวกเขาต้องการโต้ตอบกับระบบเมื่อมีส่วนร่วมในการสนทนา เช่น ระดับต่างๆ ของ "ความคิดริเริ่ม" ซึ่งผู้ใช้สามารถกำหนดได้โดยอัตโนมัติเมื่อระบบแทรกแซงในการแชท D8: การโต้ตอบ ผู้เข้าร่วม จินตนาการถึงวิธีการโต้ตอบที่แตกต่างกัน เช่น การป้อนข้อมูลโดยใช้เสียงหรือท่าทาง