แบบจำลองภาษาประสาทสำหรับการแสดงความหมายของคำและเอนทิตีที่ไม่รู้จักแบบไดนามิกในวาทกรรม, โซสุเกะ โคบายาชิ, นาโออากิ โอคาซากิ, เคนทาโร อินูอิ, IJCNLP 2017
การแสดงเอนทิตีแบบไดนามิก ถูกเสนอครั้งแรกโดย Kobayashi และคณะ (2559) . สร้างการแสดงความหมายของคำและเอนทิตีในวาทกรรมแบบไดนามิก งานของเราขยายและนำไปใช้กับโมเดลภาษาประสาท ทั้งการฝังคำอินพุตและเมทริกซ์การฝังคำเอาท์พุตในแบบจำลองภาษานั้นถูกสร้างขึ้นแบบไดนามิกจากบริบทโดยรอบแต่ละคำ
(อ้างโดยกระดาษของเรา (ดูส่วนที่ 6))
เราสรุปและเปรียบเทียบงานสำหรับโครงข่ายประสาทเทียมที่เน้นเอนทิตีซึ่งอ่านเอกสาร โคบายาชิ และคณะ (2016) เป็นผู้บุกเบิกโมเดลระบบประสาทที่เน้นเอนทิตีเพื่อติดตามสถานะในวาทกรรม พวกเขาเสนอการแสดงเอนทิตีแบบไดนามิก ซึ่งเข้ารหัสบริบทของเอนทิตีและอัปเดตสถานะโดยใช้ความทรงจำที่ชาญฉลาดของเอนทิตี ไวส์แมน และคณะ (2016) ยังได้จัดการฟีเจอร์ที่ชาญฉลาดดังกล่าวบนโครงข่ายประสาทเทียม และปรับปรุงโมเดลความละเอียดของคอร์เรนซ์ Clark และ Manning (2016b,a) ดำเนินการนำเสนอแบบเอนทิตีในรูปแบบการอ้างอิงตามการจัดอันดับ บทความของเราเป็นไปตาม Kobayashi และคณะ (2016) และใช้ประโยชน์จากการทำซ้ำเอนทิตีแบบไดนามิกในแบบจำลองภาษาประสาท ซึ่งยังใช้เป็นตัวถอดรหัสประสาทสำหรับงานการสร้างลำดับต่างๆ เช่น การแปลด้วยเครื่องและการสร้างการตอบสนองของกล่องโต้ตอบ พร้อมกันกับรายงานของเรา Ji et al (2017) ใช้การแสดงเอนทิตีแบบไดนามิกในแบบจำลองภาษาประสาทสำหรับการจัดอันดับเอาต์พุตใหม่ของระบบการแก้ปัญหาคอร์เรนซ์ ยางและคณะ (2017) การสร้างแบบจำลองภาษาทดลองโดยอ้างอิงบริบทภายในหรือข้อมูลภายนอก เฮนาฟ และคณะ (2017) มุ่งเน้นไปที่โครงข่ายประสาทเทียมที่ติดตามบริบทของเอนทิตี เพื่อบรรลุผลลัพธ์ที่ล้ำสมัยใน bAbI ซึ่งเป็นงานเพื่อความเข้าใจในการอ่าน พวกเขาเข้ารหัสบริบทของแต่ละเอนทิตีโดย RNN ที่มีรั้วรอบขอบชิดเหมือนความสนใจแทนที่จะใช้ลิงก์การอ้างอิงหลักโดยตรง ดินกรา และคณะ (2017) ยังพยายามปรับปรุงโมเดลการอ่านเพื่อความเข้าใจโดยใช้ลิงก์การอ้างอิงหลัก ในฐานะที่เป็นงานที่คล้ายกันของการเป็นตัวแทนเอนทิตีแบบไดนามิก Bahdanau และคณะ (2017) สร้างการฝังคำที่หายากจากคำจำกัดความของพจนานุกรมได้ทันที
องค์ประกอบหลักประการแรกของการแสดงเอนทิตีแบบไดนามิกคือฟังก์ชันในการผสานบริบทมากกว่าหนึ่งรายการเกี่ยวกับเอนทิตีเข้าเป็นการแสดงเอนทิตีที่สอดคล้องกัน มีตัวเลือกต่างๆ สำหรับฟังก์ชันที่มีอยู่ เช่น การรวมสูงสุดหรือค่าเฉลี่ย (Kobayashi et al., 2016; Clark and Manning, 2016b), RNN (GRU, LSTM (Wiseman et al., 2016; Yang et al., 2017) หรือ RNN ที่มีรั้วรอบขอบชิดอื่น ๆ (Henaff et al., 2017; Ji et al., 2017)) หรือใช้บริบทล่าสุดเท่านั้น (โดยไม่มีการรวมเข้าด้วยกัน) (Yang et al., 2017) บทความนี้เป็นงานชิ้นแรกที่เปรียบเทียบผลกระทบของตัวเลือกเหล่านั้น (ดูหัวข้อ 5.2.2)
องค์ประกอบที่สองคือฟังก์ชันในการเข้ารหัสบริบทจากข้อความ เช่น การเข้ารหัส RNN แบบสองทิศทางที่เข้ารหัสบริบทโดยรอบ (Kobayashi et al., 2016) RNN ทิศทางเดียวที่ใช้ในแบบจำลองภาษา (Ji et al., 2017; Yang et al., 2017) , เครือข่ายประสาทเทียมป้อนไปข้างหน้าด้วยเวกเตอร์ประโยคและเวกเตอร์คำของเอนทิตี (Henaff et al., 2017) หรือ คุณลักษณะที่สร้างขึ้นด้วยมือพร้อมการฝังคำ (Wiseman et al., 2016; Clark and Manning, 2016b) บทความนี้ใช้ bi-RNN เช่นเดียวกับ Kobayashi และคณะ (2016) ซึ่งสามารถเข้าถึงบริบททั้งหมดด้วยหน่วยการเรียนรู้ที่มีประสิทธิภาพ
@InProceedings{kobayashi:2017,
author = {Kobayashi, Sosuke and Okazaki, Naoaki and Inui, Kentaro},
title = {A Neural Language Model for Dynamically Representing the Meanings of Unknown Words and Entities in a Discourse.},
booktitle = {Proceedings of the IJCNLP 2017},
year = {2017},
url = {https://arxiv.org/abs/1709.01679}
}
@InProceedings{kobayashi-EtAl:2016:N16-1,
author = {Kobayashi, Sosuke and Tian, Ran and Okazaki, Naoaki and Inui, Kentaro},
title = {Dynamic Entity Representation with Max-pooling Improves Machine Reading},
booktitle = {Proceedings of the 2016 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies},
month = {June},
year = {2016},
address = {San Diego, California},
publisher = {Association for Computational Linguistics},
pages = {850--855},
url = {http://www.aclweb.org/anthology/N16-1099}
}