用於動態表示話語中未知單字和實體意義的神經語言模型,Sosuke Kobayashi,Naoaki Okazaki,Kentaro Inui,IJCNLP 2017。
動態實體表示首先由Kobayashi 等人提出。 (2016) 。它動態地建構話語中單字和實體的意義表示。我們的工作擴展了它並將其應用到神經語言模型中。語言模型中的輸入詞嵌入和輸出詞嵌入矩陣都是根據每個單字周圍的上下文動態建構的。
(引自我們的論文(見第 6 節))
我們總結並比較了讀取文件的以實體為中心的神經網路的工作。小林等人。 (2016) 開創了以實體為中心的神經模型,追蹤話語中的狀態。他們提出了動態實體表示,它對實體的上下文進行編碼並使用實體記憶更新狀態。懷斯曼等人。 (2016)在神經網路上也管理此類實體特徵,並改進了共指解析模型。 Clark 和 Manning (2016b,a) 在提及排序共指模型中追求這種實體面向的表示。我們的論文遵循 Kobayashi 等人的觀點。 (2016)並利用神經語言模型中的動態實體表示,該模型也用作各種序列生成任務的神經解碼器,例如機器翻譯和對話響應生成。與我們的論文同時,Ji 等人。 (2017) 在神經語言模型中使用動態實體表示來對共指解析系統的輸出進行重新排序。楊等人。 (2017) 透過引用內部上下文或外部資料來實驗語言建模。赫納夫等人。 (2017) 專注於追蹤實體上下文的神經網絡,在閱讀理解任務 bAbI 中取得了最先進的結果。他們透過類似注意力的門控 RNN 對每個實體的上下文進行編碼,而不是直接使用共指連結。丁格拉等人。 (2017)也嘗試使用共指連結來改善閱讀理解模型。作為動態實體表示的類似工作,Bahdanau 等人。 (2017) 根據字典定義建構稀有字的動態字詞嵌入。
動態實體表示的第一個關鍵元件是將多個相關實體的上下文合併為實體的一致表示的功能。此函數有許多選擇,例如最大池化或平均池化(Kobayashi et al., 2016;Clark and Manning, 2016b)、RNN(GRU、LSTM(Wiseman et al., 2016;Yang et al., 2017)或其他門控 RNN(Henaff 等人,2017;Ji 等人,2017)),或僅使用最新上下文(不進行任何合併)(Yang 等人,2017)。本文是第一篇比較這些選擇效果的作品(參見 5.2.2 節)。
第二個組件是從文本中編碼上下文的函數,例如,對上下文周圍的雙向RNN 進行編碼(Kobayashi et al., 2016),在語言模型中使用單向RNN(Ji et al., 2017;Yang et al., 2017) 、帶有句子向量和實體詞向量的前饋神經網路(Henaff et al., 2017)或帶有詞嵌入的手工特徵(Wiseman et al., 2016;Clark and Manning, 2016b)。本文採用了 bi-RNN 以及 Kobayashi 等人的方法。 (2016),它可以透過強大的可學習單元存取完整的上下文。
@InProceedings{kobayashi:2017,
author = {Kobayashi, Sosuke and Okazaki, Naoaki and Inui, Kentaro},
title = {A Neural Language Model for Dynamically Representing the Meanings of Unknown Words and Entities in a Discourse.},
booktitle = {Proceedings of the IJCNLP 2017},
year = {2017},
url = {https://arxiv.org/abs/1709.01679}
}
@InProceedings{kobayashi-EtAl:2016:N16-1,
author = {Kobayashi, Sosuke and Tian, Ran and Okazaki, Naoaki and Inui, Kentaro},
title = {Dynamic Entity Representation with Max-pooling Improves Machine Reading},
booktitle = {Proceedings of the 2016 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies},
month = {June},
year = {2016},
address = {San Diego, California},
publisher = {Association for Computational Linguistics},
pages = {850--855},
url = {http://www.aclweb.org/anthology/N16-1099}
}