用于动态表示话语中未知单词和实体含义的神经语言模型,Sosuke Kobayashi,Naoaki Okazaki,Kentaro Inui,IJCNLP 2017。
动态实体表示首先由Kobayashi 等人提出。 (2016) 。它动态地构建话语中单词和实体的意义表示。我们的工作扩展了它并将其应用到神经语言模型中。语言模型中的输入词嵌入和输出词嵌入矩阵都是根据每个单词周围的上下文动态构建的。
(引自我们的论文(见第 6 节))
我们总结并比较了读取文档的以实体为中心的神经网络的工作。小林等人。 (2016) 开创了以实体为中心的神经模型,跟踪话语中的状态。他们提出了动态实体表示,它对实体的上下文进行编码并使用实体记忆更新状态。怀斯曼等人。 (2016)还在神经网络上管理此类实体特征,并改进了共指解析模型。 Clark 和 Manning (2016b,a) 在提及排序共指模型中追求这种实体方面的表示。我们的论文遵循 Kobayashi 等人的观点。 (2016)并利用神经语言模型中的动态实体表示,该模型也用作各种序列生成任务的神经解码器,例如机器翻译和对话响应生成。与我们的论文同时,Ji 等人。 (2017) 在神经语言模型中使用动态实体表示来对共指消解系统的输出进行重新排序。杨等人。 (2017) 通过引用内部上下文或外部数据来实验语言建模。赫纳夫等人。 (2017) 专注于跟踪实体上下文的神经网络,在阅读理解任务 bAbI 中取得了最先进的结果。他们通过类似注意力的门控 RNN 对每个实体的上下文进行编码,而不是直接使用共指链接。丁格拉等人。 (2017)还尝试使用共指链接改进阅读理解模型。作为动态实体表示的类似工作,Bahdanau 等人。 (2017) 根据字典定义构建稀有词的动态词嵌入。
动态实体表示的第一个关键组件是将多个有关实体的上下文合并为实体的一致表示的功能。该函数存在多种选择,例如最大池化或平均池化(Kobayashi et al., 2016;Clark and Manning, 2016b)、RNN(GRU、LSTM(Wiseman et al., 2016;Yang et al., 2017)或其他门控 RNN(Henaff 等人,2017;Ji 等人,2017)),或仅使用最新上下文(没有任何合并)(Yang et al., 2017)。本文是第一篇比较这些选择效果的作品(参见第 5.2.2 节)。
第二个组件是对文本中的上下文进行编码的函数,例如,对上下文周围的双向 RNN 进行编码(Kobayashi et al., 2016),在语言模型中使用单向 RNN(Ji et al., 2017;Yang et al., 2017) 、带有句子向量和实体词向量的前馈神经网络(Henaff et al., 2017)或带有词嵌入的手工特征(Wiseman等人,2016;克拉克和曼宁,2016b)。本文采用了 bi-RNN 以及 Kobayashi 等人的方法。 (2016),它可以通过强大的可学习单元访问完整的上下文。
@InProceedings{kobayashi:2017,
author = {Kobayashi, Sosuke and Okazaki, Naoaki and Inui, Kentaro},
title = {A Neural Language Model for Dynamically Representing the Meanings of Unknown Words and Entities in a Discourse.},
booktitle = {Proceedings of the IJCNLP 2017},
year = {2017},
url = {https://arxiv.org/abs/1709.01679}
}
@InProceedings{kobayashi-EtAl:2016:N16-1,
author = {Kobayashi, Sosuke and Tian, Ran and Okazaki, Naoaki and Inui, Kentaro},
title = {Dynamic Entity Representation with Max-pooling Improves Machine Reading},
booktitle = {Proceedings of the 2016 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies},
month = {June},
year = {2016},
address = {San Diego, California},
publisher = {Association for Computational Linguistics},
pages = {850--855},
url = {http://www.aclweb.org/anthology/N16-1099}
}