Модель нейронного языка для динамического представления значений неизвестных слов и сущностей в дискурсе, Сосуке Кобаяши, Наоаки Окадзаки, Кентаро Инуи, IJCNLP 2017.
Динамическое представление сущностей было впервые предложено Кобаяши и др. (2016) . Он динамически конструирует смысловые представления слов и сущностей в дискурсе. Наша работа расширяет его и применяет в моделях нейронного языка. И встраивание входных слов, и матрица встраивания выходных слов в языковой модели динамически конструируются из контекстов, окружающих каждое слово.
(Цитируется по нашей статье (см. раздел 6))
Обобщаем и сравниваем работы для сущностно-ориентированных нейронных сетей, читающих документ. Кобаяши и др. (2016) впервые разработали нейронные модели, ориентированные на объекты, отслеживающие состояния в дискурсе. Они предложили динамическое представление сущностей, которое кодирует контексты сущностей и обновляет состояния, используя память сущностей. Уайзман и др. (2016) также управляли такими сущностными функциями в нейронных сетях и улучшили модель разрешения кореференции. Кларк и Мэннинг (2016b,a) использовали такие сущностные представления в кореферентных моделях ранжирования упоминаний. Наша статья следует за Кобаяши и др. (2016) и использует динамическое представление объектов в моделях нейронного языка, которые также используются в качестве нейронных декодеров для различных задач генерации последовательностей, например, машинного перевода и генерации диалоговых ответов. Одновременно с нашей статьей Ji et al. (2017) используют динамическое представление объектов в модели нейронного языка для переранжирования выходных данных системы разрешения кореференций. Ян и др. (2017) экспериментируют с языковым моделированием, обращаясь к внутреннему контексту или внешним данным. Хенафф и др. (2017) сосредоточились на нейронных сетях, отслеживающих контексты сущностей, достигая современного результата в bAbI, задаче на понимание прочитанного. Они кодируют контексты каждого объекта с помощью закрытой RNN, подобной вниманию, вместо прямого использования кореферентных связей. Дхингра и др. (2017) также пытаются улучшить модель понимания прочитанного, используя опорные ссылки. В качестве аналогичной работы по представлению динамических сущностей Bahdanau et al. (2017) создают на лету вложения редких слов из словарных определений.
Первый ключевой компонент динамического представления объекта — это функция объединения нескольких контекстов объекта в единое представление объекта. Существуют различные варианты функции, например, максимальное или среднее объединение (Kobayashi et al., 2016; Clark and Manning, 2016b), RNN (GRU, LSTM (Wiseman et al., 2016; Yang et al., 2017) или другие закрытые RNN (Henaff et al., 2017; Ji et al., 2017)), или используя новейший контекст только (без какого-либо слияния) (Янг и др., 2017). Данная статья является первой работой, в которой сравниваются последствия такого выбора (см. раздел 5.2.2).
Второй компонент — это функция для кодирования контекстов из текста, например, двунаправленная RNN, кодирующая окружающий контекст (Kobayashi et al., 2016), однонаправленная RNN, используемая в языковой модели (Ji et al., 2017; Yang et al., 2017). , нейронная сеть прямого распространения с вектором предложений и вектором слов объекта (Henaff et al., 2017) или созданные вручную функции с встраиванием слов (Wiseman et al., 2016; Clark and Manning, 2016b). В этой статье используется би-RNN, а также Кобаяши и др. (2016), который может получить доступ к полному контексту с помощью мощных обучаемых модулей.
@InProceedings{kobayashi:2017,
author = {Kobayashi, Sosuke and Okazaki, Naoaki and Inui, Kentaro},
title = {A Neural Language Model for Dynamically Representing the Meanings of Unknown Words and Entities in a Discourse.},
booktitle = {Proceedings of the IJCNLP 2017},
year = {2017},
url = {https://arxiv.org/abs/1709.01679}
}
@InProceedings{kobayashi-EtAl:2016:N16-1,
author = {Kobayashi, Sosuke and Tian, Ran and Okazaki, Naoaki and Inui, Kentaro},
title = {Dynamic Entity Representation with Max-pooling Improves Machine Reading},
booktitle = {Proceedings of the 2016 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies},
month = {June},
year = {2016},
address = {San Diego, California},
publisher = {Association for Computational Linguistics},
pages = {850--855},
url = {http://www.aclweb.org/anthology/N16-1099}
}