Un modelo de lenguaje neuronal para representar dinámicamente los significados de palabras y entidades desconocidas en un discurso, Sosuke Kobayashi, Naoaki Okazaki, Kentaro Inui, IJCNLP 2017.
La representación dinámica de entidades fue propuesta por primera vez por Kobayashi et al. (2016) . Construye dinámicamente representaciones de significado de palabras y entidades en un discurso. Nuestro trabajo lo amplía y lo aplica a modelos de lenguaje neuronal. Tanto las incrustaciones de palabras de entrada como la matriz de incrustación de palabras de salida en un modelo de lenguaje se construyen dinámicamente a partir de los contextos que rodean a cada palabra.
(Citado en nuestro artículo (ver Sección 6))
Resumimos y comparamos trabajos para redes neuronales centradas en entidades que leen un documento. Kobayashi et al. (2016) fueron pioneros en modelos neuronales centrados en entidades que rastrean estados en un discurso. Propusieron la representación dinámica de entidades, que codifica contextos de entidades y actualiza los estados utilizando memorias de entidades. Wiseman et al. (2016) también gestionaron dichas características de entidad en redes neuronales y mejoraron un modelo de resolución de correferencia. Clark y Manning (2016b,a) buscaron tales representaciones de entidades en modelos de correferencia de clasificación de menciones. Nuestro artículo sigue a Kobayashi et al. (2016) y explota la representación dinámica de entidades en modelos de lenguaje neuronal, que también se utilizan como decodificadores neuronales para diversas tareas de generación de secuencias, por ejemplo, traducción automática y generación de respuestas de diálogo. Simultáneamente con nuestro artículo, Ji et al. (2017) utilizan la representación dinámica de entidades en un modelo de lenguaje neuronal para reclasificar los resultados de un sistema de resolución de correferencia. Yang et al. (2017) experimentan el modelado del lenguaje con referencias a contextos internos o datos externos. Henaff et al. (2017) se centran en redes neuronales que rastrean contextos de entidades, logrando resultados de última generación en bAbI, una tarea de comprensión lectora. Codifican los contextos de cada entidad mediante un RNN cerrado similar a la atención en lugar de utilizar enlaces de correferencia directamente. Dhingra et al. (2017) también intentan mejorar un modelo de comprensión lectora utilizando enlaces de correferencia. Como trabajo similar de representación dinámica de entidades, Bahdanau et al. (2017) construyen incrustaciones de palabras raras sobre la marcha a partir de definiciones de diccionario.
El primer componente clave de la representación dinámica de entidades es una función para fusionar más de un contexto sobre una entidad en una representación coherente de la entidad. Existen varias opciones para la función, por ejemplo, agrupación máxima o promedio (Kobayashi et al., 2016; Clark y Manning, 2016b), RNN (GRU, LSTM (Wiseman et al., 2016; Yang et al., 2017) o otros RNN cerrados (Henaff et al., 2017; Ji et al., 2017)), o usar solo el contexto más reciente (sin ninguna fusión) (Yang et al., 2017). Este artículo es el primer trabajo que compara los efectos de esas elecciones (ver Sección 5.2.2).
El segundo componente es una función para codificar contextos a partir de texto, por ejemplo, RNN bidireccional que codifica el contexto circundante (Kobayashi et al., 2016), RNN unidireccional utilizado en un modelo de lenguaje (Ji et al., 2017; Yang et al., 2017). , red neuronal de avance con un vector de oración y un vector de palabra de entidad (Henaff et al., 2017) o características hechas a mano con incrustaciones de palabras (Wiseman et al., 2016; Clark y Manning, 2016b). Este artículo emplea bi-RNN así como Kobayashi et al. (2016), que puede acceder al contexto completo con potentes unidades que se pueden aprender.
@InProceedings{kobayashi:2017,
author = {Kobayashi, Sosuke and Okazaki, Naoaki and Inui, Kentaro},
title = {A Neural Language Model for Dynamically Representing the Meanings of Unknown Words and Entities in a Discourse.},
booktitle = {Proceedings of the IJCNLP 2017},
year = {2017},
url = {https://arxiv.org/abs/1709.01679}
}
@InProceedings{kobayashi-EtAl:2016:N16-1,
author = {Kobayashi, Sosuke and Tian, Ran and Okazaki, Naoaki and Inui, Kentaro},
title = {Dynamic Entity Representation with Max-pooling Improves Machine Reading},
booktitle = {Proceedings of the 2016 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies},
month = {June},
year = {2016},
address = {San Diego, California},
publisher = {Association for Computational Linguistics},
pages = {850--855},
url = {http://www.aclweb.org/anthology/N16-1099}
}