Um modelo de linguagem neural para representar dinamicamente os significados de palavras e entidades desconhecidas em um discurso, Sosuke Kobayashi, Naoaki Okazaki, Kentaro Inui, IJCNLP 2017.
A Representação Dinâmica de Entidades foi proposta pela primeira vez por Kobayashi et al. (2016) . Ele constrói dinamicamente representações de significado de palavras e entidades em um discurso. Nosso trabalho estende-o e aplica-o em modelos de linguagem neural. Tanto a incorporação de palavras de entrada quanto a matriz de incorporação de palavras de saída em um modelo de linguagem são construídas dinamicamente a partir de contextos que cercam cada palavra.
(Citado por nosso artigo (ver Seção 6))
Resumimos e comparamos trabalhos para redes neurais centradas em entidades que leem um documento. Kobayashi et al. (2016) foram pioneiros em modelos neurais centrados em entidades que rastreiam estados em um discurso. Eles propuseram a Representação Dinâmica de Entidades, que codifica contextos de entidades e atualiza os estados usando memórias de entidades. Wiseman et al. (2016) também gerenciaram esses recursos de entidade em redes neurais e melhoraram um modelo de resolução de correferência. Clark e Manning (2016b,a) buscaram tais representações de entidades em modelos de correferência de classificação de menções. Nosso artigo segue Kobayashi et al. (2016) e explora a representação dinâmica de entidades em modelos de linguagem neural, que também são usados como decodificadores neurais para várias tarefas de geração de sequência, por exemplo, tradução automática e geração de resposta de diálogo. Simultaneamente ao nosso artigo, Ji et al. (2017) usam representação dinâmica de entidade em um modelo de linguagem neural para reclassificar resultados de um sistema de resolução de correferência. Yang et al. (2017) experimentam modelagem de linguagem com referência a contextos internos ou dados externos. Henaff et al. (2017) concentram-se em redes neurais que rastreiam contextos de entidades, alcançando o resultado de última geração em bAbI, uma tarefa de compreensão de leitura. Eles codificam os contextos de cada entidade por um RNN controlado por atenção, em vez de usar links de correferência diretamente. Dhingra et al. (2017) também tentam melhorar um modelo de compreensão de leitura usando links de correferência. Como um trabalho semelhante de representação dinâmica de entidades, Bahdanau et al. (2017) constroem incorporações instantâneas de palavras raras a partir de definições de dicionário.
O primeiro componente chave da representação dinâmica de entidade é uma função para mesclar mais de um contexto sobre uma entidade em uma representação consistente da entidade. Existem várias opções para a função, por exemplo, agrupamento máximo ou médio (Kobayashi et al., 2016; Clark e Manning, 2016b), RNN (GRU, LSTM (Wiseman et al., 2016; Yang et al., 2017) ou outros RNNs fechados (Henaff et al., 2017; Ji et al., 2017)), ou usando apenas o contexto mais recente (sem qualquer fusão) (Yang et al., 2017). Este artigo é o primeiro trabalho que compara os efeitos dessas escolhas (ver Seção 5.2.2).
O segundo componente é uma função para codificar contextos de texto, por exemplo, codificação RNN bidirecional do contexto circundante (Kobayashi et al., 2016), RNN unidirecional usado em um modelo de linguagem (Ji et al., 2017; Yang et al., 2017) , rede neural feedforward com um vetor de frase e um vetor de palavras de entidade (Henaff et al., 2017) ou recursos artesanais com palavras embeddings (Wiseman et al., 2016; Clark e Manning, 2016b). Este artigo emprega bi-RNN, bem como Kobayashi et al. (2016), que pode acessar o contexto completo com unidades de aprendizagem poderosas.
@InProceedings{kobayashi:2017,
author = {Kobayashi, Sosuke and Okazaki, Naoaki and Inui, Kentaro},
title = {A Neural Language Model for Dynamically Representing the Meanings of Unknown Words and Entities in a Discourse.},
booktitle = {Proceedings of the IJCNLP 2017},
year = {2017},
url = {https://arxiv.org/abs/1709.01679}
}
@InProceedings{kobayashi-EtAl:2016:N16-1,
author = {Kobayashi, Sosuke and Tian, Ran and Okazaki, Naoaki and Inui, Kentaro},
title = {Dynamic Entity Representation with Max-pooling Improves Machine Reading},
booktitle = {Proceedings of the 2016 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies},
month = {June},
year = {2016},
address = {San Diego, California},
publisher = {Association for Computational Linguistics},
pages = {850--855},
url = {http://www.aclweb.org/anthology/N16-1099}
}