نموذج لغة عصبية لتمثيل معاني الكلمات والكيانات غير المعروفة ديناميكيًا في الخطاب، سوسوكي كوباياشي، ناوكي أوكازاكي، كينتارو إينوي، IJCNLP 2017.
تم اقتراح التمثيل الديناميكي للكيانات لأول مرة بواسطة كوباياشي وآخرون. (2016) . فهو يبني بشكل ديناميكي تمثيلات المعنى للكلمات والكيانات في الخطاب. يعمل عملنا على توسيع نطاقه وتطبيقه على نماذج اللغة العصبية. يتم إنشاء كل من تضمينات الكلمات المدخلة ومصفوفة تضمين الكلمات الناتجة في نموذج اللغة ديناميكيًا من السياقات المحيطة بكل كلمة.
(مقتبس من ورقتنا (انظر القسم 6))
نقوم بتلخيص ومقارنة أعمال الشبكات العصبية المتمحورة حول الكيان والتي تقرأ المستند. كوباياشي وآخرون. (2016) نماذج عصبية رائدة تتمحور حول الكيان وتتتبع الحالات في الخطاب. واقترحوا التمثيل الديناميكي للكيانات، الذي يشفر سياقات الكيانات ويحدث الحالات باستخدام الذكريات الخاصة بالكيانات. وايزمان وآخرون. (2016) قام أيضًا بإدارة هذه الميزات المتعلقة بالكيان على الشبكات العصبية وتحسين نموذج دقة المرجع الأساسي. تابع كلارك ومانينغ (2016ب،أ) مثل هذه التمثيلات المتعلقة بالكيان في نماذج المرجع الأساسي لتصنيف الذكر. ورقتنا تتبع كوباياشي وآخرون. (2016) ويستغل تمثيل الكيان الديناميكي في نماذج اللغة العصبية، والتي تستخدم أيضًا كوحدات فك تشفير عصبية لمهام توليد التسلسل المختلفة، على سبيل المثال، الترجمة الآلية وتوليد استجابة الحوار. بالتزامن مع ورقتنا، جي وآخرون. (2017) استخدم تمثيل الكيان الديناميكي في نموذج اللغة العصبية لإعادة ترتيب مخرجات نظام تحليل المرجع الأساسي. يانغ وآخرون. (2017) تجربة نمذجة اللغة مع الإشارة إلى السياقات الداخلية أو البيانات الخارجية. هيناف وآخرون. (2017) التركيز على الشبكات العصبية التي تتبع سياقات الكيانات، وتحقيق أحدث النتائج في bAbI، وهي مهمة فهم القراءة. إنها تقوم بتشفير سياقات كل كيان من خلال شبكة RNN مسورة تشبه الانتباه بدلاً من استخدام الروابط الأساسية مباشرة. دينجرا وآخرون. (2017) حاول أيضًا تحسين نموذج فهم القراءة باستخدام الروابط المرجعية الأساسية. كعمل مماثل لتمثيل الكيان الديناميكي، بهداناو وآخرون. (2017) إنشاء تضمينات سريعة للكلمات النادرة من تعريفات القاموس.
المكون الرئيسي الأول لتمثيل الكيان الديناميكي هو وظيفة لدمج أكثر من سياق حول كيان ما في تمثيل متسق للكيان. توجد خيارات مختلفة للوظيفة، على سبيل المثال، التجميع الأقصى أو المتوسط (Kobayashi et al., 2016; Clark and Manning, 2016b) أو RNN (GRU, LSTM (Wiseman et al., 2016; Yang et al., 2017) أو شبكات RNN ذات بوابات أخرى (Henaff et al., 2017; Ji et al., 2017)))، أو باستخدام السياق الأحدث فقط (دون أي دمج) (يانغ وآخرون، 2017). هذه الورقة هي أول عمل يقارن تأثيرات تلك الاختيارات (انظر القسم 5.2.2).
المكون الثاني هو وظيفة لترميز السياقات من النص، على سبيل المثال، تشفير RNN ثنائي الاتجاه للسياق المحيط (Kobayashi et al., 2016)، وRNN أحادي الاتجاه المستخدم في نموذج اللغة (Ji et al., 2017; Yang et al., 2017) أو شبكة عصبية مغذية مع ناقل جملة ومتجه كلمات للكيان (Henaff et al., 2017) أو ميزات مصنوعة يدويًا مع كلمة التضمين (وايزمان وآخرون، 2016؛ كلارك ومانينغ، 2016ب). تستخدم هذه الورقة ثنائية RNN وكذلك كوباياشي وآخرون. (2016)، والذي يمكنه الوصول إلى السياق الكامل باستخدام وحدات قوية قابلة للتعلم.
@InProceedings{kobayashi:2017,
author = {Kobayashi, Sosuke and Okazaki, Naoaki and Inui, Kentaro},
title = {A Neural Language Model for Dynamically Representing the Meanings of Unknown Words and Entities in a Discourse.},
booktitle = {Proceedings of the IJCNLP 2017},
year = {2017},
url = {https://arxiv.org/abs/1709.01679}
}
@InProceedings{kobayashi-EtAl:2016:N16-1,
author = {Kobayashi, Sosuke and Tian, Ran and Okazaki, Naoaki and Inui, Kentaro},
title = {Dynamic Entity Representation with Max-pooling Improves Machine Reading},
booktitle = {Proceedings of the 2016 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies},
month = {June},
year = {2016},
address = {San Diego, California},
publisher = {Association for Computational Linguistics},
pages = {850--855},
url = {http://www.aclweb.org/anthology/N16-1099}
}