تعميم جملة تشومسكي الشهيرة إلى متجهات نحوية مفردة.
تأمل جملة تشومسكي:
الأفكار الخضراء عديمة اللون تنام بشراسة.
الجملة صحيحة نحويا (بناء الجملة) ولكن لا معنى لها (دلالات). من الصعب أن نتصور فكرة خضراء وعديمة اللون في نفس الوقت، وتلك الفكرة يمكن أن تنام بغضب. لقد تم طرحها كجملة لم يتم نطقها من قبل في اللغة الإنجليزية، وربما لم تكن لتُلفظ بدون بناء تشومسكي. إنها جميلة في عبثيتها، فلنبتكر المزيد!
معالجة اللغة الطبيعية أمر صعب، لذا دعونا نحصر المشكلة في المشروع الفخري، Colorless green idea
. هذه عبارة اسمية ، وهي عبارة خاصة ذات بنية JJ JJ NN*
حيث تشير JJ
إلى صفة وتشير NN*
إلى أي متغير اسمي (تركيب WordNet). إذا كان لدينا مجموعة كبيرة من النصوص، فيمكننا العثور على جميع العبارات الاسمية من النوع JJ ... JJ NN*
وربط كل صفة بالاسم المقابل، وهو في الأساس قاعدة بيانات كبيرة.
إذا كان الهدف هو إنشاء عبارات اسمية لا معنى لها، فلن تعطينا قاعدة البيانات الكبيرة أي شيء لم نره من قبل. هذا غير مقبول. ولذلك، فإننا نسعى إلى تحليل وإجراء تحليل للقيمة المفردة على قاعدة البيانات المقيسة (الاسم). نحن على وجه التحديد نحافظ على التباين الموضح منخفضًا إلى حد ما، إذا كان مرتفعًا جدًا فسيؤدي ذلك ببساطة إلى إعادة إنشاء قاعدة بيانات بيجرام، وإذا كان منخفضًا جدًا فسنفقد جميع علاقات الكلمات. يؤدي هذا بطبيعة الحال إلى تشويش البيانات؛ تمثل المتجهات المفردة اليسرى مساحة فرعية حيث ترتبط الأسماء بأسماء أخرى تشترك في صفات مشتركة وتمثل المتجهات المفردة اليمنى مساحة فرعية حيث ترتبط الصفات بصفات أخرى تشترك في اسم مشترك. حق بسيط؟
JJ JJ NN
بدءًا من الاسم NN
، نختار مجموعة من الصفات "البعيدة" عن هذا الاسم. باختيار الأولى JJ1
نختار صفة ثانية JJ2
بعيدة عن الصفة الأولى JJ1
. وهذا يعطينا درجة لكل من الاقتران، (JJ1,JJ2)
و (JJ1,NN)
و (JJ2,NN)
. باستخدام نموذج قاعدة البيانات، قرر الإنسان بشكل تعسفي أن النتيجة المجمعة، في نطاق -0.075 < s < -0.010
هي الأمثل. لماذا يكون الحد الأدنى؟ لقد اتضح أن العبارات التي تحتوي على درجات سخيفة للغاية هي ببساطة كلمات شائعة متعامدة مع بعضها البعض مثل الأماكن والألوان، والإخراج الصحيح ولكنه ممل. أفضّل "الصقر التشريعي الصناعي".
وهنا بعض من المفضلة:
-0.0290 severe municipal jazz
-0.0329 old sole beard
-0.0371 hot racial archbishop
-0.0428 municipal professional everything
-0.0427 legal high ballad
-0.0427 single spanish sin
-0.0420 successful specific seal
-0.0419 chief live foliage
-0.0417 spiritual guilty warship
-0.0393 agricultural professional click
-0.0382 possible urban king
-0.0381 coastal senior methodology
-0.0365 entire dry institutes
-0.0328 federal minor upbringing
-0.0308 secret psychological fragment
-0.0305 professional free gown
-0.0297 earliest electric litigation
للبدء، أنشئ قاعدة بيانات للعبارات الاسمية. لقد أنشأت موقعي من ويكيبيديا، ويمكن العثور على الأدوات اللازمة لذلك في هذا المستودع هنا. إذا كنت لا تفضل إنشاء قاعدة البيانات الخاصة بك، فيمكنك استخدام قاعدة البيانات المضمنة، JJ_noun_phrase.db
وتشغيل ما يلي ببساطة:
python absurd_noun_pairs.py
الكثير من الوحدات... pandas
، sqlite
، numpy
، sklearn
، BeautifulSoup
، nltk
، pattern.en
.