การสรุปประโยคที่มีชื่อเสียงของชอมสกีให้เป็นเวกเตอร์เอกพจน์วากยสัมพันธ์
พิจารณาประโยคของชัมสกี:
ไอเดียสีเขียวไร้สีนอนหลับอย่างดุเดือด
ประโยคมี ความถูกต้องตามหลักไวยากรณ์ (ไวยากรณ์) แต่ ไม่มีความหมาย (ความหมาย) เป็นเรื่องยากที่จะจินตนาการถึงความคิดที่มีทั้งสีเขียวและไม่มีสี และความคิดที่สามารถหลับใหลได้ด้วยความโกรธ มันถูกวางตัวเป็นประโยคที่ไม่เคยมีการออกเสียงมาก่อนในภาษาอังกฤษ และหากไม่มีโครงสร้างของชอมสกีก็คงไม่มีวันเป็นเช่นนั้น มันช่างสวยงามในความไร้สาระ ดังนั้นเรามาสร้างมันขึ้นมากันดีกว่า!
การประมวลผลภาษาธรรมชาตินั้นยาก ดังนั้นเรามาจำกัดปัญหาไว้ที่โปรเจ็กต์ชื่อ Colorless green idea
นี่คือ คำนามวลี ซึ่งเป็นวลีเฉพาะที่มีโครงสร้างของ JJ JJ NN*
โดยที่ JJ
หมายถึงคำคุณศัพท์ และ NN*
หมายถึงคำนามรูปแบบต่างๆ (ไวยากรณ์ WordNet) หากเรามีคลังข้อความขนาดใหญ่ เราสามารถค้นหาวลีนามทั้งหมดประเภท JJ ... JJ NN*
และเชื่อมโยงแต่ละคำคุณศัพท์กับคำนามที่เกี่ยวข้อง ซึ่งโดยพื้นฐานแล้วจะเป็นฐานข้อมูลขนาดใหญ่
หากเป้าหมายคือการสร้างวลีนามที่ไม่มีความหมาย ฐานข้อมูลขนาดใหญ่จะไม่ให้สิ่งที่เราไม่เคยเห็นมาก่อน สิ่งนี้เป็นสิ่งที่ยอมรับไม่ได้ ดังนั้นเราจึงค้นหาการสลายตัวและดำเนินการสลายตัวค่าเอกพจน์เหนือฐานข้อมูลที่ทำให้เป็นมาตรฐาน (คำนาม) เราคงความแปรปรวนที่อธิบายไว้ค่อนข้างต่ำโดยเฉพาะ ถ้ามันสูงเกินไป มันก็จะสร้างฐานข้อมูล bigram ขึ้นใหม่ ถ้ามันต่ำเกินไป เราจะสูญเสียความสัมพันธ์ของคำทั้งหมด สิ่งนี้จะทำให้ข้อมูลคลุมเครือโดยธรรมชาติ เวกเตอร์เอกพจน์ด้านซ้ายแสดงถึงสับสเปซโดยที่คำนามมีความสัมพันธ์กับคำนามอื่นๆ ที่ใช้คำคุณศัพท์ร่วมกัน และเวกเตอร์เอกพจน์ด้านขวาเป็นตัวแทนของสับสเปซที่คำคุณศัพท์มีความสัมพันธ์กับคำคุณศัพท์อื่นๆ ที่ใช้คำนามร่วมกัน ง่ายใช่มั้ย?
JJ JJ NN
เริ่มต้นด้วยคำนาม NN
เราเลือกชุดคำคุณศัพท์ที่ "ห่างไกล" จากคำนามนั้น การเลือก JJ1
ตัวแรก เราจะเลือกคำคุณศัพท์ตัวที่สอง JJ2
ซึ่งอยู่ห่างจากคำคุณศัพท์ตัวแรก JJ1
สิ่งนี้ให้คะแนนสำหรับการจับคู่แต่ละรายการ (JJ1,JJ2)
, (JJ1,NN)
และ (JJ2,NN)
เมื่อใช้ฐานข้อมูลตัวอย่าง มนุษย์ตัดสินใจโดยพลการว่าคะแนนรวมในช่วง -0.075 < s < -0.010
มีความเหมาะสมที่สุด ทำไมต้องมีขอบเขตล่าง? ปรากฎว่าวลีที่มีคะแนนไร้สาระมากเป็นเพียงคำทั่วไปที่ตั้งฉากกันเหมือนสถานที่และสี เป็นผลลัพธ์ที่ถูกต้องแต่น่าเบื่อ ฉันชอบ "เหยี่ยวกฎหมายอุตสาหกรรม" มากกว่า
นี่คือรายการโปรดบางส่วนของฉัน:
-0.0290 severe municipal jazz
-0.0329 old sole beard
-0.0371 hot racial archbishop
-0.0428 municipal professional everything
-0.0427 legal high ballad
-0.0427 single spanish sin
-0.0420 successful specific seal
-0.0419 chief live foliage
-0.0417 spiritual guilty warship
-0.0393 agricultural professional click
-0.0382 possible urban king
-0.0381 coastal senior methodology
-0.0365 entire dry institutes
-0.0328 federal minor upbringing
-0.0308 secret psychological fragment
-0.0305 professional free gown
-0.0297 earliest electric litigation
ในการเริ่มต้น ให้สร้างฐานข้อมูลวลีคำนาม ฉันสร้างของฉันจาก Wikipedia และเครื่องมือสำหรับมันสามารถพบได้ในพื้นที่เก็บข้อมูลนี้ ที่นี่ หากคุณไม่ต้องการสร้างของคุณเอง คุณสามารถใช้ฐานข้อมูลที่รวมไว้ JJ_noun_phrase.db
และเรียกใช้:
python absurd_noun_pairs.py
โมดูลจำนวนมาก ... pandas
, sqlite
, numpy
, sklearn
, BeautifulSoup
, nltk
, pattern.en