Pattern เป็นโมดูลการขุดเว็บสำหรับ Python มีเครื่องมือสำหรับ:
การทำเหมืองข้อมูล: บริการบนเว็บ (Google, Twitter, Wikipedia), โปรแกรมรวบรวมข้อมูลเว็บ, ตัวแยกวิเคราะห์ HTML DOM
การประมวลผลภาษาธรรมชาติ: แท็กเกอร์ส่วนหนึ่งของคำพูด, การค้นหา n-gram, การวิเคราะห์ความรู้สึก, WordNet
การเรียนรู้ของเครื่อง: แบบจำลองอวกาศเวกเตอร์ การจัดกลุ่ม การจำแนกประเภท (KNN, SVM, Perceptron)
การวิเคราะห์เครือข่าย: การเป็นศูนย์กลางของกราฟและการแสดงภาพ
มีเอกสารประกอบอย่างดี ทดสอบอย่างละเอียดด้วยการทดสอบมากกว่า 350 หน่วย และมาพร้อมกับตัวอย่างมากกว่า 50 รายการ ซอร์สโค้ดได้รับอนุญาตภายใต้ BSD
ตัวอย่างนี้ฝึกตัวแยกประเภทเกี่ยวกับคำคุณศัพท์ที่ขุดได้จาก Twitter โดยใช้ Python 3 อันดับแรก ทวีตที่มีแฮชแท็ก #win หรือ #fail จะถูกรวบรวม ตัวอย่างเช่น: "$20 tip off a sweet little old lady today #win" แท็กส่วนของคำพูดจะถูกแยกวิเคราะห์ โดยคงไว้เพียงคำคุณศัพท์เท่านั้น ทวีตแต่ละรายการจะถูกแปลงเป็นเวกเตอร์ ซึ่งเป็นพจนานุกรมของคำคุณศัพท์ → นับรายการ โดยมีป้ายกำกับว่า WIN
หรือ FAIL
ตัวแยกประเภทใช้เวกเตอร์เพื่อเรียนรู้ว่าทวีตอื่นใดที่ดูเหมือน WIN
หรือ FAIL
มากกว่า
จาก pattern.web นำเข้า Twitterจาก pattern.en นำเข้าแท็กจาก pattern.vector นำเข้า KNN, counttwitter, knn = Twitter(), KNN()สำหรับฉันในช่วง (1, 3): สำหรับทวีตใน twitter.search('#win OR # ล้มเหลว', start=i, count=100):s = tweet.text.lower()p = '#win' ใน s และ 'WIN' หรือ 'FAIL'v = tag(s)v = [คำต่อคำ ตำแหน่ง ใน v if pos == 'JJ'] # JJ = adjectivev = count(v) # {'sweet': 1}if v:knn.train(v, type=p)print(knn.classify('sweetมันฝรั่งเบอร์เกอร์) '))พิมพ์(knn.classify('แก้ไขอัตโนมัติโง่'))
รูปแบบรองรับ Python 2.7 และ Python 3.6 หากต้องการติดตั้ง Pattern เพื่อให้สามารถใช้ได้ในสคริปต์ทั้งหมดของคุณ ให้แตกไฟล์ดาวน์โหลดและทำดังนี้:
รูปแบบซีดี-3.6 หลาม setup.py ติดตั้ง
หากคุณมี pip คุณสามารถดาวน์โหลดและติดตั้งจากที่เก็บ PyPI ได้โดยอัตโนมัติ:
รูปแบบการติดตั้ง pip
หากวิธีข้างต้นไม่ได้ผล คุณสามารถทำให้ Python ทราบถึงโมดูลได้สามวิธี:
วางโฟลเดอร์รูปแบบไว้ในโฟลเดอร์เดียวกับสคริปต์ของคุณ
วางโฟลเดอร์รูปแบบในตำแหน่งมาตรฐานสำหรับโมดูลเพื่อให้ใช้ได้กับทุกสคริปต์:
c:python36Libsite-packages
(Windows)
/Library/Python/3.6/site-packages/
(Mac OS X)
/usr/lib/python3.6/site-packages/
(ยูนิกซ์)
เพิ่มตำแหน่งของโมดูลไปที่ sys.path
ในสคริปต์ของคุณ ก่อนที่จะนำเข้า:
MODULE = '/ผู้ใช้/ทอม/เดสก์ท็อป/รูปแบบ'นำเข้าระบบ; ถ้า MODULE ไม่ได้อยู่ใน sys.path: sys.path.append(MODULE)from pattern.en นำเข้า parsetree
สำหรับเอกสารประกอบและตัวอย่าง โปรดดูเอกสารประกอบสำหรับผู้ใช้
3.6
BSD โปรดดู LICENSE.txt
สำหรับรายละเอียดเพิ่มเติม
เดอ สเมดท์, ที., เดเลแมนส์, ดับเบิลยู. (2012) รูปแบบสำหรับหลาม วารสารการวิจัยการเรียนรู้ของเครื่อง, 13 , 2031–2035.
ซอร์สโค้ดโฮสต์อยู่บน GitHub และยินดีรับการสนับสนุนหรือการบริจาค
รูปแบบถูกรวมเข้ากับชุดข้อมูล อัลกอริธึม และแพ็คเกจ Python ต่อไปนี้:
บริลล์ แท็กเกอร์ , เอริก บริลล์
สุดยอดนักแท็กเกอร์ชาวดัตช์ เจอ โรน เกียร์ทเซน
สุดยอดนักแท็กเกอร์ชาวเยอรมัน , Gerold Schneider และ Martin Volk
สุดยอดแท็กเกอร์สำหรับภาษาสเปน ฝึกฝนกับ Wikicorpus (Samuel Reese และ Gemma Boleda et al.)
นักแท็กที่ยอดเยี่ยมสำหรับภาษาฝรั่งเศส ฝึกฝนกับ Lefff (Benoît Sagot และ Lionel Clément et al.)
Brill tagger ในภาษาอิตาลี ขุดจากวิกิพจนานุกรม
พหูพจน์ภาษาอังกฤษ , เดเมียน คอนเวย์
การผันคำกริยาภาษาสเปน Fred Jehle
การผันกริยาภาษาฝรั่งเศส , Bob Salita
เฟรมเวิร์ก JavaScript กราฟ , Aslak Hellesoy และ Dave Hoover
LIBSVM , จี้-จุง ชาง และ จี้-เจน ลิน
LIBLINEAR , Rong-En Fan และคณะ
ความเป็นศูนย์กลางของ NetworkX , Aric Hagberg, Dan Schult และ Pieter Swart
ผู้แก้ไขการสะกดคำ , ปีเตอร์ นอร์วิก
ผู้เขียน:
ทอม เดอ สเมดท์ ([email protected])
วอลเตอร์ แดเลแมนส์ ([email protected])
ผู้ร่วมให้ข้อมูล (ตามลำดับเวลา):
เฟรเดอริก เดอ เบลเซอร์
เจสัน วีเนอร์
แดเนียล ฟรีเซ่น
เจโรน เกียร์ทเซน
โธมัส ครอมเบซ
เคน วิลเลียมส์
ปีเตอร์ริส เอรินส์
ราเจช แนร์
เอฟ. เดอ สเมดท์
ราดิม เชห์เชค
ทอม ลอเรโด
จอห์น เดอโบวิส
โธมัส ซิเลโอ
เจอโรลด์ ชไนเดอร์
มาร์ติน โวลค์
ซามูเอล โจเซฟ
ชูพันชู มิชรา
โรเบิร์ต เอลเวลล์
เฟรด เจห์เล่
อองตวน มาซิแยร์ + fabelier.org
เรมี เดอ โซเอเทน + closealert.nl
เคนเน็ธ โคช
เจนส์ กรีโวล่า
ฟาบิโอ มาร์เฟีย
สตีเว่น ลอเรีย
คอลิน โมลเตอร์ + tevizz.com
ปีเตอร์ บูล
เมาริซิโอ ซัมบาติ
แดน ฟู
ซัลวาตอเร่ ดิ ดิโอ
วินเซนต์ แวน แอช
เฟรเดอริก เอลเวิร์ต