النمط عبارة عن وحدة تعدين على الويب لـ Python. لديها أدوات ل:
التنقيب عن البيانات: خدمات الويب (جوجل، تويتر، ويكيبيديا)، زاحف الويب، محلل HTML DOM
معالجة اللغة الطبيعية: أدوات تمييز جزء من الكلام، والبحث بـ n-gram، وتحليل المشاعر، وWordNet
التعلم الآلي: نموذج الفضاء المتجه، التجميع، التصنيف (KNN، SVM، Perceptron)
تحليل الشبكة: مركزية الرسم البياني والتصور.
لقد تم توثيقه جيدًا، وتم اختباره بدقة من خلال ما يزيد عن 350 اختبارًا للوحدة، ويأتي مزودًا بأكثر من 50 مثالًا. كود المصدر مرخص بموجب BSD.
يقوم هذا المثال بتدريب المصنف على الصفات المستخرجة من تويتر باستخدام Python 3. أولاً، يتم جمع التغريدات التي تحتوي على علامة التصنيف #win أو #fail. على سبيل المثال: "إكرامية بقيمة 20 دولارًا لسيدة عجوز لطيفة اليوم #اربح" . يتم بعد ذلك تحليل علامات جزء من الكلام، مع الاحتفاظ بالصفات فقط. يتم تحويل كل تغريدة إلى متجه، وهو قاموس للصفة → عدد العناصر، المسمى WIN
أو FAIL
. يستخدم المصنف المتجهات لمعرفة أي التغريدات الأخرى تبدو أشبه بـ WIN
أو أشبه بـ FAIL
.
من Pattern.web استيراد Twitterمن Pattern.en استيراد علامة من Pattern.vector استيراد KNN، counttwitter، knn = Twitter()، KNN() for i في النطاق (1، 3): للتغريدة في twitter.search('#win OR # Fail', start=i, count=100):s = tweet.text.lower()p = '#win' في s و'WIN' أو 'FAIL'v = tag(s)v = [كلمة بكلمة، نقاط البيع في الخامس إذا pos == 'JJ'] # JJ = adjectivev = count(v) # {'sweet': 1}if v:knn.train(v, type=p)print(knn.classify('برجر البطاطس الحلوة')) طباعة (knn.classify ("التصحيح التلقائي الغبي"))
يدعم النمط Python 2.7 وPython 3.6. لتثبيت النمط بحيث يكون متاحًا في جميع البرامج النصية الخاصة بك، قم بفك ضغط التنزيل ومن سطر الأوامر قم بما يلي:
نمط القرص المضغوط-3.6 تثبيت بيثون setup.py
إذا كان لديك نقطة، فيمكنك التنزيل والتثبيت تلقائيًا من مستودع PyPI:
نمط تثبيت النقطة
إذا لم ينجح أي مما سبق، فيمكنك إعلام بايثون بالوحدة بثلاث طرق:
ضع مجلد النمط في نفس المجلد الذي يحتوي على البرنامج النصي الخاص بك.
ضع مجلد النمط في الموقع القياسي للوحدات بحيث يكون متاحًا لجميع البرامج النصية:
c:python36Libsite-packages
(ويندوز)،
/Library/Python/3.6/site-packages/
(نظام التشغيل Mac OS X)،
/usr/lib/python3.6/site-packages/
(يونكس).
أضف موقع الوحدة إلى sys.path
في البرنامج النصي الخاص بك، قبل استيراده:
MODULE = '/users/tom/desktop/pattern'import sys; إذا لم تكن الوحدة في sys.path: sys.path.append(MODULE)من Pattern.en قم باستيراد parsetree
للحصول على الوثائق والأمثلة، راجع وثائق المستخدم.
3.6
BSD ، راجع LICENSE.txt
لمزيد من التفاصيل.
دي سميت، ت.، دايلمانز، دبليو (2012). نمط لبيثون. مجلة أبحاث التعلم الآلي، 13 ، 2031-2035.
تتم استضافة الكود المصدري على GitHub ويتم الترحيب بالمساهمات أو التبرعات.
يتم تجميع النمط مع مجموعات البيانات والخوارزميات وحزم Python التالية:
بريل تاججر , اريك بريل
علامة بريل للغة الهولندية ، جيروين جيرتزن
علامة بريل للألمانية وجيرولد شنايدر ومارتن فولك
علامة Brill للغة الإسبانية ، تم تدريبها على Wikicorpus (Samuel Reese & Gemma Boleda et al.)
علامة Brill للغة الفرنسية ، تم تدريبها على Lefff (Benoît Sagot & Lionel Clément et al.)
علامة Brill للإيطالية ، مستخرجة من ويكاموس
الجمع الإنجليزي ، داميان كونواي
تصريف الفعل الاسباني ، فريد جيلي
تصريف الفعل الفرنسي ، بوب ساليتا
إطار جافا سكريبت للرسم البياني ، أسلاك هيليسوي وديف هوفر
LIBSVM ، تشيه تشونغ تشانغ وتشيه جين لين
LIBLINEAR ، رونغ إن فان وآخرون.
مركزية NetworkX ، أريك هاجبرج، دان شولت وبيتر سوارت
المصحح الإملائي بيتر نورفيج
المؤلفون:
توم دي سميت ([email protected])
والتر ديليمانز ([email protected])
المساهمين (التسلسل الزمني):
فريدريك دي بليسر
جيسون وينر
دانييل فريسين
جيروين جيرتزن
توماس كرومبيز
كين ويليامز
بيتريس ايرينس
راجيش ناير
واو دي سميت
راديم Řehůřek
توم لوريدو
جون ديبوفيس
توماس سيليو
جيرولد شنايدر
مارتن فولك
صموئيل جوزيف
شوبانشو ميشرا
روبرت إلويل
فريد جيل
أنطوان مازيير + fabelier.org
ريمي دي زويتن + Closealert.nl
كينيث كوخ
ينس جريفولا
فابيو مارفيا
ستيفن لوريا
كولين مولتر + tevizz.com
بيتر بول
ماوريتسيو سامباتي
دان فو
سلفاتوري دي ديو
فنسنت فان آش
فريدريك إلويرت