#Library
#PHP
#SQL
#Database System
#MYSQLi
#Management Systems
هذا المشروع هو النموذج الأولي لنظام إدارة المكتبات البسيط. لدى أمين المكتبة شرط لإضافة تفاصيل الكتاب مثل رقم ISBN وعنوان الكتاب واسم المؤلف والطبعة وتفاصيل النشر من خلال صفحة الويب. بالإضافة إلى ذلك، لدى أمين المكتبة أو أي مستخدم خاصية البحث عن الكتب المتوفرة في المكتبة عن طريق اسم الكتاب. إذا كانت تفاصيل الكتاب موجودة في قاعدة البيانات، فسيتم عرض تفاصيل البحث على صفحة الويب.
تصنيف النص أو تصنيف النص هو نشاط لتسمية نصوص اللغة الطبيعية بفئات محددة مسبقًا ذات صلة. والفكرة هي تنظيم النص تلقائيًا في فئات مختلفة. يمكنه تبسيط وتسريع عملية البحث بشكل كبير من خلال المستندات أو النصوص!
3 خطوات رئيسية في كود Database-Management-System-for-Library
:
أثناء التدريب وبناء النموذج، ضع في اعتبارك أن النموذج الأول ليس هو الأفضل أبدًا، وبالتالي فإن أفضل الممارسات هي طريقة "التجربة والخطأ". ولتبسيط هذه العملية، يجب عليك إنشاء وظيفة للتدريب وحفظ النتائج والدقة في كل محاولة.
قررت تصنيف عملية EDA إلى فئتين: خطوات المعالجة المسبقة العامة التي كانت شائعة عبر جميع المتجهات والنماذج وبعض خطوات المعالجة المسبقة التي أضعها كخيارات لقياس أداء النموذج بها أو بدونها
تم اختيار الدقة كمقياس للمقارنة بين النماذج حيث أن زيادة الدقة يؤدي إلى تحسين أداء النموذج في بيانات الاختبار.
أولاً، لقد قمت بإنشاء ملف حقيبة الكلمات . يحتوي هذا الملف clean_data.R
على جميع طرق المعالجة المسبقة وإنشاء مجموعة من الكلمات. نحن نستخدم مكتبة Corpus
للتعامل مع المعالجة المسبقة وإنشاء حقيبة الكلمات.
تم تنفيذ خطوات المعالجة المسبقة العامة التالية نظرًا لأن أي مستند يتم إدخاله في النموذج سيكون مطلوبًا أن يكون بتنسيق معين:
التحويل إلى أحرف صغيرة
إزالة كلمات التوقف
إزالة الأحرف الأبجدية الرقمية
إزالة علامات الترقيم
المتجهات: تم استخدام TfVectorizer. تمت مقارنة دقة النموذج مع تلك التي تستخدم TfIDFVectorizer. في جميع الحالات، عندما تم استخدام TfVectorizer، فإنه أعطى نتائج أفضل وبالتالي تم اختياره باعتباره Vectorizer الافتراضي.
تمت إضافة الخطوات التالية إلى خطوات المعالجة المسبقة كاختيارية لمعرفة كيف تغير أداء النموذج مع هذه الخطوات وبدونها: 1. Stemming
2. Lemmatization
3. Using Unigrams/Bigrams
مصفوفة الارتباك لدعم آلة المتجهات باستخدام حقيبة الكلمات التي تم إنشاؤها باستخدام clean_data.r
> ارتباكMatrix(table(predsvm,data.test$folder_class))مصفوفة الارتباك والإحصائيات predsvm 1 2 3 4 1 31 0 0 0 2 0 29 6 0 3 0 3 28 0 4 0 0 0 23الإحصائيات العامة الدقة : 0.925 95% CI: (0.8624، 0.9651) معدل عدم وجود معلومات: 0.2833 القيمة P [Acc > NIR]: < 2.2e-16 كابا: 0.8994 اختبار ماكنيمار P-Value: NA الإحصائيات حسب الفئة: الفئة: 1 الفئة: 2 الفئة: 3 الفئة: 4
-الاستنتاج الأكثر إثارة للاهتمام هو أنه كلما كان موضوع مجموعة الأخبار أكثر تحديدًا ، كلما زادت دقة مصنف Naïve Bayes في تحديد مجموعة الأخبار التي ينتمي إليها المستند، والعكس صحيح أيضًا حيث كلما كانت مجموعة الأخبار أقل تحديدًا، انخفض معدل الدقة.
-يمكننا أن نرى ذلك في الدقة حيث أن كل مجموعة أخبار ليست متنوعة سيكون لها دائمًا معدل دقة لا يقل عن 50%. مجموعات الأخبار السفلية فيما يتعلق بمعدل الدقة كلها متنوعة وتتضمن معدل دقة يبلغ 0.25% لـ talk.politics.misc.
-السبب في ذلك هو أن المنشورات المكتوبة في مجموعات الأخبار المتنوعة نادرًا ما تكون مرتبطة بالجذر الفعلي لمجموعة الأخبار. يلبي قسم المتنوعة موضوعات أخرى للمناقشة بخلاف "مجموعة الأخبار الجذرية" مما يعني أنه من الأسهل على المصنف أن يخلط بين مستند من مجموعة أخبار متنوعة ومجموعة أخبار أخرى ويصعب على المصنف حتى التفكير في مجموعة الأخبار الجذرية نظرًا لأن المواضيع فيما يتعلق بمجموعة الأخبار الجذرية المنشورة هناك بدلاً من ذلك.
- على سبيل المثال، منشور حول الأسلحة منشور في talk.religion.misc يمكن تصنيفه بسهولة على أنه talk.politics.guns لأنه سيتعين عليه استخدام كلمات مشابهة موجودة في المنشورات الموجودة في talk.politics.guns. وبالمثل، تقل احتمالية نشر المنشورات المتعلقة بالسياسة في talk.politics.misc لأنه من المرجح أن تنشر في talk.politics.guns أو talk.politics.guns (حيث يكون حرف البدل هو القسم ذو الصلة بنوع السياسة التي سيتم مناقشتها).
قم بتثبيت RandomForest باستخدام أمر pip: install.packages("randomForest")
تثبيت علامة الإقحام باستخدام أمر النقطة: install.packages("caret")
قم بتثبيت mlr باستخدام أمر pip: install.packages("mlr")
قم بتثبيت MASS باستخدام أمر النقطة: install.packages("MASS")
تحميل للتقرير.
لماذا يعتبر تكرار المصطلح أفضل من TF-IDF لتصنيف النص
تصنيف ساذج بايز لمجموعة بيانات مجموعة الأخبار العشرين
تحليل تكرار الكلمات والمستندات: tf-idf
معالجة اللغات الطبيعية
K أقرب جار في R
حزمة MLR
محلل تعدين النص - تقرير مفصل عن التحليل
استنساخ هذا المستودع:
استنساخ بوابة https://github.com/iamsivab/Database-Management-System-for-Library.git
تحقق من أي مشكلة من هنا.
قم بإجراء التغييرات وأرسل طلب السحب.
لا تتردد في الاتصال بي @ [email protected]
معهد ماساتشوستس للتكنولوجيا © سيفاسوبرامانيان