#Library
#PHP
#SQL
#Database System
#MYSQLi
#Management Systems
Proyek ini merupakan prototipe Sistem Manajemen Perpustakaan Sederhana. Pustakawan mempunyai ketentuan untuk menambahkan rincian buku seperti nomor ISBN, judul buku, nama penulis, edisi dan rincian penerbitan melalui halaman web. Selain itu, pustakawan atau pengguna mana pun mempunyai ketentuan untuk mencari buku yang tersedia di perpustakaan berdasarkan nama buku. Jika detail buku ada di database, detail pencarian ditampilkan di halaman web.
Klasifikasi teks atau kategorisasi teks adalah kegiatan memberi label pada teks bahasa alami dengan kategori relevan yang telah ditentukan. Idenya adalah untuk mengatur teks secara otomatis di kelas yang berbeda. Ini secara drastis dapat menyederhanakan dan mempercepat pencarian Anda melalui dokumen atau teks!
3 langkah utama dalam kode Database-Management-System-for-Library
:
Saat melatih dan membangun model, perlu diingat bahwa model pertama bukanlah yang terbaik, jadi praktik terbaik adalah metode “trial and error”. Untuk menyederhanakan proses tersebut, Anda harus membuat fungsi untuk pelatihan dan dalam setiap upaya menyimpan hasil dan akurasi.
Saya memutuskan untuk mengurutkan proses EDA ke dalam dua kategori: langkah-langkah pra-pemrosesan umum yang umum di semua vektorizer dan model, dan langkah-langkah pra-pemrosesan tertentu yang saya masukkan sebagai opsi untuk mengukur kinerja model dengan atau tanpa mereka.
Akurasi dipilih sebagai ukuran perbandingan antar model karena semakin besar akurasinya, semakin baik performa model pada data pengujian.
Pertama-tama, saya telah membuat file Bag of Words . File clean_data.R
ini berisi semua metode untuk melakukan praproses dan menghasilkan sekumpulan kata. Kami menggunakan perpustakaan Corpus
untuk menangani pra-pemrosesan dan menghasilkan Bag of Words.
Langkah-langkah pra-pemrosesan umum berikut dilakukan karena setiap dokumen yang dimasukkan ke model harus dalam format tertentu:
Mengonversi ke huruf kecil
Penghapusan kata-kata berhenti
Menghapus karakter alfanumerik
Penghapusan tanda baca
Vektorisasi: TfVectorizer digunakan. Akurasi model dibandingkan dengan model yang menggunakan TfIDFVectorizer. Dalam semua kasus, ketika TfVectorizer digunakan, ini memberikan hasil yang lebih baik dan karenanya dipilih sebagai Vectorizer default.
Langkah-langkah berikut ditambahkan ke langkah-langkah pra-pemrosesan sebagai opsional untuk melihat bagaimana performa model berubah dengan dan tanpa langkah-langkah ini: 1. Stemming
2. Lemmatization
3. Using Unigrams/Bigrams
Matriks Kebingungan untuk Mesin Vektor Dukungan menggunakan Bag of Words yang dihasilkan menggunakan clean_data.r
> ConfusionMatrix(table(predsvm,data.test$folder_class))Confusion Matrix dan Statistik predsvm 1 2 3 4 1 31 0 0 0 2 0 29 6 0 3 0 3 28 0 4 0 0 0 23Statistik Keseluruhan Akurasi : 0,925 95% CI : (0.8624, 0.9651)Tidak Ada Nilai Informasi : 0.2833 P-Value [Acc > NIR] : < 2.2e-16 Kappa : 0,8994 Uji Mcnemar Nilai P : Statistik NA berdasarkan Kelas: Kelas: 1 Kelas: 2 Kelas: 3 Kelas: 4
-Pengurangan yang paling menarik adalah semakin spesifik topik grup berita , semakin akurat pengklasifikasi Naïve Bayes dalam menentukan grup berita mana yang termasuk dalam suatu dokumen, dan sebaliknya juga berlaku jika semakin kurang spesifik grup berita tersebut, maka tingkat keakuratannya akan menurun.
-Hal ini dapat kita lihat pada Accuracy dimana setiap newsgroup yang tidak lain-lain akan selalu mempunyai tingkat akurasi minimal 50%. Grup berita terbawah dalam hal tingkat akurasi semuanya lain-lain yang mencakup tingkat akurasi 0,25% untuk talk.politics.misc.
-Alasannya adalah postingan yang ditulis di newsgroup lain-lain jarang berhubungan dengan akar sebenarnya dari newsgroup tersebut. Bagian lain-lain melayani topik diskusi lain selain “root newsgroup” yang berarti lebih mudah bagi pengklasifikasi untuk mengacaukan dokumen dari newsgroup lain dengan newsgroup lain dan jauh lebih sulit bagi pengklasifikasi untuk mempertimbangkan root newsgroup sejak topik mengenai root newsgroup yang diposting di sana.
-Misalnya, postingan tentang senjata yang diposting di talk.religion.misc dapat dengan mudah diklasifikasikan sebagai talk.politics.guns karena harus menggunakan kata-kata serupa yang ditemukan di postingan yang ditemukan di talk.politics.guns. Demikian pula, postingan tentang politik di talk.politics.misc lebih kecil kemungkinannya karena Anda lebih cenderung memposting di atau talk.politics.guns (dengan wildcard adalah bagian yang relevan dengan jenis politik yang akan dibahas).
Instal randomForest menggunakan perintah pip: install.packages("randomForest")
Instal caret menggunakan perintah pip: install.packages("caret")
Instal mlr menggunakan perintah pip: install.packages("mlr")
Instal MASS menggunakan perintah pip: install.packages("MASS")
Unduh untuk laporannya.
Mengapa Term Frekuensi lebih baik daripada TF-IDF untuk klasifikasi teks
Klasifikasi Naïve Bayes untuk 20 Kumpulan Data Grup Berita
Menganalisis frekuensi kata dan dokumen: tf-idf
Pemrosesan Bahasa Alami
K Tetangga Terdekat di R
Paket MLR
Text Mining Analyzer - Laporan Mendetail tentang Analisis
Kloning repositori ini:
git clone https://github.com/iamsivab/Database-Management-System-for-Library.git
Lihat masalah apa pun dari sini.
Lakukan perubahan dan kirim Permintaan Tarik.
Jangan ragu untuk menghubungi saya @ [email protected]
MIT © Sivasubramanian