#Library
#PHP
#SQL
#Database System
#MYSQLi
#Management Systems
該項目是簡單圖書館管理系統的原型。圖書館員可以透過網頁添加書籍詳細信息,例如 ISBN 號碼、書名、作者姓名、版本和出版詳細信息。除此之外,圖書館員或任何使用者都可以透過書名搜尋圖書館中的可用書籍。如果資料庫中存在書籍詳細信息,則搜尋詳細資訊將顯示在網頁上。
文字分類或文字分類是用相關的預定義類別來標記自然語言文字的活動。這個想法是自動組織不同類別中的文本。它可以大大簡化並加快您對文件或文字的搜尋!
Database-Management-System-for-Library
的 3 個主要步驟:
在訓練和建立模型時請記住,第一個模型永遠不是最好的模型,因此最佳實踐是「試錯」方法。為了使過程更簡單,您應該建立一個用於訓練的函數,並在每次嘗試中保存結果和準確性。
我決定將 EDA 流程分為兩類:所有向量化器和模型中常見的一般預處理步驟,以及我作為選項來衡量有或沒有它們的模型性能的某些預處理步驟
選擇準確性作為模型之間比較的衡量標準,因為準確性越高,模型在測試數據上的表現越好。
首先,我創建了一個詞袋檔案。該檔案clean_data.R
包含預處理和產生詞袋的所有方法。我們使用Corpus
庫來處理預處理並產生詞袋。
由於輸入模型的任何文件都需要採用某種格式,因此執行了以下一般預處理步驟:
轉換為小寫
去除停用詞
刪除字母數字字符
刪除標點符號
向量化:使用TfVectorizer。模型精度與使用 TfIDFVectorizer 的模型精度進行了比較。在所有情況下,當使用 TfVectorizer 時,它都會給出更好的結果,因此被選為預設 Vectorizer。
以下步驟作為可選步驟添加到預處理步驟中,以查看使用和不使用這些步驟時模型性能如何變化: 1. Stemming
2. Lemmatization
3. Using Unigrams/Bigrams
使用使用clean_data.r
產生的詞袋的支援向量機的混淆矩陣
> fusionMatrix(table(predsvm,data.test$folder_class))混淆矩陣與統計 predsvm 1 2 3 4 1 31 0 0 0 2 0 29 6 0 3 0 3 28 0 4 0 0 0 23 總體統計 準確度:0.925 95% CI:(0.8624, 0.9651) 無資訊率:0.2833 P 值 [Acc > NIR]:< 2.2e-16 卡帕值:0.8994 Mcnemar 檢定 P 值:NA 依類別統計: 類別:1 類別:2 類別:3 類別:4
- 最有趣的推論是,新聞群組主題越具體,樸素貝葉斯分類器確定文件屬於哪個新聞群組就越準確,反之亦然,新聞群組越不具體,準確率就會直線下降。
-我們可以在準確性中看到這一點,其中每個非雜項新聞組的準確率始終至少為 50%。準確率最低的新聞群組都是雜項,其中 talk.politics.misc 的準確率是 0.25%。
- 原因之一是,在其他新聞群組中編寫的貼文很少與新聞群組的實際根相關。雜項部分迎合除“根新聞組”之外的其他討論主題,這意味著分類器更容易將雜項新聞組中的文檔與另一個新聞組混淆,並且分類器甚至更難考慮根新聞組,因為主題關於發佈在那裡的根新聞群組。
- 例如,在 talk.religion.misc 中發布的有關槍支的帖子可以很容易地歸類為 talk.politics.guns ,因為它必須使用在 talk.politics.guns 中找到的帖子中找到的類似單詞。同樣,在 talk.politics.misc 中發布有關政治的帖子的可能性較小,因為您更有可能在 talk.politics.guns 中發布帖子(其中通配符是要討論的政治類型的相關部分)。
使用 pip 指令安裝randomForest : install.packages("randomForest")
使用 pip 指令安裝插入符: install.packages("caret")
使用 pip 指令安裝mlr : install.packages("mlr")
使用 pip 指令安裝MASS : install.packages("MASS")
下載報告。
為什麼詞頻比 TF-IDF 更適合文字分類
20 個新聞群組資料集的樸素貝葉斯分類
分析單字和文檔頻率:tf-idf
自然語言處理
R 中的 K 最近鄰
MLR 封裝
文字探勘分析器 - 詳細的分析報告
克隆此存儲庫:
git 克隆 https://github.com/iamsivab/Database-Management-System-for-Library.git
從這裡檢查任何問題。
進行變更並傳送 Pull 請求。
請隨時聯絡我@[email protected]
麻省理工學院 © Sivasubramanian