#Library
#PHP
#SQL
#Database System
#MYSQLi
#Management Systems
该项目是简单图书馆管理系统的原型。图书馆员可以通过网页添加书籍详细信息,例如 ISBN 号、书名、作者姓名、版本和出版详细信息。除此之外,图书馆员或任何用户都可以通过书名搜索图书馆中的可用书籍。如果数据库中存在书籍详细信息,则搜索详细信息将显示在网页上。
文本分类或文本分类是用相关的预定义类别来标记自然语言文本的活动。这个想法是自动组织不同类中的文本。它可以大大简化并加快您对文档或文本的搜索!
Database-Management-System-for-Library
的 3 个主要步骤:
在训练和构建模型时请记住,第一个模型永远不是最好的模型,因此最佳实践是“试错”方法。为了使该过程更简单,您应该创建一个用于训练的函数,并在每次尝试中保存结果和准确性。
我决定将 EDA 过程分为两类:所有矢量化器和模型中常见的一般预处理步骤,以及我作为选项来衡量有或没有它们的模型性能的某些预处理步骤
选择准确性作为模型之间比较的衡量标准,因为准确性越高,模型在测试数据上的性能越好。
首先,我创建了一个词袋文件。该文件clean_data.R
包含预处理和生成词袋的所有方法。我们使用Corpus
库来处理预处理并生成词袋。
由于输入模型的任何文档都需要采用某种格式,因此执行了以下一般预处理步骤:
转换为小写
去除停用词
删除字母数字字符
删除标点符号
矢量化:使用TfVectorizer。模型精度与使用 TfIDFVectorizer 的模型精度进行了比较。在所有情况下,当使用 TfVectorizer 时,它都会给出更好的结果,因此被选为默认 Vectorizer。
以下步骤作为可选步骤添加到预处理步骤中,以查看使用和不使用这些步骤时模型性能如何变化: 1. Stemming
2. Lemmatization
3. Using Unigrams/Bigrams
使用使用clean_data.r
生成的词袋的支持向量机的混淆矩阵
> fusionMatrix(table(predsvm,data.test$folder_class))混淆矩阵和统计 predsvm 1 2 3 4 1 31 0 0 0 2 0 29 6 0 3 0 3 28 0 4 0 0 0 23总体统计 准确度:0.925 95% CI:(0.8624, 0.9651) 无信息率:0.2833 P 值 [Acc > NIR]:< 2.2e-16 卡帕值:0.8994 Mcnemar 检验 P 值:NA 按类别统计: 类别:1 类别:2 类别:3 类别:4
- 最有趣的推论是,新闻组主题越具体,朴素贝叶斯分类器确定文档属于哪个新闻组就越准确,反之亦然,新闻组越不具体,准确率就会直线下降。
-我们可以在准确性中看到这一点,其中每个非杂项新闻组的准确率始终至少为 50%。准确率最低的新闻组都是杂项,其中 talk.politics.misc 的准确率是 0.25%。
- 原因之一是,在其他新闻组中编写的帖子很少与新闻组的实际根相关。杂项部分迎合除“根新闻组”之外的其他讨论主题,这意味着分类器更容易将杂项新闻组中的文档与另一个新闻组混淆,并且分类器甚至更难考虑根新闻组,因为主题关于发布在那里的根新闻组。
- 例如,在 talk.religion.misc 中发布的有关枪支的帖子可以很容易地归类为 talk.politics.guns ,因为它必须使用在 talk.politics.guns 中找到的帖子中找到的类似单词。同样,在 talk.politics.misc 中发布有关政治的帖子的可能性较小,因为您更有可能在 talk.politics.guns 中发布帖子(其中通配符是要讨论的政治类型的相关部分)。
使用 pip 命令安装randomForest : install.packages("randomForest")
使用 pip 命令安装插入符: install.packages("caret")
使用 pip 命令安装mlr : install.packages("mlr")
使用 pip 命令安装MASS : install.packages("MASS")
下载报告。
为什么词频比 TF-IDF 更适合文本分类
20 个新闻组数据集的朴素贝叶斯分类
分析单词和文档频率:tf-idf
自然语言处理
R 中的 K 最近邻
MLR 封装
文本挖掘分析器 - 详细的分析报告
克隆此存储库:
git 克隆 https://github.com/iamsivab/Database-Management-System-for-Library.git
从这里检查任何问题。
进行更改并发送 Pull 请求。
请随时联系我@[email protected]
麻省理工学院 © Sivasubramanian