古兰经自然语言处理
《古兰经》上的 NLP 和 AI!
数据集结构
- 数据
- 古兰经
- 语料库(190,655)
- 字典(53,924)
- 形态学(128,219)
- 动词(1,475)
- 引理(3,680)
- 引理(分组) (3,357)
- 古兰经.csv (6,236)
- 圣训(超过 700,000 条圣训!)
- Sanadset (650,000 hadith) (注意这个数据超出了github设置的限制,你可以从Kaggle下载)
- 阿拉伯圣训(62,169 圣训)
- thaqalayn (26,975 圣训)
- kaggle_hadith_clean.csv (34,410 圣训)
- kaggle_rawis.csv (24,028 rawis)
- 名称索法拉(99)
- 古兰经(114)
- 塔夫西尔(4 * 6,236)
- 翻译(9 * 6,236)
- main_df.csv (6,236)
动机
我考虑利用我在《古兰经》中的 ML 和 NLP 知识来创造一些东西。我试图获得诗句和塔法西尔的摘要,进行情感分析,我制作了一个搜索引擎,以便可以像在谷歌上一样轻松地搜索任何查询
这是一个开源项目,我试图将其托管在某个地方,以便人们可以使用它并充分利用它。
非常欢迎合作!如果任何人都可以帮助编写代码或帮助对搜索结果或摘要进行事实检查,那将是一个巨大的帮助!
期待利用《古兰经》和 NLP 做出伟大的事情
工作到现在
- 用于从网站抓取数据的笔记本:https://www.altafsir.com/
- 以易于使用的 CSV 格式提供古兰经的英文翻译和 Tafseer
- 使用 NLP 获取古兰经中使用的前 1000 个单词
- 对《古兰经》每一章的情感分析
- 《古兰经》和各章的文本摘要
- 使用 Google USE(通用句子编码器)的古兰经搜索引擎
- 翻译与 Tafseer 的相似度指数
- 用于从 https://thaqalayn.net/ 获取数据的笔记本,这是一个综合的什叶派圣训图书馆
- 用于抓取 https://corpus.quran.com/ 的笔记本,其中包含古兰经语料库,包括字典、动词、引理、词法
未来目标
- 添加更多数据!
- 添加更多 Tafaseer 和翻译,以更好地训练用于搜索引擎和分析的 NLP 模型
- 进行端到端应用,以便每个人都可以从新训练的模型中受益
- 从《古兰经》中寻找有洞察力的东西
- 使阿拉伯语 NLP 模型能够理解《古兰经》
- 制作包含伊斯兰知识的单一图形数据库
- 制作人工智能工具来验证圣训
重要提示
如果您在翻译中发现任何类型的错误或错误,请纠正我。如果您发现这项工作有趣,请随意在其基础上构建更多内容!
如何贡献
请随意根据当前数据制作笔记本,添加更多数据(真实且有来源),并查看当前数据以确保其真实且最新!
数据集也可在 https://www.kaggle.com/datasets/alizahidraja/quran-nlp 获取。您也可以使用 Kaggle 在线处理它!
项目启动:2023年3月1日