古蘭經自然語言處理
《古蘭經》上的 NLP 和 AI!
資料集結構
- 數據
- 古蘭經
- 語料庫(190,655)
- 字典(53,924)
- 形態學(128,219)
- 動詞(1,475)
- 引理(3,680)
- 引理(分組) (3,357)
- 古蘭經.csv (6,236)
- 聖訓(超過 70 萬條聖訓!)
- Sanadset (650,000 hadith) (注意這個資料超出了github設定的限制,你可以從Kaggle下載)
- 阿拉伯聖訓(62,169 聖訓)
- thaqalayn (26,975 聖訓)
- kaggle_hadith_clean.csv (34,410 聖訓)
- kaggle_rawis.csv (24,028 rawis)
- 名稱索法拉(99)
- 古蘭經(114)
- 塔夫西爾(4 * 6,236)
- 翻譯(9 * 6,236)
- main_df.csv (6,236)
動機
我考慮利用我在《古蘭經》中的 ML 和 NLP 知識來創造一些東西。我試圖獲得 Verses 和 Tafasir 的摘要,進行情感分析,我製作了一個搜尋引擎,以便可以像在 Google 上一樣輕鬆搜尋任何查詢
這是一個開源項目,我試圖將其託管在某個地方,以便人們可以使用它並充分利用它。
非常歡迎合作!如果任何人都可以幫助編寫程式碼或幫助對搜尋結果或摘要進行事實檢查,那將是一個巨大的幫助!
期待利用《古蘭經》和 NLP 做出偉大的事情
工作到現在
- 用於從網站抓取資料的筆記本:https://www.altafsir.com/
- 以易於使用的 CSV 格式提供古蘭經的英文翻譯和 Tafseer
- 使用 NLP 取得古蘭經中使用的前 1000 個單字
- 對《古蘭經》每一章的情感分析
- 《古蘭經》和各章的文本摘要
- 使用 Google USE(通用句子編碼器)的古蘭經搜尋引擎
- 翻譯與 Tafseer 的相似度指數
- 用於從 https://thaqalayn.net/ 取得資料的筆記本,這是一個綜合的什葉派聖訓圖書館
- 用於抓取 https://corpus.quran.com/ 的筆記本,其中包含古蘭經語料庫,包括字典、動詞、引理、詞法
未來目標
- 增加更多數據!
- 增加更多 Tafaseer 和翻譯,以更好地訓練用於搜尋引擎和分析的 NLP 模型
- 進行端到端應用,以便每個人都可以從新訓練的模型中受益
- 從《古蘭經》中尋找有洞察力的東西
- 使阿拉伯語 NLP 模型能夠理解《古蘭經》
- 製作包含伊斯蘭知識的單一圖形資料庫
- 製作人工智慧工具來驗證聖訓
重要提示
如果您在翻譯中發現任何類型的錯誤或錯誤,請糾正我。如果您發現這項工作有趣,請隨意在其基礎上建立更多內容!
如何貢獻
請隨意根據當前數據製作筆記本,添加更多數據(真實且有來源),並查看當前數據以確保其真實且最新!
資料集也可在 https://www.kaggle.com/datasets/alizahidraja/quran-nlp 取得。
計畫啟動:2023年3月1日