コーラン NLP
コーランに関する NLP と AI!
データセットの構造
- データ
- コーラン
- コーパス(190,655)
- 辞書(53,924)
- 形態学(128,219)
- 動詞(1,475)
- 補題(3,680)
- 補題 (グループ化) (3,357)
- コーラン.csv (6,236)
- ハディース(700,000 以上のハディース!)
- Sanadset (650,000 ハディース) (このデータは github によって設定された制限を超えていることに注意してください。Kaggle からダウンロードできます)
- アラビチャディート(62,169 ハディース)
- タカリン(26,975 ハディース)
- kaggle_hadith_clean.csv (34,410 ハディース)
- kaggle_rawis.csv (24,028 rawis)
- ナメソファラ(99)
- スーラ(114)
- タフシーア(4 * 6,236)
- 翻訳(9 * 6,236)
- main_df.csv (6,236)
モチベーション
私はコーランの ML と NLP の知識を利用して、コーランから何かを生み出そうと考えました。私は聖句とタファシルの要約を取得しようとし、感情分析を取得し、Google で検索するのと同じくらい簡単にあらゆるクエリを検索できるように検索エンジンを作成しました。
これはオープンソース プロジェクトであり、人々がそれを使用して最大限に活用できるように、どこかでホストしようとしています。
コラボレーションは大歓迎です!誰かがコードを手伝ってくれたり、検索結果や概要の事実確認を手伝ってくれたりすると、大きな助けになるでしょう。
コーランと NLP を使って何か素晴らしいことをするのを楽しみにしています
今までの仕事
- Web サイトからデータを収集するためのノートブック: https://www.altafsir.com/
- コーランの英語翻訳とタフシーアを使いやすいCSV形式で提供
- NLP を使用して、コーランで使用されている上位 1000 語を取得しました
- コーランの各スーラの感情分析を使用
- コーランと各スーラのテキストの要約
- Google USE (Universal Sentence Encoder) を使用したコーランの検索エンジン
- 翻訳とTafseerの類似性インデックス
- 包括的なシーア派ハディース ライブラリである https://thaqalayn.net/ からデータを収集するためのノートブック
- 辞書、動詞、補題、形態学を含むコーランのコーパスを含む https://corpus.quran.com/ をスクレイピングするためのノートブック
今後の目標
- さらにデータを追加してください!
- Tafaseer と翻訳を追加して、検索エンジンと分析用の NLP モデルをより適切にトレーニングします。
- 新しくトレーニングされたモデルの恩恵を誰もが受けられるように、エンドツーエンドのアプリケーションを作成します。
- コーランから洞察力に富んだ事柄を見つける
- コーランを理解できるアラビア語 NLP モデルを作成する
- イスラム知識を網羅した単一グラフデータベースの作成
- ハディースを認証するAIツールを作る
重要な注意事項
翻訳に何らかの間違いや間違いを見つけた場合は、修正してください。この作品が面白いと思ったら、自由にさらに構築してください。
貢献方法
現在のデータに関するノートブックを自由に作成し、さらにデータ (本物でソース付き) を追加し、現在のデータを見て本物で最新であることを確認してください。
データセットは https://www.kaggle.com/datasets/alizahidraja/quran-nlp からも入手できます。Kaggle を使用してオンラインで作業することもできます。
プロジェクト開始日:2023年3月1日