Koran NLP
NLP & KI zum Koran!
Datensatzstruktur
- Daten
- Koran
- Korpus (190.655)
- Wörterbuch (53.924)
- Morphologie (128.219)
- Verben (1.475)
- Deckspelzen (3.680)
- Deckspelzen (gruppiert) (3.357)
- koran.csv (6.236)
- Hadith (über 700.000 Hadithe!)
- Sanadset (650.000 Hadith) (Beachten Sie, dass diese Daten das von Github festgelegte Limit überschreiten. Sie können sie von Kaggle herunterladen.)
- Arabichadith (62.169 Hadith)
- Thaqalayn (26.975 Hadith)
- kaggle_hadith_clean.csv (34.410 Hadith)
- kaggle_rawis.csv (24.028 Rawis)
- Namensofallah (99)
- Sure (114)
- Tafsir (4 * 6.236)
- Übersetzung (9 * 6.236)
- main_df.csv (6.236)
Motivation
Ich dachte darüber nach, mein Wissen über ML und NLP im Koran zu nutzen, um daraus etwas zu machen. Ich habe versucht, eine Zusammenfassung der Verse und des Tafasir zu erhalten, habe eine Stimmungsanalyse durchgeführt und eine Suchmaschine erstellt, damit jede Suchanfrage genauso einfach durchsucht werden kann wie eine Person bei Google
Dies ist ein Open-Source-Projekt und ich versuche, es irgendwo zu hosten, damit die Leute es nutzen und das Beste daraus machen können.
Kooperationen sind SEHR willkommen! Wenn jemand mit dem Code helfen oder dabei helfen kann, die Suchergebnisse oder Zusammenfassungen zu überprüfen, wäre das eine RIESIGE Hilfe!
Ich freue mich darauf, mit dem Koran und NLP etwas Großartiges zu tun
Arbeit bis jetzt
- Notebook zum Scrapen von Daten von der Website: https://www.altafsir.com/
- Bereitstellung einer englischen Übersetzung und eines Tafseers des Korans im benutzerfreundlichen CSV-Format
- Verwendet NLP, um die 1000 am häufigsten im Koran verwendeten Wörter zu ermitteln
- Verwendete Stimmungsanalyse für den Koran in jeder Sure
- Textzusammenfassung für den Koran und jede Sure
- Suchmaschine für Koran mit Google USE (Universal Sentence Encoder)
- Ähnlichkeitsindex von Übersetzung und Tafseer
- Notizbuch zum Scrapen von Daten von https://thaqalayn.net/, einer umfassenden schiitischen Hadith-Bibliothek
- Notizbuch zum Scrapen https://corpus.quran.com/, das Korpus des Korans enthält, einschließlich Wörterbuch, Verben, Lemmata und Morphologie
Zukünftige Ziele
- Fügen Sie weitere Daten hinzu!
- Fügen Sie mehr Tafaseer und Übersetzungen hinzu, um das NLP-Modell für Suchmaschinen und Analysen besser zu trainieren
- Erstellen Sie eine End-to-End-Anwendung, damit jeder von den neu trainierten Modellen profitieren kann
- Finden Sie aufschlussreiche Dinge aus dem Koran
- Machen Sie ein arabisches NLP-Modell, das in der Lage ist, den Koran zu verstehen
- Erstellen Sie eine einzige Diagrammdatenbank, die islamisches Wissen umfasst
- Entwicklung eines KI-Tools zur Authentifizierung von Hadithen
Wichtiger Hinweis
Wenn Sie in der Übersetzung einen Fehler oder Irrtum finden, korrigieren Sie mich bitte. Wenn Sie die Arbeit interessant finden, können Sie gerne weiter darauf aufbauen!
Wie man einen Beitrag leistet
Erstellen Sie gerne Notizbücher zu den aktuellen Daten, fügen Sie weitere Daten hinzu (authentisch und mit Quellen) und werfen Sie einen Blick auf die aktuellen Daten, um sicherzustellen, dass sie authentisch und aktuell sind!
Der Datensatz ist auch unter https://www.kaggle.com/datasets/alizahidraja/quran-nlp verfügbar. Sie können Kaggle auch verwenden, um online daran zu arbeiten!
Projektstart: 1. März 2023