CORAN PNL
PNL & IA sur le Coran !
Structure de l'ensemble de données
- données
- coran
- corpus (190 655)
- dictionnaire (53 924)
- morphologie (128 219)
- verbes (1 475)
- lemmes (3 680)
- lemmes (groupés) (3 357)
- coran.csv (6 236)
- hadith (plus de 700 000 hadiths !)
- Sanadset (650 000 hadiths) (Notez que ces données dépassent la limite fixée par github, vous pouvez les télécharger depuis Kaggle)
- arabichadith (62 169 hadiths)
- Thaqalayn (26 975 hadiths)
- kaggle_hadith_clean.csv (34 410 hadiths)
- kaggle_rawis.csv (24 028 rawis)
- noms d'Allah (99)
- sourate (114)
- tafsir (4 * 6 236)
- traduction (9 * 6 236)
- main_df.csv (6 236)
Motivation
J'ai pensé à utiliser mes connaissances du ML et de la PNL dans le Coran pour en tirer quelque chose. J'ai essayé d'obtenir un résumé des Versets et du Tafasir, en obtenant l'analyse des sentiments, j'ai créé un moteur de recherche afin que toute requête puisse être recherchée aussi facilement qu'une personne le fait sur Google.
Il s'agit d'un projet open source et j'essaie de l'héberger quelque part afin que les gens puissent l'utiliser et en tirer le meilleur parti.
Les collaborations sont FORTEMENT bienvenues ! Si quelqu'un peut aider avec le code ou aider à vérifier les résultats de recherche ou les résumés, ce serait d'une ÉNORME aide !
Au plaisir de faire quelque chose de génial avec le Coran et la PNL
Travailler jusqu'à maintenant
- Carnet pour récupérer les données du site Web : https://www.altafsir.com/
- Traduction en anglais et Tafsir du Coran fournis au format CSV facile à utiliser
- Utilisation de la PNL pour obtenir les 1000 mots les plus utilisés dans le Coran
- Analyse des sentiments utilisée pour le Coran et chaque sourate
- Résumé du texte pour le Coran et chaque sourate
- Moteur de recherche pour le Coran utilisant Google USE (Universal Sentence Encoder)
- Indice de similarité de la traduction et du Tafsir
- Carnet pour récupérer les données de https://thaqalayn.net/ qui est une bibliothèque complète de hadiths chiites
- Carnet à gratter https://corpus.quran.com/ qui contient le corpus du Coran, comprenant dictionnaire, verbes, lemmes, morphologie
Objectifs futurs
- Ajoutez plus de données !
- Ajoutez plus de Tafaseer et de traduction pour mieux former le modèle NLP pour les moteurs de recherche et l'analyse
- Créez une application de bout en bout pour que tout le monde puisse bénéficier des modèles nouvellement formés
- Trouvez des choses perspicaces dans le Coran
- Créer un modèle PNL arabe capable de comprendre le Coran
- Créer une base de données graphique unique englobant les connaissances islamiques
- Créer un outil d'IA pour authentifier les Hadiths
Remarque importante
Si vous trouvez un quelconque type d'erreur ou d'erreur dans la traduction, veuillez me corriger. Si vous trouvez le travail intéressant, n’hésitez pas à en développer davantage !
Comment contribuer
N'hésitez pas à créer des cahiers sur les données actuelles, à ajouter plus de données (authentiques et avec sources) et à jeter un œil aux données actuelles pour vous assurer qu'elles sont authentiques et à jour !
Ensemble de données également disponible sur https://www.kaggle.com/datasets/alizahidraja/quran-nlp Vous pouvez également utiliser Kaggle pour y travailler en ligne !
Début du projet : 1er mars 2023