PNL CORÁN
¡PNL e IA sobre el Corán!
Estructura del conjunto de datos
- datos
- corán
- corpus (190,655)
- diccionario (53,924)
- morfología (128,219)
- verbos (1.475)
- lemas (3,680)
- lemas (agrupados) (3.357)
- corán.csv (6,236)
- hadiz (¡más de 700.000 hadices!)
- Sanadset (650.000 hadices) (Tenga en cuenta que estos datos cruzan el límite establecido por github, puede descargarlos desde Kaggle)
- arabichadith (62.169 hadices)
- thaqalayn (26.975 hadices)
- kaggle_hadith_clean.csv (34,410 hadices)
- kaggle_rawis.csv (24,028 rawis)
- nombresofallah (99)
- sura (114)
- tafsir (4 * 6,236)
- traducción (9 * 6,236)
- principal_df.csv (6,236)
Motivación
Pensé en utilizar mis conocimientos de ML y PNL en el Corán para sacar algo de ello. He intentado obtener un resumen de los Versos y Tafasir, obteniendo el análisis de sentimiento, he creado un Buscador para que cualquier consulta se pueda buscar tan fácilmente como lo hace una persona en Google.
Este es un proyecto de código abierto y estoy intentando alojarlo en algún lugar para que la gente pueda usarlo y aprovecharlo al máximo.
¡Las colaboraciones son MUY bienvenidas! Si alguien puede ayudar con el código o ayudar a verificar los resultados de búsqueda o los resúmenes, ¡sería de GRAN ayuda!
Espero hacer algo grandioso con el Corán y la PNL.
Trabaja hasta ahora
- Cuaderno para extraer datos del sitio web: https://www.altafsir.com/
- Se proporcionó traducción al inglés y Tafseer del Corán en formato CSV fácil de usar.
- Usé PNL para obtener las 1000 palabras más utilizadas en el Corán
- Análisis de sentimiento utilizado para el Corán en cada sura.
- Resumen de texto para el Corán y cada Sura
- Motor de búsqueda del Corán utilizando Google USE (Codificador universal de frases)
- Índice de similitud de traducción y tafseer
- Cuaderno para extraer datos de https://thaqalayn.net/, que es una biblioteca completa de hadices chiítas
- Cuaderno para raspar https://corpus.quran.com/ que contiene corpus del Corán, incluido diccionario, verbos, lemas y morfología.
Metas futuras
- ¡Agrega más datos!
- Agregue más Tafaseer y traducción para entrenar mejor el modelo de PNL para motores de búsqueda y análisis.
- Cree una aplicación de un extremo a otro para que todos puedan beneficiarse de los modelos recién entrenados.
- Encuentra cosas interesantes del Corán
- Crea un modelo árabe de PNL capaz de entender el Corán
- Crear una base de datos gráfica única que abarque el conocimiento islámico
- Creación de una herramienta de inteligencia artificial para autenticar Hadith
Nota importante
Si encuentra algún tipo de error o equivocación en la traducción por favor corríjame. Si encuentra interesante el trabajo, ¡no dude en desarrollar más sobre él!
Cómo contribuir
Siéntase libre de hacer cuadernos con los datos actuales, agregar más datos (auténticos y con fuentes) y echar un vistazo a los datos actuales para asegurarse de que sean auténticos y estén actualizados.
Conjunto de datos también disponible en https://www.kaggle.com/datasets/alizahidraja/quran-nlp ¡También puedes usar Kaggle para trabajar en él en línea!
Proyecto iniciado: 1 de marzo de 2023