Alcorão PNL
PNL e IA no Alcorão!
Estrutura do conjunto de dados
- dados
- Alcorão
- corpus (190.655)
- dicionário (53.924)
- morfologia (128.219)
- verbos (1.475)
- lemas (3.680)
- lemas (agrupados) (3.357)
- Alcorão.csv (6.236)
- hadith (mais de 700.000 hadiths!)
- Sanadset (650.000 hadith) (Observe que esses dados ultrapassam o limite definido pelo github, você pode baixá-los do Kaggle)
- arabichadith (62.169 hadith)
- Thaqalayn (26.975 hadith)
- kaggle_hadith_clean.csv (34.410 hadith)
- kaggle_rawis.csv (24.028 rawis)
- nomesofallah (99)
- surata (114)
- tafseer (4 * 6.236)
- tradução (9 * 6.236)
- main_df.csv (6.236)
Motivação
Pensei em usar meu conhecimento de ML e PNL no Alcorão para tirar algo disso. Tentei obter um resumo dos Versículos e do Tafasir, obtendo a análise de sentimento, fiz um Search Engine para que qualquer consulta possa ser pesquisada tão facilmente quanto uma pessoa faz no Google
Este é um projeto de código aberto e estou tentando hospedá-lo em algum lugar para que as pessoas possam usá-lo e tirar o máximo proveito dele.
Colaborações são ALTAMENTE bem-vindas! Se alguém puder ajudar com o código ou ajudar a verificar os resultados da pesquisa ou resumos, isso seria uma ENORME ajuda!
Estou ansioso para fazer algo incrível com o Alcorão e a PNL
Trabalhe até agora
- Notebook para extrair dados do site: https://www.altafsir.com/
- Forneceu tradução para o inglês e Tafseer do Alcorão em formato CSV fácil de usar
- Usei PNL para obter as 1000 palavras mais usadas no Alcorão
- Análise de sentimento usada para o Alcorão em cada surata
- Resumo de texto para o Alcorão e cada Surata
- Mecanismo de pesquisa do Alcorão usando Google USE (Universal Sentence Encoder)
- Índice de similaridade de tradução e Tafseer
- Caderno para extrair dados de https://thaqalayn.net/, que é uma biblioteca abrangente de Shia Hadith
- Caderno para raspar https://corpus.quran.com/ que contém corpus do Alcorão, incluindo dicionário, verbos, lemas, morfologia
Metas Futuras
- Adicione mais dados!
- Adicione mais Tafaseer e tradução para treinar melhor o modelo de PNL para Search Engine & Analysis
- Faça uma aplicação ponta a ponta para que todos possam se beneficiar dos modelos recém-treinados
- Encontre coisas interessantes no Alcorão
- Faça um modelo de PNL árabe capaz de compreender o Alcorão
- Faça um único banco de dados gráfico abrangendo o conhecimento islâmico
- Criando uma ferramenta de IA para autenticar Hadith
Nota importante
Se você encontrar algum tipo de erro ou erro na tradução, corrija-me. Se você achar o trabalho interessante, sinta-se à vontade para desenvolver mais sobre ele!
Como contribuir
Sinta-se à vontade para fazer anotações sobre os dados atuais, adicionar mais dados (autênticos e com fontes) e dar uma olhada nos dados atuais para ter certeza de que são autênticos e atualizados!
Conjunto de dados também disponível em https://www.kaggle.com/datasets/alizahidraja/quran-nlp Você também pode usar o Kaggle para trabalhar nele online!
Projeto iniciado: 1º de março de 2023