꾸란 NLP
꾸란의 NLP 및 AI!
데이터세트 구조
- 데이터
- 꾸란
- 말뭉치 (190,655)
- 사전 (53,924)
- 형태학 (128,219)
- 동사 (1,475)
- 기본정리 (3,680)
- 기본형(그룹화됨) (3,357)
- quran.csv (6,236)
- 하디스 (700,000개 이상의 하디스!)
- Sanadset (650,000 hadith) (이 데이터는 github에서 설정한 제한을 초과하므로 Kaggle에서 다운로드할 수 있습니다.)
- 아라비차디스 (62,169 하디스)
- thaqalayn (26,975 하디스)
- kaggle_hadith_clean.csv (34,410 하디스)
- kaggle_rawis.csv (24,028 rawis)
- 나메소팔라 (99)
- 수라 (114)
- 태프시어 (4 * 6,236)
- 번역 (9 * 6,236)
- main_df.csv (6,236)
동기 부여
나는 꾸란의 ML 및 NLP에 대한 지식을 활용하여 무언가를 만들어볼까 생각했습니다. 나는 Verses와 Tafasir의 요약을 얻고 감정 분석을 얻으려고 노력했으며 어떤 쿼리도 사람이 Google에서 검색하는 것처럼 쉽게 검색할 수 있도록 검색 엔진을 만들었습니다.
이것은 오픈 소스 프로젝트이며 사람들이 이를 사용하고 최대한 활용할 수 있도록 어딘가에 호스팅하려고 합니다.
협력을 매우 환영합니다! 코드 작성에 도움을 주거나 검색 결과나 요약을 사실 확인하는 데 도움을 줄 수 있는 사람이 있다면 큰 도움이 될 것입니다!
꾸란과 NLP로 뭔가 멋진 일을 하길 기대합니다
지금까지 일하다
- 웹사이트에서 데이터를 스크랩하는 노트북: https://www.altafsir.com/
- 사용하기 쉬운 CSV 형식으로 꾸란의 영어 번역 및 Tafseer 제공
- NLP를 사용하여 꾸란에서 사용되는 상위 1000개 단어를 가져옴
- 꾸란 각 수라에 대한 감정 분석 사용
- 꾸란과 각 수라에 대한 텍스트 요약
- Google USE(Universal Sentence Encoder)를 사용한 꾸란 검색 엔진
- 번역 및 Tafseer의 유사성 지수
- 포괄적인 Shia Hadith 라이브러리인 https://thaqalayn.net/에서 데이터를 스크랩하는 노트북
- 사전, 동사, 기본형, 형태론을 포함하여 꾸란의 말뭉치를 포함하는 https://corpus.quran.com/을 긁어내는 노트
향후 목표
- 더 많은 데이터를 추가하세요!
- 검색 엔진 및 분석을 위한 NLP 모델을 더 효과적으로 교육하기 위해 더 많은 Tafaseer 및 번역을 추가하세요.
- 새로 훈련된 모델을 모든 사람이 활용할 수 있도록 엔드투엔드 애플리케이션을 만드세요.
- 꾸란에서 통찰력 있는 내용을 찾아보세요
- 꾸란을 이해할 수 있는 아랍어 NLP 모델 만들기
- 이슬람 지식을 아우르는 단일 그래프 데이터베이스 구축
- Hadith 인증을 위한 AI 도구 만들기
중요사항
번역에 오류나 실수가 있는 경우 수정해 주시기 바랍니다. 해당 작업이 흥미롭다고 생각되면 자유롭게 추가 작업을 수행해 보세요!
기여하는 방법
현재 데이터에 대한 노트북을 자유롭게 만들고, 더 많은 데이터(진짜 및 소스 포함)를 추가하고, 현재 데이터를 살펴보고 그것이 확실하고 최신인지 확인하세요!
데이터세트는 https://www.kaggle.com/datasets/alizahidraja/quran-nlp에서도 제공됩니다. Kaggle을 사용하여 온라인에서도 작업할 수 있습니다!
프로젝트 시작일: 2023년 3월 1일