КОРАН НЛП
НЛП и ИИ на Коране!
Структура набора данных
- данные
- Коран
- корпус (190 655)
- словарь (53,924)
- морфология (128 219)
- глаголы (1475)
- леммы (3680)
- леммы (сгруппированы) (3357)
- quran.csv (6,236)
- хадис (700 000+ хадисов!)
- Санадсет (650 000 хадисов) (Обратите внимание, что эти данные превышают лимит, установленный github, вы можете скачать их с Kaggle)
- арабихадис (62 169 хадисов)
- такалайн (26 975 хадисов)
- kaggle_hadith_clean.csv (34 410 хадисов)
- kaggle_rawis.csv (24 028 изображений)
- намесофаллах (99)
- сура (114)
- тафсир (4 * 6,236)
- перевод (9 * 6,236)
- main_df.csv (6236)
Мотивация
Я подумал о том, чтобы использовать свои знания в области ОД и НЛП в Коране, чтобы что-то из этого извлечь. Я попытался получить краткое изложение аятов и тафасира, проведя анализ настроений, я создал поисковую систему, чтобы любой запрос можно было найти так же легко, как человек это делает в Google.
Это проект с открытым исходным кодом, и я пытаюсь разместить его где-нибудь, чтобы люди могли использовать его и извлечь из него максимальную пользу.
Сотрудничество ОЧЕНЬ приветствуется! Если кто-нибудь может помочь с кодом или проверить результаты поиска или сводки, это будет ОГРОМНОЙ помощью!
С нетерпением жду возможности сделать что-то великое с Кораном и НЛП.
Работайте до сих пор
- Блокнот для сбора данных с сайта: https://www.altafsir.com/
- Предоставлен английский перевод и тафсир Корана в удобном для использования формате CSV.
- Использовал НЛП, чтобы получить 1000 лучших слов, используемых в Коране.
- Использован анализ настроений для каждой суры Корана.
- Краткое изложение текста Корана и каждой суры
- Поисковая система Корана с использованием Google USE (универсальный кодировщик предложений)
- Индекс сходства перевода и тафсира
- Блокнот для сбора данных из https://thaqalayn.net/, который представляет собой комплексную библиотеку шиитских хадисов.
- Блокнот для очистки https://corpus.quran.com/, содержащий корпус Корана, включая словарь, глаголы, леммы, морфологию.
Будущие цели
- Добавьте больше данных!
- Добавьте больше Tafaseer и перевода, чтобы лучше обучить модель НЛП для поисковых систем и анализа.
- Создайте комплексное приложение, чтобы каждый мог извлечь выгоду из недавно обученных моделей.
- Найдите познавательные вещи в Коране
- Создать арабскую модель НЛП, способную понимать Коран.
- Создать единую графовую базу данных, охватывающую исламские знания.
- Создание инструмента искусственного интеллекта для аутентификации хадисов
Важное примечание
Если вы обнаружите какую-либо ошибку или ошибку в переводе, пожалуйста, поправьте меня. Если работа вам интересна, не стесняйтесь развивать ее дальше!
Как внести свой вклад
Не стесняйтесь создавать блокноты на основе текущих данных, добавлять дополнительные данные (аутентичные и с указанием источников) и проверять текущие данные, чтобы убедиться в их достоверности и актуальности!
Набор данных также доступен по адресу https://www.kaggle.com/datasets/alizahidraja/quran-nlp. Вы также можете использовать Kaggle для работы над ним онлайн!
Начало проекта: 1 марта 2023 г.