AL-QURAN NLP
NLP & AI pada Alquran!
Struktur Kumpulan Data
- data
- Alquran
- korpus (190.655)
- kamus (53.924)
- morfologi (128.219)
- kata kerja (1.475)
- lemma (3.680)
- lemma (dikelompokkan) (3.357)
- quran.csv (6,236)
- hadis (700.000+ hadis!)
- Sanadset (650.000 hadits) (Perhatikan bahwa data ini melewati batas yang ditentukan oleh github, Anda dapat mendownloadnya dari Kaggle)
- arabichhadith (62.169 hadits)
- thaqalayn (26.975 hadis)
- kaggle_hadith_clean.csv (34.410 hadits)
- kaggle_rawis.csv (24.028 rawis)
- namafallah (99)
- surah (114)
- tafsir (4 * 6.236)
- terjemahan (9 * 6.236)
- main_df.csv (6.236)
Motivasi
Saya berpikir untuk menggunakan pengetahuan saya tentang ML & NLP dalam Al-Quran untuk menghasilkan sesuatu darinya. Saya telah mencoba untuk mendapatkan ringkasan Ayat dan Tafasir, mendapatkan analisis sentimen, saya telah membuat Mesin Pencari sehingga pertanyaan apa pun dapat dicari semudah orang mencari di Google
Ini adalah proyek sumber terbuka dan saya mencoba menyimpannya di suatu tempat sehingga orang dapat menggunakannya dan memanfaatkannya semaksimal mungkin.
Kolaborasi SANGAT disambut baik! Jika ada yang bisa membantu dengan kode atau membantu memeriksa fakta hasil pencarian atau ringkasan, itu akan sangat membantu!
Menantikan untuk melakukan sesuatu yang hebat dengan Quran & NLP
Bekerja sampai sekarang
- Notebook untuk mengikis data dari situs web: https://www.altafsir.com/
- Menyediakan terjemahan bahasa Inggris dan Tafsir Al-Quran dalam format CSV yang mudah digunakan
- Menggunakan NLP untuk mendapatkan 1000 kata teratas yang digunakan dalam Al-Quran
- Digunakan analisis sentimen untuk Al-Quran tiap surah
- Rangkuman Teks untuk Al-Qur'an & setiap Surah
- Mesin Pencari Alquran menggunakan Google USE (Universal Sentence Encoder)
- Indeks Kesamaan Terjemahan & Tafsir
- Buku catatan untuk mengikis data dari https://thaqalayn.net/ yang merupakan Perpustakaan Hadits Syiah Komprehensif
- Buku catatan untuk mengikis https://corpus.quran.com/ yang berisi korpus Al-Quran, termasuk kamus, kata kerja, lemma, morfologi
Cita cita
- Tambahkan lebih banyak Data!
- Tambahkan lebih banyak Tafaseer dan terjemahan untuk melatih model NLP untuk Mesin Pencari & Analisis dengan lebih baik
- Buatlah aplikasi end-to-end sehingga semua orang bisa mendapatkan manfaat dari model yang baru dilatih
- Temukan hal-hal yang berwawasan luas dari Al-Quran
- Membuat model NLP Arab yang mampu memahami Al-Quran
- Membuat database grafik tunggal yang mencakup pengetahuan Islam
- Membuat alat AI untuk mengotentikasi Hadis
Catatan Penting
Jika Anda menemukan kesalahan atau kesalahan apa pun dalam terjemahan, harap perbaiki saya. Jika menurut Anda pekerjaan itu menarik, silakan kembangkan lebih lanjut!
Bagaimana Berkontribusi
Jangan ragu untuk membuat buku catatan tentang data terkini, tambahkan lebih banyak data (asli dan beserta sumbernya) dan lihat data terkini untuk memastikan keasliannya dan terkini!
Kumpulan data juga tersedia di https://www.kaggle.com/datasets/alizahidraja/quran-nlp Anda juga dapat menggunakan Kaggle untuk mengerjakannya secara online!
Proyek dimulai: 1 Maret 2023