อัลกุรอาน NLP
NLP และ AI ในอัลกุรอาน!
โครงสร้างชุดข้อมูล
- ข้อมูล
- อัลกุรอาน
- คลังข้อมูล (190,655)
- พจนานุกรม (53,924)
- สัณฐานวิทยา (128,219)
- กริยา (1,475)
- บทแทรก (3,680)
- บทแทรก (จัดกลุ่ม) (3,357)
- quran.csv (6,236)
- สุนัต (สุนัตมากกว่า 700,000+!)
- Sanadset (650,000 สุนัต) (โปรดทราบว่าข้อมูลนี้เกินขีดจำกัดที่กำหนดโดย github คุณสามารถดาวน์โหลดได้จาก Kaggle)
- อารบิชาดิธ (62,169 หะดีษ)
- ตะเกาะลัน (26,975 หะดีษ)
- kaggle_hadith_clean.csv (34,410 สุนัต)
- kaggle_rawis.csv (24,028 ดิบ)
- เนมโซฟัลลอฮฺ (99)
- ซูเราะห์ (114)
- ตัฟซีร (4 * 6,236)
- แปล (9 * 6,236)
- main_df.csv (6,236)
แรงจูงใจ
ฉันคิดเกี่ยวกับการใช้ความรู้ของฉันเกี่ยวกับ ML และ NLP ในอัลกุรอานเพื่อสร้างบางสิ่งจากความรู้นั้น ฉันพยายามรับบทสรุปของโองการและ Tafasir รับการวิเคราะห์ความรู้สึก ฉันได้สร้าง Search Engine เพื่อให้สามารถค้นหาข้อความค้นหาใด ๆ ได้อย่างง่ายดายเหมือนกับที่บุคคลทำใน Google
นี่เป็นโปรเจ็กต์โอเพ่นซอร์สและฉันกำลังพยายามโฮสต์มันไว้ที่ใดที่หนึ่งเพื่อให้ผู้คนสามารถใช้งานได้และใช้ประโยชน์สูงสุดจากมัน
ยินดีต้อนรับความร่วมมือเป็นอย่างยิ่ง! หากใครสามารถช่วยเรื่องโค้ดหรือช่วยตรวจสอบผลการค้นหาหรือบทสรุปได้ นั่นจะช่วยได้มาก!
รอคอยที่จะทำสิ่งที่ยอดเยี่ยมด้วยอัลกุรอานและ NLP
ทำงานจนถึงตอนนี้
- Notebook ขูดข้อมูลจากเว็บ: https://www.altafsir.com/
- ให้บริการแปลภาษาอังกฤษและ Tafseer อัลกุรอานในรูปแบบ CSV ที่ใช้งานง่าย
- ใช้ NLP เพื่อรับคำศัพท์ 1,000 อันดับแรกที่ใช้ในอัลกุรอาน
- ใช้การวิเคราะห์ความรู้สึกสำหรับอัลกุรอานแต่ละซูเราะห์
- การสรุปข้อความสำหรับอัลกุรอานและ Surah แต่ละอัน
- เครื่องมือค้นหาอัลกุรอานโดยใช้ Google USE (ตัวเข้ารหัสประโยคสากล)
- ดัชนีความคล้ายคลึงกันของการแปลและ Tafseer
- Notebook เพื่อขูดข้อมูลจาก https://thaqalayn.net/ ซึ่งเป็นห้องสมุด Shia Hadith ที่ครอบคลุม
- สมุดโน๊ตขูด https://corpus.quran.com/ ซึ่งมีคลังข้อมูลอัลกุรอาน ทั้งพจนานุกรม กริยา บทแทรก สัณฐานวิทยา
เป้าหมายในอนาคต
- เพิ่มข้อมูล!
- เพิ่ม Tafaseer และการแปลเพิ่มเติมเพื่อฝึกฝนโมเดล NLP สำหรับเครื่องมือค้นหาและการวิเคราะห์ให้ดียิ่งขึ้น
- สร้างแอปพลิเคชันแบบ end-to-end เพื่อให้ทุกคนได้รับประโยชน์จากโมเดลที่ได้รับการฝึกอบรมใหม่
- ค้นหาสิ่งที่ลึกซึ้งจากอัลกุรอาน
- สร้างแบบจำลอง NLP ภาษาอาหรับที่สามารถเข้าใจอัลกุรอานได้
- สร้างฐานข้อมูลกราฟเดียวที่รวมความรู้อิสลาม
- การสร้างเครื่องมือ AI เพื่อตรวจสอบความถูกต้องของหะดีษ
หมายเหตุสำคัญ
หากคุณพบข้อผิดพลาดหรือข้อผิดพลาดใด ๆ ในการแปลโปรดแก้ไขฉันด้วย หากคุณพบว่างานนี้น่าสนใจ อย่าลังเลที่จะสร้างมันเพิ่ม!
วิธีการมีส่วนร่วม
อย่าลังเลที่จะสร้างสมุดบันทึกเกี่ยวกับข้อมูลปัจจุบัน เพิ่มข้อมูลเพิ่มเติม (ของแท้และมีแหล่งที่มา) และดูข้อมูลปัจจุบันเพื่อให้แน่ใจว่าเป็นของแท้และทันสมัย!
ชุดข้อมูลยังมีอยู่ที่https://www.kaggle.com/datasets/alizahidraja/quran-nlp คุณสามารถใช้ Kaggle เพื่อทำงานออนไลน์ได้เช่นกัน!
เริ่มโครงการ : 1 มีนาคม 2566