الذكاء الاصطناعي المرتكز على البيانات
الذكاء الاصطناعي المرتكز على البيانات هو نهج لتطوير الذكاء الاصطناعي الذي يعتبر مجموعة بيانات التدريب بمثابة محور الحل بدلاً من النموذج.
يحتوي هذا المستودع على قائمة منسقة من الموارد الرائعة مثل المكتبات مفتوحة المصدر والبرامج التعليمية والمقالات التي ستساعدك على فهم المفاهيم وبدء رحلتك في تطوير الذكاء الاصطناعي المرتكز على البيانات.
نحن نقدر التعاون المفتوح ومشاركة المعرفة، لذلك نوصي بعدم قصر نفسك على هذا المستودع وحده والتحقق من المشاريع الرائعة الأخرى مثل Andrew Ng's Resources Hub.
تنميط البيانات
- YData Profiling - يدعم YData Profiling كلا من Pandas وSpark DataFrames، مما يوفر فهمًا سريعًا ومباشرًا للبيانات المرئية.
- SweetViz - SweetViz هي مكتبة Python مفتوحة المصدر تقوم بإنشاء تصورات جميلة وعالية الكثافة لبدء EDA (تحليل البيانات الاستكشافية) بسطرين فقط من التعليمات البرمجية.
- DataPrep.EDA - DataPrep.EDA هي أداة EDA (تحليل البيانات الاستكشافية) في Python تتيح لك فهم Pandas/Dask DataFrame باستخدام بضعة أسطر من التعليمات البرمجية في ثوانٍ.
- AutoViz - تصور أي مجموعة بيانات تلقائيًا، بأي حجم باستخدام سطر واحد من التعليمات البرمجية.
- Lux - Lux هي مكتبة Python تسهل استكشاف البيانات بسرعة وسهولة من خلال أتمتة عملية التصور وتحليل البيانات.
- توقعات عظيمة - تساعد التوقعات العظيمة فرق البيانات على التخلص من ديون خطوط الأنابيب، من خلال اختبار البيانات، والتوثيق، والتنميط.
- D-Tale - هي مكتبة مفتوحة المصدر للتصور التلقائي لبايثون توفر لك طريقة سهلة لعرض وتحليل هياكل بيانات Pandas. إنه يتكامل بسلاسة مع دفاتر ملاحظات ipython ومحطات python/ipython.
- Data Profiler - DataProfiler هي مكتبة Python مصممة لتسهيل تحليل البيانات ومراقبتها واكتشاف البيانات الحساسة.
- لماذا سجل - لماذا سجل هو معيار مفتوح المصدر لتسجيل البيانات. يستخدم تقنيات تحديد ملفات تعريف البيانات لإنشاء ملفات تعريف سجلات السبب ، والتي يمكن استخدامها كسجلات لتمكين المراقبة والملاحظة لخطوط أنابيب البيانات ونماذج تعلم الآلة
؟ البيانات الاصطناعية
- YData الاصطناعية - مولدات البيانات الاصطناعية المنظمة باستخدام شبكات الخصومة التوليدية خصيصًا للبيانات الجدولية والسلاسل الزمنية.
- Synthpop - أداة لإنتاج نسخ تركيبية من البيانات الجزئية التي تحتوي على معلومات سرية بحيث تكون آمنة لإصدارها للمستخدمين للتحليل الاستكشافي.
- DataSynthesizer - يقوم DataSynthesizer بإنشاء بيانات تركيبية تحاكي مجموعة بيانات معينة. تطبق تقنيات الخصوصية التفاضلية لتحقيق ضمان خصوصية قوي.
- SDV - مخزن البيانات الاصطناعية (SDV) عبارة عن نظام بيئي لإنشاء البيانات الاصطناعية للمكتبات يسمح للمستخدمين بتعلم مجموعات البيانات ذات الجدول الفردي والجداول المتعددة والسلاسل الزمنية بسهولة لإنشاء بيانات تركيبية جديدة لها نفس التنسيق لاحقًا والخصائص الإحصائية كمجموعة البيانات الأصلية.
- Pomegranate - Pomegranate عبارة عن حزمة لبناء نماذج احتمالية في Python يتم تنفيذها في Cython من أجل السرعة. يمكن لمعظم هذه النماذج أخذ عينات من البيانات.
- Gretel Synthes - تتيح حزمة Gretel Synthetics للمطورين الانغماس بسرعة في توليد البيانات الاصطناعية من خلال استخدام الشبكات العصبية.
- Time-Series-Generator - يتيح Time-Series-Generator للمطورين إنشاء مجموعات بيانات سلاسل زمنية تركيبية بطريقة عامة تتبع اتجاهات مختلفة. الهدف هنا هو توفير بيانات غير حساسة لعرض الحلول واختبار فعالية تلك الحلول و/ أو الخوارزميات.
- Zpy - Zpy يحل مشكلة عدم وجود مجموعات بيانات خاصة بالأعمال للتطبيقات القائمة على رؤية الكمبيوتر. يستخدم Zpy Python وBlender (مجموعة أدوات رسومات ثلاثية الأبعاد مفتوحة المصدر) لإنشاء مجموعات بيانات تركيبية مناسبة لحالات العمل الفريدة.
؟ تصنيف البيانات
- LabelImg - LabelImg عبارة عن أداة توضيحية للصور الرسومية. إنه مكتوب بلغة Python ويستخدم Qt لواجهته الرسومية.
- LabelMe - LabelMe هي أداة تعليقات توضيحية متعددة الأضلاع للصور تستخدم Python وQt.
- TagAnamoly - أداة وضع العلامات للكشف عن الحالات الشاذة، خصيصًا للسلاسل الزمنية المتعددة (سلسلة زمنية واحدة لكل فئة).
- EchoML - تشغيل ملفاتك الصوتية وتصورها والتعليق عليها
- LabelStudio - Label Studio هي أداة مفتوحة المصدر لتصنيف البيانات. يتيح لك تصنيف أنواع البيانات مثل الصوت والنص والصور ومقاطع الفيديو والسلاسل الزمنية باستخدام واجهة مستخدم بسيطة ومباشرة وتصديرها إلى تنسيقات نماذج مختلفة.
- أدوات رائعة لتعليق البيانات ووضع العلامات عليها مفتوحة المصدر - قائمة بالأدوات مفتوحة المصدر المتاحة (مرتبة حسب نوع المهمة) لأي شخص يريد تصنيف البيانات. يتم سرد الأدوات التي تمت صيانتها بشكل نشط فقط.
إعداد البيانات
- DataFix - DataFix هي أداة Python لاكتشاف وتصحيح تحولات التوزيع بين المرجع ومجموعة بيانات الاستعلام. يكتشف التحولات، ويحدد الميزات المحددة المسؤولة عن التحول، ويصححها بكفاءة.
الدروس والموارد
يمكنك العثور هنا على قائمة بالبرامج التعليمية العملية والمواد الأخرى التي نستخدمها على موقعنا الإلكتروني والمدونات المتوسطة هنا: البرامج التعليمية والموارد.
- الذكاء الاصطناعي المرتكز على البيانات: استطلاع - يهدف هذا الاستطلاع إلى مساعدة القراء على فهم صورة واسعة للذكاء الاصطناعي المرتكز على البيانات بكفاءة. ويغطي جوانب مختلفة مثل احتياجات وتعريفات وتحديات الذكاء الاصطناعي المرتكز على البيانات، بالإضافة إلى تقنيات التدريب على تطوير البيانات، وتطوير بيانات الاستدلال، وصيانة البيانات. بالإضافة إلى ذلك، يقوم الاستطلاع بتنظيم الأدبيات الموجودة من منظور الأتمتة والتعاون، وتبويب وتحليل المعايير لتحقيق التميز في البيانات. هناك أيضا نسخة قصيرة.
؟ الدورات
- مقدمة من معهد ماساتشوستس للتكنولوجيا إلى الذكاء الاصطناعي المرتكز على البيانات - يغطي هذا الفصل الخوارزميات للعثور على المشكلات الشائعة وإصلاحها في بيانات تعلم الآلة وإنشاء مجموعات بيانات أفضل، مع التركيز على البيانات المستخدمة في مهام التعلم الخاضعة للإشراف مثل التصنيف. جميع المواد التي يتم تدريسها في هذه الدورة عملية للغاية، وتركز على الجوانب المؤثرة لتطبيقات تعلم الآلة في العالم الحقيقي، بدلاً من التفاصيل الرياضية لكيفية عمل نماذج معينة. يمكنك أن تأخذ هذه الدورة لتعلم التقنيات العملية التي لم يتم تناولها في معظم فصول تعلم الآلة، والتي ستساعد في التخفيف من مشكلة "القمامة الواردة، القمامة الخارجة" التي تعاني منها العديد من تطبيقات تعلم الآلة في العالم الحقيقي. الموقع | فيديوهات المحاضرات | مهام المختبر
؟ دعوة مفتوحة
نحن منفتحون على التعاون! إذا كنت تريد البدء في المساهمة، فما عليك سوى إنشاء طلب سحب بالموارد ذات الصلة. سوف نقوم بمراجعة كل طلب سحب.
إذا وجدت هذه الموارد مفيدة، فلا تتردد في مراجعة مجتمع الذكاء الاصطناعي المرتكز على البيانات أو انقر هنا للانضمام إلى خادم Discord الخاص بنا. نأمل أن نقول مرحباً على الجانب الآخر!