#Self- Learning
#Guide for Beginners
#Self Learning
#Python
#LearnDataScience
#Machcine Learning
حسنًا، بشكل عام، علم البيانات ليس مجالًا معينًا أو واحدًا، فهو يشبه مزيجًا من التخصصات المختلفة التي تركز على تحليل البيانات وإيجاد أفضل الحلول بناءً عليها. في البداية، كان يتولى هذه المهام متخصصون في الرياضيات أو الإحصاء، ولكن بعد ذلك بدأ خبراء البيانات في استخدام التعلم الآلي والذكاء الاصطناعي، مما أضاف التحسين وعلوم الكمبيوتر كوسيلة لتحليل البيانات. وتبين أن هذا النهج الجديد أسرع وأكثر فعالية، ويحظى بشعبية كبيرة.
بشكل عام، تكمن شعبية علم البيانات في حقيقة أنه يشمل مجموعة كبيرة من البيانات المنظمة وغير المنظمة وتحويلها إلى تنسيق يمكن قراءته بواسطة الإنسان، بما في ذلك التصور والعمل مع الإحصائيات والأساليب التحليلية - الآلية والعميقة التعلم وتحليل الاحتمالات والنماذج التنبؤية والشبكات العصبية وتطبيقاتها لحل المشكلات الفعلية.
الذكاء الاصطناعي، والتعلم الآلي، والتعلم العميق، وعلوم البيانات - مما لا شك فيه أن هذه المصطلحات الرئيسية هي الأكثر شعبية اليوم. وعلى الرغم من أنهما مرتبطان بطريقة أو بأخرى، إلا أنهما ليسا متماثلين. لذا، قبل القفز إلى أي من هذه المجالات، من الضروري أن تشعر بالفرق.
الذكاء الاصطناعي هو المجال الذي يركز على إنشاء آلات ذكية تعمل وتتفاعل مثل البشر. يعود تاريخ الذكاء الاصطناعي كدراسة إلى عام 1936 عندما قام آلان تورينج ببناء أول آلات تعمل بالذكاء الاصطناعي. على الرغم من تاريخه الطويل، إلا أن الذكاء الاصطناعي في معظم المجالات اليوم غير قادر على أن يحل محل الإنسان بشكل كامل. ومنافسة الذكاء الاصطناعي مع البشر في لعبة الشطرنج، وتشفير البيانات وجهان لعملة واحدة.
Machine learning is a creating tool for extracting knowledge from data. In ML models can be trained on data independently or in stages: training with a teacher, that is, having human-prepared data or training without a teacher, working with spontaneous, noisy data.
التعلم العميق هو إنشاء شبكات عصبية متعددة الطبقات في المناطق التي تحتاج إلى تحليل أكثر تقدمًا أو سريعًا ولا يستطيع التعلم الآلي التقليدي التعامل معها. يوفر "العمق" أكثر من طبقة مخفية من الخلايا العصبية في الشبكة التي تجري الحسابات الرياضية.
Big Data — work with huge amounts of often unstructured data. The specifics of the sphere are tools and systems capable of withstanding high loads.
علم البيانات هو إضافة المعنى إلى صفائف البيانات، والتصور، وجمع الأفكار، واتخاذ القرارات بناءً على هذه البيانات. يستخدم المتخصصون الميدانيون بعض أساليب التعلم الآلي والبيانات الضخمة - الحوسبة السحابية وأدوات إنشاء بيئة تطوير افتراضية وغير ذلك الكثير. تم تلخيص مهام علم البيانات بشكل جيد من خلال مخطط Venn هذا الذي أنشأه درو كونواي:
إذن ماذا يفعل عالم البيانات؟
هنا كل ما تحتاج لمعرفته حول هذا الموضوع:
- detection of anomalies, for example, abnormal customer behavior, fraud; - personalized marketing — personal e-mail newsletters, retargeting, recommendation systems; - Metric forecasts — performance indicators, quality of advertising campaigns and other activities; - scoring systems — process large amounts of data and help to make a decision, for example, on granting a loan; - asic interaction with the client — standard answers in chat rooms, voice assistants, sorting letters into folders.
للقيام بأي من المهام المذكورة أعلاه، عليك اتباع خطوات معينة:
- Collection Search for channels where you can collect data, and how to get it. - Check. Validation, pruning anomalies that do not affect the result and confuse with further analysis. - Analysis. The study of data, confirmation of assumptions, conclusions. - Visualization. Presentation in a form that will be simple and understandable for perception by a person — in graphs, diagrams. - Act. Making decisions based on the analyzed data, for example, about changing the marketing strategy, increasing the budget for any activity of the company.
الآن هو الوقت المناسب للتحرك نحو أشياء أكثر تعقيدا. من المحتمل أن تبدو جميع الخطوات الموضحة أدناه صعبة للغاية، وتستهلك الكثير من الوقت والطاقة، وما إلى ذلك. حسنًا، نعم، هذا المسار صعب إذا اعتبرته شيئًا يمكنك تعلمه في شهر أو حتى في عام. يجب أن تعترف بحقيقة التعلم المستمر، وحقيقة اتخاذ خطوات صغيرة كل يوم، وأن تكون مستعدًا لرؤية الأخطاء، وتكون مستعدًا للمحاولة مرة أخرى والاعتماد على فترة طويلة من إتقان هذا المجال.
إذن، هل أنت مستعد حقًا لهذه الأشياء؟ إذا كان الأمر كذلك، دعونا لفة.
“Data Scientist is a person who is better at statistics than any programmer and better at programming than any statistician.” Josh Wills
إذا تحدثنا بشكل عام عن علوم البيانات، فمن أجل الفهم والعمل الجاد، نحتاج إلى دورة أساسية في نظرية الاحتمالات (وبالتالي التحليل الرياضي كأداة ضرورية في نظرية الاحتمالات)، والجبر الخطي، وبالطبع الإحصاء الرياضي. تعتبر المعرفة الرياضية الأساسية مهمة حتى تتمكن من تحليل نتائج تطبيق خوارزميات معالجة البيانات. هناك أمثلة لمهندسين أقوياء نسبيًا في مجال التعلم الآلي دون مثل هذه الخلفية، ولكن هذا هو الاستثناء إلى حد ما.
إذا كان التعليم الجامعي قد ترك العديد من الفجوات، فإنني أوصي بكتاب عناصر التعلم الإحصائي من تأليف هاستي، وتيبشيراني، وفريدمان. في هذا الكتاب، يتم عرض الأقسام الكلاسيكية للتعلم الآلي من حيث الإحصائيات الرياضية مع حسابات رياضية صارمة. على الرغم من وفرة الصياغات والأدلة الرياضية، فإن جميع الأساليب مصحوبة بأمثلة وتمارين عملية.
أفضل كتاب في الوقت الحالي لفهم المبادئ الرياضية التي تقوم عليها الشبكات العصبية - التعلم العميق من تأليف إيان جودفيلو. يوجد في المقدمة قسم كامل حول جميع الرياضيات اللازمة لفهم جيد للشبكات العصبية. هناك مرجع جيد آخر وهو الشبكات العصبية والتعلم العميق لمايكل نيلسن - قد لا يكون هذا عملاً أساسيًا، ولكنه سيكون مفيدًا جدًا لفهم المبادئ الأساسية.
موارد إضافية:
دليل كامل للرياضيات والإحصاء لعلوم البيانات: إرشادات رائعة وغير مملة لمساعدتك على أن تصبح موجهاً بشكل جيد في مجالات الرياضيات والإحصاء
مقدمة إلى الإحصاء لعلوم البيانات: يساعد هذا البرنامج التعليمي في شرح نظرية الحد المركزي، ويغطي السكان والعينات، وتوزيع العينات، والحدس، ويحتوي على فيديو مفيد حتى تتمكن من مواصلة التعلم.
دليل شامل للمبتدئين للجبر الخطي لعلماء البيانات: كل ما تحتاج لمعرفته حول الجبر الخطي
الجبر الخطي لعلماء البيانات: مقالة رائعة للتعمق في شرح سريع للأساسيات.
في الواقع، ستكون الميزة الكبيرة هي التعرف على أساسيات البرمجة على الفور. ولكن نظرًا لأن هذه عملية تستغرق وقتًا طويلاً جدًا، فيمكنك تبسيط هذه المهمة قليلاً. كيف؟ كل شيء بسيط. ابدأ في تعلم لغة واحدة وركز على جميع الفروق الدقيقة في البرمجة من خلال بناء جملة تلك اللغة.
But still, it is difficult to do without some kind of general guide. For this reason, I recommend paying attention to this article: Software Development Skills for Data Scientists: Amazing article about important soft skills for programming practice.
على سبيل المثال، أنصحك بالاهتمام ببايثون. أولاً، إنه مثالي للمبتدئين للتعلم، فهو يحتوي على بناء جملة بسيط نسبيًا. ثانيا، تجمع بايثون بين الطلب على المتخصصين وهي متعددة الوظائف.
But if these statements don't tell you anything, read more about it here: Python vs R. Choosing the Best Tool for AI, ML & Data Science. Time is a precious resource, so it's better not to disintegrate at once and not just waste it.
فكيف تتعلم بايثون؟
إذا لم يكن لديك أي فهم للبرمجة، أنصحك بقراءة Automate the Boring Stuff With Python. يقدم الكتاب شرح البرمجة العملية للمبتدئين والتدريس من الصفر. اقرأ الفصل السادس، "التلاعب بالسلاسل"، وأكمل المهام العملية لهذا الدرس. سيكون ذلك كافيا.
فيما يلي بعض الموارد الرائعة الأخرى التي يمكنك استكشافها:
Codecademy - يعلم بناء الجملة العام الجيد
تعلم Python بالطريقة الصعبة - وهو كتاب رائع يشبه الدليل يشرح الأساسيات والتطبيقات الأكثر تعقيدًا.
Dataquest - يقوم هذا المورد بتدريس بناء الجملة وفي الوقت نفسه تدريس علم البيانات
دروس بايثون – الوثائق الرسمية
تعلم بايثون بالتفصيل
بعد أن تتعلم أساسيات لغة بايثون، ستحتاج إلى قضاء بعض الوقت في التعرف على المكتبات الرئيسية.
Machine learning allows you to train computers to act independently so that we do not have to write detailed instructions for performing certain tasks. For this reason, machine learning is of great value for almost any area, but first of all, of course, it will work well where there is Data Science.
أول شيء أو الخطوة الأولى في تعلم ML هي مجموعاتها الثلاث الرئيسية:
يعد التعلم الخاضع للإشراف الآن هو الشكل الأكثر تطوراً لتعلم الآلة. الفكرة هنا هي أن لديك بيانات تاريخية مع فكرة ما عن متغير الإخراج. يُقصد بمتغير الإخراج التعرف على كيفية الجمع الجيد بين العديد من متغيرات الإدخال وقيم الإخراج المقابلة كبيانات تاريخية مقدمة لك ثم بناءً على ذلك تحاول التوصل إلى وظيفة قادرة على التنبؤ بالمخرجات في ضوء أي مدخلات. لذا، فإن الفكرة الأساسية هي تصنيف البيانات التاريخية. المسمى يعني أن لديك قيمة إخراج محددة لكل صف من البيانات المقدمة إليه⠀ PS. في حالة متغير الإخراج، إذا كان متغير الإخراج متحفظا، فإنه يسمى التصنيف. وإذا كان مستمرا يسمى تراجعا
2) Unsupervised learning doesn't have the luxury of having labeled historical data input-output. Instead, we can only say that it has a whole bunch of input data, RAW INPUT DATA. It allows us to identify what is known as patterns in the historical input data and interesting insights from the overall perspective. So, the output here is absent and all you need to understand is that is there a pattern being visible in the unsupervised set of input. The beauty of unsupervised learning is that it lends itself to numerous combinations of patterns, that's why unsupervised algorithms are harder.
يحدث التعلم المعزز عندما تقدم للخوارزمية أمثلة تفتقر إلى التصنيفات، كما هو الحال في التعلم غير الخاضع للإشراف. ومع ذلك، يمكنك إرفاق مثال بتعليقات إيجابية أو سلبية وفقًا للحل الذي تقترحه الخوارزمية. يرتبط RL بالتطبيقات التي يجب أن تتخذ الخوارزمية قرارات بشأنها، وتتحمل القرارات عواقب. إنه مثل التعلم عن طريق التجربة والخطأ. أحد الأمثلة المثيرة للاهتمام على RL يحدث عندما تتعلم أجهزة الكمبيوتر تشغيل ألعاب الفيديو بنفسها. حسنًا، الآن أنت تعرف أساسيات تعلم الآلة. بعد ذلك، من الواضح أنك بحاجة إلى معرفة المزيد. فيما يلي موارد رائعة لاستكشافها لهذا الغرض:
خوارزميات التعلم الآلي الخاضعة للإشراف وغير الخاضعة للإشراف: تفسيرات واضحة وموجزة لأنواع خوارزميات التعلم الآلي. تصور التعلم الآلي: تصور ممتاز يرشدك إلى كيفية استخدام التعلم الآلي بالضبط.
يعد التنقيب في البيانات عملية تحليلية مهمة مصممة لاستكشاف البيانات. إنها عملية تحليل الأنماط المخفية للبيانات وفقًا لوجهات نظر مختلفة لتصنيفها إلى معلومات مفيدة، والتي يتم جمعها وتجميعها في مناطق مشتركة، مثل مستودعات البيانات، من أجل التحليل الفعال وخوارزميات استخراج البيانات وتسهيل اتخاذ القرارات التجارية ومتطلبات المعلومات الأخرى لخفض التكاليف في نهاية المطاف وزيادة الإيرادات.
الموارد اللازمة لإتقان استخراج البيانات:
كيف يعمل التنقيب عن البيانات - فيديو رائع مع أفضل شرح وجدته حتى الآن "عمل البواب" هو عقبة رئيسية أمام الرؤى: مقالة مثيرة للاهتمام تتناول التفاصيل فيما يتعلق بأهمية ممارسات التنقيب عن البيانات في مجال علم البيانات.
تصور البيانات هو مصطلح عام يصف الجهد المبذول لمساعدة الأشخاص على فهم أهمية البيانات من خلال وضعها في سياق مرئي.
الموارد اللازمة لإتقان تصور البيانات:
دليل المبتدئين لتصور البيانات
ما الذي يجعل تصور البيانات جيدًا
إن دراسة النظرية فقط ليست مثيرة للاهتمام للغاية، فأنت بحاجة إلى تجربة يدك في الممارسة العملية. لدى المبتدئين في Data Scientist بعض الخيارات الجيدة لهذا:
Use Kaggle, a website dedicated to Data Science. It constantly hosts data analysis competitions in which you can take part. There are also a large number of open data sets that you can analyze and publish your results. In addition, you can watch scripts published by other participants (on Kaggle, such scripts are called Kernels) and learn from successful experience.
بعد أن تدرس كل ما تحتاجه لتحليل البيانات وتجربة المهام والمسابقات المفتوحة، ثم ابدأ في البحث عن وظيفة. بالطبع، سوف تقول أشياء جيدة فقط، ولكن لديك الحق في الشك في كلماتك. بعد ذلك سوف تظهر تأكيدات مستقلة، على سبيل المثال:
Advanced profile on Kaggle. Kaggle has a ranks system, you can go through the steps from beginner to grandmaster. For successful participation in competitions, the publication of scripts and discussions, you can get points that allow you to raise the rating. In addition, the site shows in what competitions you participated, and what are your results.
يمكن نشر برامج تحليل البيانات على GitHub أو غيرها من المستودعات المفتوحة، ثم يمكن لجميع المهتمين التعرف عليها. بما في ذلك ممثلو صاحب العمل الذين سيقومون بإجراء مقابلة معك.
Final Advice: Don't Be a Copy of a Copy, Find Your Own Way
الآن يمكن لأي شخص أن يصبح عالم بيانات. يوجد كل ما تحتاجه لهذا الغرض في المجال العام: الدورات التدريبية عبر الإنترنت والكتب والمسابقات لاكتساب الخبرة العملية وما إلى ذلك. إنها جيدة للوهلة الأولى، لكن لا يجب أن تتعلمها لمجرد الضجيج. كل ما نسمعه عن علم البيانات هو أمر رائع بشكل لا يصدق، وهي الوظيفة الأكثر جاذبية في القرن الحادي والعشرين. إذا كانت هذه الأشياء هي الدافع الرئيسي بالنسبة لك، فلن ينجح أي شيء على الإطلاق. الحقيقة المحزنة نعم وربما أبالغ قليلاً ولكن هذا ما أشعر به حيال ذلك. ما سأقوله الآن هو أن أن أصبح عالم بيانات عصاميًا هو أمر ممكن. ومع ذلك، فإن مفتاح نجاحك هو وجود حافز كبير لإيجاد الوقت بانتظام لدراسة تحليل البيانات وتطبيقها العملي. والأهم من ذلك، عليك أن تتعلم كيف تحصل على الرضا في عملية التعلم والعمل.
فكر في الأمر.
حظ سعيد!
لا تتردد في مشاركة أفكارك وأفكارك.
تحميل للتقرير.
نحو علم البيانات
ريبو علوم البيانات - تقرير مفصل عن التحليل
استنساخ هذا المستودع:
استنساخ بوابة https://github.com/iamsivab/Data-Science-Resources.git
تحقق من أي مشكلة من هنا.
قم بإجراء التغييرات وأرسل طلب السحب.
؟ لا تتردد في الاتصال بي @ [email protected]
معهد ماساتشوستس للتكنولوجيا © سيفاسوبرامانيان