#Self- Learning
#Guide for Beginners
#Self Learning
#Python
#LearnDataScience
#Machcine Learning
โดยทั่วไปแล้ว Data Science ไม่ใช่ขอบเขตที่แน่นอนหรือขอบเขตเดียว มันเหมือนกับการผสมผสานของสาขาวิชาต่างๆ ที่เน้นไปที่การวิเคราะห์ข้อมูลและค้นหาวิธีแก้ปัญหาที่ดีที่สุดจากข้อมูลเหล่านั้น ในตอนแรก งานเหล่านั้นดำเนินการโดยผู้เชี่ยวชาญด้านคณิตศาสตร์หรือสถิติ แต่จากนั้นผู้เชี่ยวชาญด้านข้อมูลก็เริ่มใช้การเรียนรู้ของเครื่องและปัญญาประดิษฐ์ ซึ่งเพิ่มการปรับให้เหมาะสมและวิทยาการคอมพิวเตอร์เป็นวิธีการวิเคราะห์ข้อมูล วิธีการใหม่นี้กลายเป็นวิธีการที่รวดเร็วและมีประสิทธิภาพมากและได้รับความนิยมอย่างมาก
โดยรวมแล้ว ความนิยมของ Data Science นั้นครอบคลุมถึงการรวบรวมข้อมูลที่มีโครงสร้างและไม่มีโครงสร้างจำนวนมาก และการแปลงเป็นรูปแบบที่มนุษย์สามารถอ่านได้ รวมถึงการแสดงภาพ การทำงานกับสถิติ และวิธีการวิเคราะห์ ทั้งแบบเครื่องจักรและเชิงลึก การเรียนรู้ การวิเคราะห์ความน่าจะเป็นและแบบจำลองการทำนาย โครงข่ายประสาทเทียม และการประยุกต์เพื่อแก้ไขปัญหาที่เกิดขึ้นจริง
ปัญญาประดิษฐ์ การเรียนรู้ของเครื่อง การเรียนรู้เชิงลึก และวิทยาศาสตร์ข้อมูล ไม่ต้องสงสัยเลยว่าคำศัพท์สำคัญเหล่านี้ได้รับความนิยมมากที่สุดในปัจจุบัน และถึงแม้จะเกี่ยวข้องกัน แต่ก็ไม่เหมือนกัน ดังนั้นก่อนที่จะกระโดดเข้าสู่อาณาจักรเหล่านั้น จำเป็นต้องรู้สึกถึงความแตกต่างก่อน
ปัญญาประดิษฐ์เป็นขอบเขตที่มุ่งเน้นไปที่การสร้างเครื่องจักรอัจฉริยะที่ทำงานและตอบสนองได้เหมือนมนุษย์ การศึกษาเรื่อง AI ย้อนกลับไปในปี 1936 เมื่อ Alan Turing สร้างเครื่องจักรที่ขับเคลื่อนด้วย AI เครื่องแรก แม้จะมีประวัติศาสตร์อันยาวนาน แต่ในปัจจุบัน AI ในพื้นที่ส่วนใหญ่ยังไม่สามารถแทนที่มนุษย์ได้อย่างสมบูรณ์ และการแข่งขันระหว่าง AI กับมนุษย์ในหมากรุก และการเข้ารหัสข้อมูลเป็นสองด้านของเหรียญเดียวกัน
Machine learning is a creating tool for extracting knowledge from data. In ML models can be trained on data independently or in stages: training with a teacher, that is, having human-prepared data or training without a teacher, working with spontaneous, noisy data.
การเรียนรู้เชิงลึกคือการสร้างโครงข่ายประสาทเทียมหลายชั้นในพื้นที่ที่จำเป็นต้องมีการวิเคราะห์ขั้นสูงหรือรวดเร็วยิ่งขึ้น และการเรียนรู้ของเครื่องแบบเดิมไม่สามารถรองรับได้ “ความลึก” ให้เซลล์ประสาทที่ซ่อนอยู่มากกว่าหนึ่งชั้นในเครือข่ายที่ทำการคำนวณทางคณิตศาสตร์
Big Data — work with huge amounts of often unstructured data. The specifics of the sphere are tools and systems capable of withstanding high loads.
วิทยาศาสตร์ข้อมูลเป็นการเพิ่มความหมายให้กับอาร์เรย์ของข้อมูล การแสดงภาพ การรวบรวมข้อมูลเชิงลึก และการตัดสินใจโดยอาศัยข้อมูลเหล่านี้ ผู้เชี่ยวชาญภาคสนามใช้วิธีการบางอย่างของการเรียนรู้ของเครื่องและข้อมูลขนาดใหญ่ เช่น การประมวลผลแบบคลาวด์ เครื่องมือสำหรับการสร้างสภาพแวดล้อมการพัฒนาเสมือนจริง และอื่นๆ อีกมากมาย งานของ Data Science สรุปได้ดีโดยแผนภาพเวนน์ที่สร้างโดย Drew Conway:
แล้ว Data Scientist ทำหน้าที่อะไร?
นี่คือทั้งหมดที่คุณต้องรู้เกี่ยวกับเรื่องนี้:
- detection of anomalies, for example, abnormal customer behavior, fraud; - personalized marketing — personal e-mail newsletters, retargeting, recommendation systems; - Metric forecasts — performance indicators, quality of advertising campaigns and other activities; - scoring systems — process large amounts of data and help to make a decision, for example, on granting a loan; - asic interaction with the client — standard answers in chat rooms, voice assistants, sorting letters into folders.
หากต้องการทำงานใดๆ ข้างต้น คุณต้องปฏิบัติตามขั้นตอนบางประการ:
- Collection Search for channels where you can collect data, and how to get it. - Check. Validation, pruning anomalies that do not affect the result and confuse with further analysis. - Analysis. The study of data, confirmation of assumptions, conclusions. - Visualization. Presentation in a form that will be simple and understandable for perception by a person — in graphs, diagrams. - Act. Making decisions based on the analyzed data, for example, about changing the marketing strategy, increasing the budget for any activity of the company.
ตอนนี้เป็นเวลาที่จะก้าวไปสู่สิ่งที่ซับซ้อนมากขึ้น ขั้นตอนทั้งหมดด้านล่างนี้อาจจะดูยากเกินไป เปลืองเวลาและพลังงาน บลา บลา ใช่แล้ว เส้นทางนี้ยากหากคุณมองว่าเป็นสิ่งที่คุณสามารถเรียนรู้ได้ภายในหนึ่งเดือนหรือหนึ่งปีด้วยซ้ำ คุณควรยอมรับความจริงของการเรียนรู้อย่างต่อเนื่อง ความจริงที่ว่าการก้าวเดินของทารกทุกวัน และพร้อมที่จะมองเห็นข้อผิดพลาด พร้อมที่จะลองอีกครั้ง และไว้วางใจในการเรียนรู้สาขานี้เป็นระยะเวลานาน
คุณพร้อมสำหรับสิ่งนี้แล้วหรือยัง? ถ้าเป็นเช่นนั้นเรามาม้วนกัน
“Data Scientist is a person who is better at statistics than any programmer and better at programming than any statistician.” Josh Wills
หากเราพูดถึง Data Science โดยทั่วไป เพื่อความเข้าใจที่จริงจังและการทำงาน เราจำเป็นต้องมีหลักสูตรพื้นฐานในทฤษฎีความน่าจะเป็น (และด้วยเหตุนี้ การวิเคราะห์ทางคณิตศาสตร์จึงเป็นเครื่องมือที่จำเป็นในทฤษฎีความน่าจะเป็น) พีชคณิตเชิงเส้น และแน่นอน สถิติทางคณิตศาสตร์ ความรู้ทางคณิตศาสตร์ขั้นพื้นฐานมีความสำคัญเพื่อให้สามารถวิเคราะห์ผลลัพธ์ของการประยุกต์ใช้อัลกอริธึมการประมวลผลข้อมูลได้ มีตัวอย่างของวิศวกรที่ค่อนข้างแข็งแกร่งในด้านแมชชีนเลิร์นนิงที่ไม่มีพื้นฐานดังกล่าว แต่นี่เป็นข้อยกเว้น
หากการศึกษาในมหาวิทยาลัยทำให้เกิดช่องว่างมากมาย ฉันขอแนะนำหนังสือ The Elements of Statistical Learning โดย Hastie, Tibshirani และ Friedman ในหนังสือเล่มนี้ ส่วนคลาสสิกของการเรียนรู้ของเครื่องจะถูกนำเสนอในแง่ของสถิติทางคณิตศาสตร์พร้อมการคำนวณทางคณิตศาสตร์ที่เข้มงวด แม้จะมีสูตรและหลักฐานทางคณิตศาสตร์มากมาย แต่วิธีการทั้งหมดก็มาพร้อมกับตัวอย่างและแบบฝึกหัดที่ใช้งานได้จริง
หนังสือที่ดีที่สุดในขณะนี้เพื่อทำความเข้าใจหลักการทางคณิตศาสตร์ที่เป็นรากฐานของโครงข่ายประสาทเทียม — Deep Learning โดย Ian Goodfellow ในบทนำ มีส่วนทั้งหมดเกี่ยวกับคณิตศาสตร์ทั้งหมดที่จำเป็นสำหรับความเข้าใจที่ดีเกี่ยวกับโครงข่ายประสาทเทียม ข้อมูลอ้างอิงที่ดีอีกประการหนึ่งคือ Neural Networks และ Deep Learning โดย Michael Nielsen นี่อาจไม่ใช่งานพื้นฐาน แต่จะมีประโยชน์มากสำหรับการทำความเข้าใจหลักการพื้นฐาน
แหล่งข้อมูลเพิ่มเติม:
คู่มือฉบับสมบูรณ์เกี่ยวกับคณิตศาสตร์และสถิติสำหรับวิทยาศาสตร์ข้อมูล: คำแนะนำแบบเจ๋งๆ และไม่น่าเบื่อที่จะช่วยให้คุณมีความมุ่งมั่นในขอบเขตของคณิตศาสตร์และสถิติ
ข้อมูลเบื้องต้นเกี่ยวกับสถิติสำหรับวิทยาศาสตร์ข้อมูล: บทช่วยสอนนี้จะช่วยอธิบายทฤษฎีบทขีดจำกัดศูนย์กลาง ซึ่งครอบคลุมประชากรและกลุ่มตัวอย่าง การกระจายตัวอย่าง สัญชาตญาณ และมีวิดีโอที่เป็นประโยชน์เพื่อให้คุณเรียนรู้ต่อได้
คู่มือเริ่มต้นที่ครอบคลุมเกี่ยวกับพีชคณิตเชิงเส้นสำหรับนักวิทยาศาสตร์ข้อมูล: ทุกสิ่งที่คุณจำเป็นต้องรู้เกี่ยวกับพีชคณิตเชิงเส้น
พีชคณิตเชิงเส้นสำหรับนักวิทยาศาสตร์ข้อมูล: บทความที่น่าทึ่งที่จะเจาะลึกความรู้พื้นฐานอย่างรวดเร็ว
ที่จริงแล้วข้อดีอย่างยิ่งคือการทำความคุ้นเคยกับพื้นฐานของการเขียนโปรแกรมทันที แต่เนื่องจากนี่เป็นกระบวนการที่ใช้เวลานานมาก คุณจึงสามารถลดความซับซ้อนของงานนี้ลงได้เล็กน้อย ยังไง? ทุกอย่างเรียบง่าย เริ่มเรียนรู้ภาษาเดียวและมุ่งเน้นไปที่ความแตกต่างของการเขียนโปรแกรมผ่านไวยากรณ์ของภาษานั้น
But still, it is difficult to do without some kind of general guide. For this reason, I recommend paying attention to this article: Software Development Skills for Data Scientists: Amazing article about important soft skills for programming practice.
ตัวอย่างเช่น ฉันขอแนะนำให้คุณใส่ใจกับ Python ประการแรก มันเหมาะสำหรับผู้เริ่มต้นในการเรียนรู้ มันมีไวยากรณ์ที่ค่อนข้างง่าย ประการที่สอง Python ผสมผสานความต้องการผู้เชี่ยวชาญและเป็นมัลติฟังก์ชั่น
But if these statements don't tell you anything, read more about it here: Python vs R. Choosing the Best Tool for AI, ML & Data Science. Time is a precious resource, so it's better not to disintegrate at once and not just waste it.
แล้วจะเรียนรู้ Python ได้อย่างไร?
หากคุณไม่มีความเข้าใจด้านการเขียนโปรแกรม ฉันแนะนำให้อ่าน Automate the Boring Stuff With Python หนังสือเล่มนี้นำเสนอการอธิบายการเขียนโปรแกรมเชิงปฏิบัติสำหรับผู้เริ่มต้นและสอนตั้งแต่เริ่มต้น อ่านบทที่ 6 “การจัดการเชือก” และทำภารกิจภาคปฏิบัติสำหรับบทเรียนนี้ให้เสร็จสิ้น นั่นก็จะเพียงพอแล้ว
ต่อไปนี้เป็นแหล่งข้อมูลดีๆ อื่นๆ ที่ควรสำรวจ:
Codecademy — สอนไวยากรณ์ทั่วไปที่ดี
Learn Python the Hard Way — หนังสือคล้ายคู่มือที่ยอดเยี่ยมที่อธิบายทั้งพื้นฐานและแอปพลิเคชันที่ซับซ้อนยิ่งขึ้น
Dataquest — แหล่งข้อมูลนี้สอนไวยากรณ์ในขณะเดียวกันก็สอนวิทยาศาสตร์ข้อมูลด้วย
Python Tutorial — เอกสารอย่างเป็นทางการ
เรียนรู้ Python แบบละเอียด
หลังจากที่คุณเรียนรู้พื้นฐานของ Python แล้ว คุณต้องใช้เวลาทำความรู้จักกับไลบรารีหลัก ๆ
Machine learning allows you to train computers to act independently so that we do not have to write detailed instructions for performing certain tasks. For this reason, machine learning is of great value for almost any area, but first of all, of course, it will work well where there is Data Science.
สิ่งแรกหรือขั้นตอนแรกในการเรียนรู้ ML คือกลุ่มหลักสามกลุ่ม:
Supervised Learning เป็นรูปแบบ ML ที่ได้รับการพัฒนามากที่สุด แนวคิดในที่นี้คือคุณมีข้อมูลในอดีตที่มีแนวคิดเกี่ยวกับตัวแปรเอาท์พุต ตัวแปรเอาท์พุตมีไว้สำหรับการจดจำวิธีที่คุณสามารถรวมตัวแปรอินพุตหลายตัวและค่าเอาต์พุตที่เกี่ยวข้องเข้าด้วยกันเป็นข้อมูลประวัติที่นำเสนอให้คุณได้อย่างไร จากนั้นขึ้นอยู่กับว่าคุณพยายามสร้างฟังก์ชันที่สามารถทำนายเอาต์พุตจากอินพุตใดๆ ก็ได้ ดังนั้น แนวคิดหลักก็คือข้อมูลในอดีตมีการติดป้ายกำกับไว้ ติดป้ายกำกับหมายความว่าคุณมีค่าเอาต์พุตเฉพาะสำหรับทุกๆ แถวของข้อมูลที่แสดงไว้⠀ ป.ล. ในกรณีของตัวแปรเอาท์พุต ถ้าตัวแปรเอาท์พุตเป็นแบบสุขุมจะเรียกว่า CLASSIFICATION และถ้ามันต่อเนื่องกันจะเรียกว่า REGRESSION
2) Unsupervised learning doesn't have the luxury of having labeled historical data input-output. Instead, we can only say that it has a whole bunch of input data, RAW INPUT DATA. It allows us to identify what is known as patterns in the historical input data and interesting insights from the overall perspective. So, the output here is absent and all you need to understand is that is there a pattern being visible in the unsupervised set of input. The beauty of unsupervised learning is that it lends itself to numerous combinations of patterns, that's why unsupervised algorithms are harder.
การเรียนรู้แบบเสริมกำลังเกิดขึ้นเมื่อคุณนำเสนออัลกอริทึมพร้อมตัวอย่างที่ไม่มีป้ายกำกับ เช่น ในการเรียนรู้แบบไม่มีผู้ดูแล อย่างไรก็ตาม คุณสามารถติดตามตัวอย่างพร้อมกับผลตอบรับเชิงบวกหรือเชิงลบตามโซลูชันที่อัลกอริทึมเสนอ RL เชื่อมต่อกับแอปพลิเคชันที่อัลกอริธึมต้องทำการตัดสินใจ และการตัดสินใจจะมีผลตามมา มันก็เหมือนกับการเรียนรู้จากการลองผิดลองถูก ตัวอย่างที่น่าสนใจของ RL เกิดขึ้นเมื่อคอมพิวเตอร์เรียนรู้ที่จะเล่นวิดีโอเกมด้วยตัวเอง เอาล่ะ ตอนนี้คุณรู้พื้นฐานของ ML แล้ว หลังจากนี้ คุณจะต้องเรียนรู้เพิ่มเติมอย่างชัดเจน ต่อไปนี้เป็นแหล่งข้อมูลที่ดีในการสำรวจเพื่อจุดประสงค์นี้:
อัลกอริธึมการเรียนรู้ของเครื่องแบบมีผู้ดูแลและไม่ได้รับการดูแล: คำอธิบายที่ชัดเจนและกระชับเกี่ยวกับประเภทของอัลกอริทึมการเรียนรู้ของเครื่อง การแสดงภาพการเรียนรู้ของเครื่อง: การแสดงภาพที่ยอดเยี่ยมซึ่งจะอธิบายวิธีการใช้การเรียนรู้ของเครื่องอย่างละเอียด
การทำเหมืองข้อมูลเป็นกระบวนการวิเคราะห์ที่สำคัญซึ่งออกแบบมาเพื่อสำรวจข้อมูล เป็นกระบวนการวิเคราะห์รูปแบบข้อมูลที่ซ่อนอยู่ตามมุมมองต่างๆ เพื่อจัดหมวดหมู่เป็นข้อมูลที่เป็นประโยชน์ซึ่งรวบรวมและรวบรวมไว้ในพื้นที่ทั่วไป เช่น คลังข้อมูล เพื่อการวิเคราะห์ที่มีประสิทธิภาพ อัลกอริธึมการขุดข้อมูล อำนวยความสะดวกในการตัดสินใจทางธุรกิจ และข้อกำหนดข้อมูลอื่นๆ เพื่อลดต้นทุนและเพิ่มรายได้ในที่สุด
แหล่งข้อมูลสำหรับการทำเหมืองข้อมูลหลัก:
วิธีการทำงานของการขุดข้อมูล - วิดีโอที่ยอดเยี่ยมพร้อมคำอธิบายที่ดีที่สุดที่ฉันพบจนถึงตอนนี้ 'งานภารโรง' คือกุญแจสำคัญสู่ข้อมูลเชิงลึก: บทความที่น่าสนใจที่ให้รายละเอียดเกี่ยวกับความสำคัญของแนวทางปฏิบัติในการขุดข้อมูลในสาขาวิทยาศาสตร์ข้อมูล
การแสดงข้อมูลเป็นคำทั่วไปที่อธิบายถึงความพยายามในการช่วยให้ผู้คนเข้าใจถึงความสำคัญของข้อมูลโดยการวางไว้ในบริบทที่เป็นภาพ
แหล่งข้อมูลสำหรับต้นแบบการแสดงข้อมูล:
คู่มือสำหรับผู้เริ่มต้นการแสดงภาพข้อมูล
อะไรทำให้การแสดงข้อมูลเป็นภาพที่ดี
การศึกษาเฉพาะทฤษฎีนั้นไม่น่าสนใจมากนัก คุณต้องลองฝึกฝนดู ผู้เริ่มต้น Data Scientist มีตัวเลือกที่ดีบางประการสำหรับสิ่งนี้:
Use Kaggle, a website dedicated to Data Science. It constantly hosts data analysis competitions in which you can take part. There are also a large number of open data sets that you can analyze and publish your results. In addition, you can watch scripts published by other participants (on Kaggle, such scripts are called Kernels) and learn from successful experience.
หลังจากที่คุณได้ศึกษาทุกสิ่งที่จำเป็นในการวิเคราะห์ข้อมูลแล้วลองทำงานที่เปิดอยู่และการแข่งขัน จากนั้นจึงเริ่มหางาน แน่นอนว่าคุณจะพูดแต่สิ่งดีๆ แต่คุณมีสิทธิ์ที่จะสงสัยคำพูดของคุณ จากนั้นคุณจะสาธิตการยืนยันที่เป็นอิสระ เช่น:
Advanced profile on Kaggle. Kaggle has a ranks system, you can go through the steps from beginner to grandmaster. For successful participation in competitions, the publication of scripts and discussions, you can get points that allow you to raise the rating. In addition, the site shows in what competitions you participated, and what are your results.
โปรแกรมวิเคราะห์ข้อมูลสามารถเผยแพร่บน GitHub หรือที่เก็บข้อมูลแบบเปิดอื่น ๆ จากนั้นผู้ที่สนใจสามารถทำความคุ้นเคยกับโปรแกรมเหล่านี้ได้ รวมถึงตัวแทนนายจ้างที่จะสัมภาษณ์คุณ
Final Advice: Don't Be a Copy of a Copy, Find Your Own Way
ตอนนี้ใครๆ ก็สามารถเป็น Data Scientist ได้ มีทุกสิ่งที่คุณต้องการสำหรับสิ่งนี้ในสาธารณสมบัติ: หลักสูตรออนไลน์ หนังสือ การแข่งขันเพื่อรับประสบการณ์ภาคปฏิบัติและอื่น ๆ เป็นการดีสำหรับการดูครั้งแรก แต่คุณไม่ควรเรียนรู้เพียงเพราะการโฆษณาเกินจริง ทั้งหมดที่เราได้ยินเกี่ยวกับ Data Science มันเจ๋งอย่างไม่น่าเชื่อและเป็นงานที่เซ็กซี่ที่สุดแห่งศตวรรษที่ 21 หากสิ่งเหล่านี้เป็นแรงจูงใจหลักสำหรับคุณ ก็จะไม่มีอะไรเกิดขึ้นได้ ความจริงที่น่าเศร้าใช่ และบางทีฉันอาจจะพูดเกินจริงไปนิดหน่อย แต่นั่นคือสิ่งที่ฉันรู้สึกเกี่ยวกับมัน สิ่งที่ฉันจะพูดตอนนี้คือการเป็น Data Scientist ที่เรียนรู้ด้วยตนเองนั้นเป็นไปได้ อย่างไรก็ตาม กุญแจสู่ความสำเร็จของคุณคือแรงจูงใจสูงในการหาเวลาศึกษาการวิเคราะห์ข้อมูลและการประยุกต์ใช้ในทางปฏิบัติเป็นประจำ สิ่งสำคัญที่สุดคือคุณต้องเรียนรู้เพื่อให้เกิดความพึงพอใจในกระบวนการเรียนรู้และการทำงาน
ลองคิดดูสิ
ขอให้โชคดี!
รู้สึกอิสระที่จะแบ่งปันความคิดและความคิดของคุณ
ดาวน์โหลดสำหรับรายงาน
สู่วิทยาการข้อมูล
Data Science Repo - รายงานโดยละเอียดเกี่ยวกับการวิเคราะห์
โคลนที่เก็บนี้:
โคลนคอมไพล์ https://github.com/iamsivab/Data-Science-Resources.git
ตรวจสอบปัญหาใด ๆ จากที่นี่
ทำการเปลี่ยนแปลงและส่งคำขอดึง
- โปรดติดต่อฉันได้ที่ @ [email protected]
MIT © Sivasubramanian