#Self- Learning
#Guide for Beginners
#Self Learning
#Python
#LearnDataScience
#Machcine Learning
Secara umum, Ilmu Data bukanlah suatu bidang tertentu atau satu bidang saja, ini seperti kombinasi berbagai disiplin ilmu yang berfokus pada analisis data dan menemukan solusi terbaik berdasarkan bidang tersebut. Awalnya, tugas-tugas tersebut dipegang oleh pakar matematika atau statistik, namun kemudian pakar data mulai menggunakan pembelajaran mesin dan kecerdasan buatan, yang menambahkan pengoptimalan dan ilmu komputer sebagai metode untuk menganalisis data. Pendekatan baru ini ternyata jauh lebih cepat dan efektif, sehingga sangat populer.
Secara keseluruhan, popularitas Ilmu Data terletak pada fakta bahwa ia mencakup pengumpulan sejumlah besar data terstruktur dan tidak terstruktur serta konversinya ke dalam format yang dapat dibaca manusia, termasuk visualisasi, bekerja dengan statistik, dan metode analisis — mesin dan mendalam. pembelajaran, analisis probabilitas dan model prediktif, jaringan saraf dan penerapannya untuk memecahkan masalah aktual.
Kecerdasan Buatan, Pembelajaran Mesin, Pembelajaran Mendalam, dan Ilmu Data — tidak diragukan lagi, istilah-istilah utama ini adalah yang paling populer saat ini. Dan meskipun mereka saling berkaitan, mereka tidaklah sama. Jadi, sebelum terjun ke salah satu ranah tersebut, wajib untuk merasakan perbedaannya.
Kecerdasan Buatan adalah bidang yang berfokus pada penciptaan mesin cerdas yang bekerja dan bereaksi seperti manusia. AI sebagai studi dimulai pada tahun 1936 ketika Alan Turing membangun mesin bertenaga AI pertama. Meski memiliki sejarah yang cukup panjang, saat ini AI di sebagian besar wilayah belum mampu sepenuhnya menggantikan manusia. Dan persaingan AI dengan manusia dalam catur, dan enkripsi data adalah dua sisi dari mata uang yang sama.
Machine learning is a creating tool for extracting knowledge from data. In ML models can be trained on data independently or in stages: training with a teacher, that is, having human-prepared data or training without a teacher, working with spontaneous, noisy data.
Pembelajaran mendalam adalah penciptaan jaringan saraf multi-lapis di area yang memerlukan analisis lebih maju atau cepat dan pembelajaran mesin tradisional tidak dapat mengatasinya. “Kedalaman” menyediakan lebih dari satu lapisan neuron tersembunyi dalam jaringan yang melakukan perhitungan matematis.
Big Data — work with huge amounts of often unstructured data. The specifics of the sphere are tools and systems capable of withstanding high loads.
Ilmu Data adalah penambahan makna pada rangkaian data, visualisasi, pengumpulan wawasan, dan pengambilan keputusan berdasarkan data tersebut. Spesialis lapangan menggunakan beberapa metode pembelajaran mesin dan Big Data — komputasi awan, alat untuk menciptakan lingkungan pengembangan virtual, dan banyak lagi. Tugas Ilmu Data diringkas dengan baik oleh diagram Venn yang dibuat oleh Drew Conway:
Jadi, apa yang dilakukan Data Scientist?
Inilah semua yang perlu Anda ketahui tentangnya:
- detection of anomalies, for example, abnormal customer behavior, fraud; - personalized marketing — personal e-mail newsletters, retargeting, recommendation systems; - Metric forecasts — performance indicators, quality of advertising campaigns and other activities; - scoring systems — process large amounts of data and help to make a decision, for example, on granting a loan; - asic interaction with the client — standard answers in chat rooms, voice assistants, sorting letters into folders.
Untuk melakukan salah satu tugas di atas, Anda perlu mengikuti langkah-langkah tertentu:
- Collection Search for channels where you can collect data, and how to get it. - Check. Validation, pruning anomalies that do not affect the result and confuse with further analysis. - Analysis. The study of data, confirmation of assumptions, conclusions. - Visualization. Presentation in a form that will be simple and understandable for perception by a person — in graphs, diagrams. - Act. Making decisions based on the analyzed data, for example, about changing the marketing strategy, increasing the budget for any activity of the company.
Saat ini adalah waktunya untuk beralih ke hal-hal yang lebih rumit. Semua langkah di bawah ini mungkin akan terasa terlalu sulit, memakan waktu dan tenaga serta bla bla. Ya, jalan ini sulit jika Anda menganggapnya sebagai sesuatu yang dapat Anda pelajari dalam sebulan atau bahkan setahun. Anda harus mengakui fakta pembelajaran terus-menerus, fakta membuat langkah kecil setiap hari dan bersiap untuk melihat kesalahan, bersiap untuk mencoba lagi dan mengandalkan jangka panjang untuk menguasai bidang ini.
Jadi, apakah Anda benar-benar siap untuk hal ini? Jika iya, mari kita mulai.
“Data Scientist is a person who is better at statistics than any programmer and better at programming than any statistician.” Josh Wills
Jika kita berbicara secara umum tentang Ilmu Data, maka untuk pemahaman dan pekerjaan yang serius kita memerlukan kursus dasar dalam teori probabilitas (dan oleh karena itu, analisis matematika sebagai alat yang diperlukan dalam teori probabilitas), aljabar linier dan, tentu saja, statistik matematika. Pengetahuan dasar matematika penting untuk dapat menganalisis hasil penerapan algoritma pengolahan data. Ada beberapa contoh insinyur yang relatif kuat dalam pembelajaran mesin tanpa latar belakang seperti itu, namun ini merupakan pengecualian.
Jika pendidikan universitas masih menyisakan banyak kesenjangan, saya merekomendasikan buku The Elements of Statistical Learning karya Hastie, Tibshirani, dan Friedman. Dalam buku ini, bagian klasik pembelajaran mesin disajikan dalam bentuk statistik matematika dengan perhitungan matematis yang cermat. Meskipun terdapat banyak rumusan dan bukti matematis, semua metode disertai dengan contoh dan latihan praktis.
Buku terbaik saat ini untuk memahami prinsip matematika yang mendasari jaringan saraf - Pembelajaran Mendalam oleh Ian Goodfellow. Dalam pendahuluan, ada bagian lengkap tentang semua matematika yang diperlukan untuk pemahaman yang baik tentang jaringan saraf. Satu lagi referensi bagus adalah Neural Networks dan Deep Learning oleh Michael Nielsen — ini mungkin bukan karya mendasar, namun akan sangat berguna untuk memahami prinsip-prinsip dasar.
Sumber daya tambahan:
Panduan Lengkap Matematika Dan Statistik Untuk Ilmu Data: panduan keren dan tidak membosankan untuk membantu Anda menjadi berorientasi baik di bidang matematika dan statistik
Pengantar Statistika untuk Ilmu Data: Tutorial ini membantu menjelaskan teorema limit pusat, meliputi populasi dan sampel, distribusi sampling, intuisi, dan berisi video yang bermanfaat agar Anda dapat melanjutkan pembelajaran.
Panduan pemula yang komprehensif tentang Aljabar Linier untuk Ilmuwan Data: Segala sesuatu yang perlu Anda ketahui tentang Aljabar Linier
Aljabar Linier untuk Ilmuwan Data: Artikel luar biasa untuk memahami dasar-dasarnya dengan cepat.
Faktanya, keuntungan besar adalah segera mengenal dasar-dasar pemrograman. Namun karena ini adalah proses yang sangat memakan waktu, Anda dapat menyederhanakan tugas ini sedikit. Bagaimana? Semuanya sederhana. Mulailah belajar satu bahasa dan fokus pada semua nuansa pemrograman melalui sintaks bahasa tersebut.
But still, it is difficult to do without some kind of general guide. For this reason, I recommend paying attention to this article: Software Development Skills for Data Scientists: Amazing article about important soft skills for programming practice.
Misalnya, saya menyarankan Anda untuk memperhatikan Python. Pertama, ini sempurna untuk dipelajari pemula, karena memiliki sintaks yang relatif sederhana. Kedua, Python menggabungkan permintaan akan spesialis dan multifungsi.
But if these statements don't tell you anything, read more about it here: Python vs R. Choosing the Best Tool for AI, ML & Data Science. Time is a precious resource, so it's better not to disintegrate at once and not just waste it.
Jadi bagaimana cara belajar Python?
Jika Anda tidak memiliki pemahaman pemrograman, saya sarankan membaca Mengotomatiskan Hal-Hal yang Membosankan Dengan Python. Buku ini menawarkan untuk menjelaskan pemrograman praktis untuk pemula dan mengajar dari awal. Baca Bab 6, “Manipulasi String,” dan selesaikan tugas praktis untuk pelajaran ini. Itu sudah cukup.
Berikut beberapa sumber bagus lainnya untuk dijelajahi:
Codecademy - mengajarkan sintaksis umum yang baik
Pelajari Python dengan Cara yang Sulit - buku seperti manual brilian yang menjelaskan dasar-dasar dan aplikasi yang lebih kompleks.
Dataquest - sumber daya ini mengajarkan sintaksis sekaligus mengajarkan ilmu data
Tutorial Python — dokumentasi resmi
Pelajari Python secara Detail
Setelah Anda mempelajari dasar-dasar Python, Anda perlu meluangkan waktu untuk mengenal perpustakaan utama.
Machine learning allows you to train computers to act independently so that we do not have to write detailed instructions for performing certain tasks. For this reason, machine learning is of great value for almost any area, but first of all, of course, it will work well where there is Data Science.
Hal pertama atau langkah pertama dalam mempelajari ML adalah tiga kelompok utamanya:
Supervised Learning kini menjadi bentuk ML yang paling berkembang. Idenya di sini adalah Anda memiliki data historis dengan beberapa gagasan tentang variabel keluaran. Variabel Keluaran dimaksudkan untuk mengenali bagaimana Anda dapat menggabungkan beberapa variabel masukan dan nilai keluaran yang sesuai sebagai data historis yang disajikan kepada Anda dan kemudian berdasarkan itu Anda mencoba membuat fungsi yang mampu memprediksi keluaran dengan masukan apa pun. Jadi, gagasan utamanya adalah data historis diberi label. Berlabel berarti Anda memiliki nilai keluaran spesifik untuk setiap baris data, yang disajikan padanya⠀ PS. dalam hal variabel keluaran, jika variabel keluarannya bersifat rahasia disebut KLASIFIKASI. Dan jika terus menerus disebut REGRESI
2) Unsupervised learning doesn't have the luxury of having labeled historical data input-output. Instead, we can only say that it has a whole bunch of input data, RAW INPUT DATA. It allows us to identify what is known as patterns in the historical input data and interesting insights from the overall perspective. So, the output here is absent and all you need to understand is that is there a pattern being visible in the unsupervised set of input. The beauty of unsupervised learning is that it lends itself to numerous combinations of patterns, that's why unsupervised algorithms are harder.
Pembelajaran penguatan terjadi ketika Anda menyajikan algoritma dengan contoh-contoh yang tidak memiliki label, seperti dalam pembelajaran tanpa pengawasan. Namun, Anda dapat menyertakan contoh dengan umpan balik positif atau negatif sesuai dengan solusi yang diusulkan algoritma. RL terhubung ke aplikasi yang algoritmanya harus membuat keputusan, dan keputusan tersebut membawa konsekuensi. Ini seperti belajar dengan coba-coba. Contoh menarik dari RL terjadi ketika komputer belajar bermain video game sendiri. Jadi oke, sekarang Anda sudah tahu dasar-dasar ML. Setelah ini, Anda jelas perlu belajar lebih banyak. Berikut adalah sumber daya yang bagus untuk dijelajahi untuk tujuan ini:
Algoritma Pembelajaran Mesin yang Diawasi dan Tanpa Pengawasan: Penjelasan yang jelas dan ringkas tentang jenis-jenis algoritma pembelajaran mesin. Visualisasi Pembelajaran Mesin: Visualisasi luar biasa yang memandu Anda memahami dengan tepat bagaimana pembelajaran mesin digunakan.
Data Mining adalah proses analitik penting yang dirancang untuk mengeksplorasi data. Ini adalah proses menganalisis pola data yang tersembunyi menurut perspektif berbeda untuk dikategorikan menjadi informasi berguna, yang dikumpulkan dan dikumpulkan di area umum, seperti gudang data, untuk analisis yang efisien, algoritme penambangan data, memfasilitasi pengambilan keputusan bisnis, dan kebutuhan informasi lainnya. untuk pada akhirnya memotong biaya dan meningkatkan pendapatan.
Sumber daya untuk menguasai Data Mining:
Cara kerja penambangan data — video bagus dengan penjelasan terbaik yang saya temukan sejauh ini 'Pekerjaan Petugas Kebersihan' adalah Rintangan Utama untuk Mendapatkan Wawasan: Artikel menarik yang menjelaskan secara rinci mengenai pentingnya praktik penambangan data di bidang ilmu data.
Visualisasi Data adalah istilah umum yang menggambarkan upaya membantu orang memahami pentingnya data dengan menempatkannya dalam konteks visual.
Sumber daya untuk menguasai Visualisasi Data:
Panduan pemula visualisasi data
Apa yang Membuat Visualisasi Data Bagus
Mempelajari teorinya saja tidak terlalu menarik, Anda perlu mencoba praktiknya. Pemula Data Scientist memiliki beberapa opsi bagus untuk ini:
Use Kaggle, a website dedicated to Data Science. It constantly hosts data analysis competitions in which you can take part. There are also a large number of open data sets that you can analyze and publish your results. In addition, you can watch scripts published by other participants (on Kaggle, such scripts are called Kernels) and learn from successful experience.
Setelah Anda mempelajari semua yang Anda perlukan untuk menganalisis data dan mencoba tugas terbuka dan kontes, kemudian mulailah mencari pekerjaan. Tentu saja, Anda hanya akan mengatakan hal-hal yang baik, tetapi Anda berhak meragukan kata-kata Anda. Kemudian Anda akan menunjukkan konfirmasi independen, misalnya:
Advanced profile on Kaggle. Kaggle has a ranks system, you can go through the steps from beginner to grandmaster. For successful participation in competitions, the publication of scripts and discussions, you can get points that allow you to raise the rating. In addition, the site shows in what competitions you participated, and what are your results.
Program analisis data dapat dipublikasikan di GitHub atau repositori terbuka lainnya, kemudian semua pihak yang berkepentingan dapat mengenalnya. Termasuk perwakilan pemberi kerja yang akan melakukan wawancara dengan Anda.
Final Advice: Don't Be a Copy of a Copy, Find Your Own Way
Sekarang siapa pun bisa menjadi Data Scientist. Semua yang Anda butuhkan tersedia di domain publik: kursus online, buku, kompetisi untuk mendapatkan pengalaman praktis, dan sebagainya. Ini bagus untuk pandangan pertama, tetapi Anda tidak boleh mempelajarinya hanya karena hype. Semua yang kita dengar tentang Ilmu Data sangat keren dan merupakan pekerjaan paling seksi di abad ke-21. Jika hal-hal ini adalah motivasi utama Anda, tidak akan ada yang berhasil. Sungguh menyedihkan ya dan mungkin saya sedikit melebih-lebihkan tapi itulah yang saya rasakan tentang hal itu. Apa yang ingin saya katakan sekarang adalah menjadi Ilmuwan Data otodidak itu mungkin. Namun, kunci kesuksesan Anda adalah motivasi yang tinggi untuk rutin meluangkan waktu mempelajari analisis data dan penerapan praktisnya. Yang terpenting, Anda harus belajar untuk mendapatkan kepuasan dalam proses belajar dan bekerja.
Pikirkan tentang hal ini.
Semoga beruntung!
Jangan ragu untuk berbagi ide dan pemikiran Anda.
Unduh untuk laporannya.
Menuju Ilmu Data
Repo Ilmu Data - Laporan Mendetail tentang Analisis
Kloning repositori ini:
git klon https://github.com/iamsivab/Data-Science-Resources.git
Lihat masalah apa pun dari sini.
Lakukan perubahan dan kirim Permintaan Tarik.
? Jangan ragu untuk menghubungi saya @ [email protected]
MIT © Sivasubramanian