#Self- Learning
#Guide for Beginners
#Self Learning
#Python
#LearnDataScience
#Machcine Learning
嗯,一般來說,數據科學不是某個或單一的領域,它就像各種學科的組合,專注於分析數據並基於數據找到最佳解決方案。最初,這些任務由數學或統計專家承擔,但後來數據專家開始使用機器學習和人工智慧,其中增加了優化和電腦科學作為分析數據的方法。事實證明,這種新方法更快、更有效,因此非常受歡迎。
總而言之,資料科學的流行在於它涵蓋了大量結構化和非結構化資料的收集以及將它們轉換為人類可讀的格式,包括視覺化、使用統計和分析方法——機器和深度學習、機率分析和預測模型、神經網路及其在解決實際問題的應用。
人工智慧、機器學習、深度學習和資料科學——毫無疑問,這些主要術語是當今最受歡迎的。儘管它們在某種程度上有關聯,但它們並不相同。因此,在進入任何一個領域之前,必須先感受其中的差異。
人工智慧是一個專注於創造像人類一樣工作和反應的智慧機器的領域。人工智慧作為一項研究可以追溯到 1936 年,當時阿蘭·圖靈建造了第一台由人工智慧驅動的機器。儘管人工智慧已經有相當長的歷史,但今天在大多數領域還無法完全取代人類。而人工智慧與人類在西洋棋中的競爭和資料加密是同一枚硬幣的兩個面向。
Machine learning is a creating tool for extracting knowledge from data. In ML models can be trained on data independently or in stages: training with a teacher, that is, having human-prepared data or training without a teacher, working with spontaneous, noisy data.
深度學習是在需要更高級或快速分析而傳統機器學習無法應對的領域中創建多層神經網路。 「深度」在網路中提供了不只一層隱藏的神經元來進行數學計算。
Big Data — work with huge amounts of often unstructured data. The specifics of the sphere are tools and systems capable of withstanding high loads.
數據科學是為數據數組、視覺化、見解收集以及根據這些數據做出決策添加意義。領域專家使用一些機器學習和大數據的方法——雲端運算、創建虛擬開發環境的工具等等。 Drew Conway 創建的維恩圖很好地總結了數據科學的任務:
那麼資料科學家是做什麼的呢?
以下是您需要了解的全部資訊:
- detection of anomalies, for example, abnormal customer behavior, fraud; - personalized marketing — personal e-mail newsletters, retargeting, recommendation systems; - Metric forecasts — performance indicators, quality of advertising campaigns and other activities; - scoring systems — process large amounts of data and help to make a decision, for example, on granting a loan; - asic interaction with the client — standard answers in chat rooms, voice assistants, sorting letters into folders.
要執行上述任何任務,您需要遵循某些步驟:
- Collection Search for channels where you can collect data, and how to get it. - Check. Validation, pruning anomalies that do not affect the result and confuse with further analysis. - Analysis. The study of data, confirmation of assumptions, conclusions. - Visualization. Presentation in a form that will be simple and understandable for perception by a person — in graphs, diagrams. - Act. Making decisions based on the analyzed data, for example, about changing the marketing strategy, increasing the budget for any activity of the company.
現在是轉向更複雜的事情的時候了。下面的所有步驟可能看起來太難了,耗費時間和精力,等等。嗯,是的,如果你認為這條路是你可以在一個月甚至一年內學會的東西,那麼這條路是很難的。你應該承認不斷學習的事實,每天都在小步前進的事實,並準備好看到錯誤,準備好再次嘗試,並指望在很長一段時間內掌握這個領域。
那麼,你真的準備好接受這些東西了嗎?既然如此,那就滾吧。
“Data Scientist is a person who is better at statistics than any programmer and better at programming than any statistician.” Josh Wills
如果我們一般性地談論資料科學,那麼為了認真理解和工作,我們需要機率論(因此,數學分析作為機率論的必要工具)、線性代數,當然還有數理統計的基礎課程。為了能夠分析應用資料處理演算法的結果,基礎數學知識非常重要。有一些機器學習領域實力較強的工程師沒有這樣的背景的例子,但這只是例外。
如果大學教育留下了許多空白,我推薦 Hastie、Tibshirani 和 Friedman 寫的《統計學習的要素》一書。本書以數理統計的方式,透過嚴格的數學計算來呈現機器學習的經典章節。儘管有大量的數學公式和證據,但所有方法都附有實際範例和練習。
目前了解神經網路數學原理的最佳書籍——Ian Goodfellow 的《深度學習》。在引言中,有一個完整的部分介紹了很好地理解神經網路所需的所有數學知識。另一個很好的參考文獻是 Michael Nielsen 的《神經網路與深度學習》——這可能不是一本基礎著作,但對於理解基本原理非常有用。
其他資源:
數據科學數學和統計學完整指南:酷而不乏味的演練,幫助您在數學和統計學領域獲得良好的導向
資料科學統計簡介:本教學幫助解釋中心極限定理,涵蓋總體和样本、抽樣分佈、直覺,並包含一個有用的視頻,以便您可以繼續學習。
資料科學家線性代數綜合初學者指南:您需要了解的有關線性代數的一切
資料科學家的線性代數:精彩的文章,深入介紹了基礎知識的快速瀏覽。
事實上,一個很大的優勢是立即熟悉程式設計的基礎知識。但由於這是一個非常耗時的過程,因此您可以稍微簡化此任務。如何?一切都很簡單。開始學習一種語言,並透過該語言的語法專注於程式設計的所有細微差別。
But still, it is difficult to do without some kind of general guide. For this reason, I recommend paying attention to this article: Software Development Skills for Data Scientists: Amazing article about important soft skills for programming practice.
例如,我建議你關注Python。首先,它非常適合初學者學習,文法相對簡單。其次,Python結合了專家的需求,並且是多功能的。
But if these statements don't tell you anything, read more about it here: Python vs R. Choosing the Best Tool for AI, ML & Data Science. Time is a precious resource, so it's better not to disintegrate at once and not just waste it.
那麼該如何學習Python呢?
如果您沒有任何程式設計理解,我建議您閱讀使用 Python 自動處理無聊的事情。這本書為初學者解釋了實用的程式設計並從頭開始教學。閱讀第 6 章“字串操作”,並完成本課的實際任務。這就足夠了。
以下是一些其他值得探索的優質資源:
Codecademy — 教授良好的通用語法
Learn Python the Hard Way——一本精彩的類似手冊的書,解釋了基礎知識和更複雜的應用程式。
Dataquest — 此資源在教授文法的同時也教授資料科學
Python 教學 - 官方文檔
詳細學習Python
學習了 Python 基礎知識後,您需要花時間了解主要函式庫。
Machine learning allows you to train computers to act independently so that we do not have to write detailed instructions for performing certain tasks. For this reason, machine learning is of great value for almost any area, but first of all, of course, it will work well where there is Data Science.
學習 ML 的第一件事或第一步是它的三個主要組:
監督學習現在是機器學習最發達的形式。這裡的想法是,您擁有歷史資料以及輸出變數的一些概念。輸出變數旨在認識如何將多個輸入變數和相應的輸出值作為歷史資料呈現給您,然後基於此嘗試提出一個能夠在給定任何輸入的情況下預測輸出的函數。因此,關鍵思想是對歷史資料進行標記。帶標籤意味著每行資料都有一個特定的輸出值,呈現給它⠀ PS。對於輸出變數,如果輸出變數是離散的,則稱為分類。如果它是連續的,則稱為回歸
2) Unsupervised learning doesn't have the luxury of having labeled historical data input-output. Instead, we can only say that it has a whole bunch of input data, RAW INPUT DATA. It allows us to identify what is known as patterns in the historical input data and interesting insights from the overall perspective. So, the output here is absent and all you need to understand is that is there a pattern being visible in the unsupervised set of input. The beauty of unsupervised learning is that it lends itself to numerous combinations of patterns, that's why unsupervised algorithms are harder.
當您向演算法提供缺乏標籤的範例時(如無監督學習),就會發生強化學習。但是,您可以根據演算法提出的解決方案提供具有正回饋或負回饋的範例。強化學習與演算法必須做出決策的應用程式相關,並且決策會產生後果。這就像透過反覆試驗來學習一樣。當電腦學習自己玩電玩遊戲時,就會出現強化學習的一個有趣例子。好吧,現在您已經了解了 ML 的基礎知識。在此之後,您顯然需要了解更多。為此目的,可以探索以下資源:
有監督和無監督機器學習演算法:對機器學習演算法類型的清晰、簡潔的解釋。機器學習的視覺化:出色的視覺化,引導您準確了解機器學習的使用方式。
資料探勘是旨在探索資料的重要分析過程。它是根據不同角度分析資料的隱藏模式,分類為有用資訊的過程,這些資訊被收集並組裝在資料倉儲等公共區域中,以進行高效分析、資料探勘演算法、促進業務決策和其他資訊需求最終削減成本並增加收入。
掌握資料探勘的資源:
資料探勘的工作原理 - 迄今為止我發現的帶有最佳解釋的精彩視頻“看門人工作”是洞察力的關鍵障礙:有趣的文章,詳細介紹了數據科學領域中數據挖掘實踐的重要性。
資料視覺化是一個通用術語,描述了透過將資料置於視覺環境中來幫助人們理解資料的重要性的努力。
掌握數據視覺化的資源:
資料視覺化初學者指南
什麼是良好的數據視覺化
只學習理論不是很有趣,你需要嘗試實踐。資料科學家的初學者對此有一些不錯的選擇:
Use Kaggle, a website dedicated to Data Science. It constantly hosts data analysis competitions in which you can take part. There are also a large number of open data sets that you can analyze and publish your results. In addition, you can watch scripts published by other participants (on Kaggle, such scripts are called Kernels) and learn from successful experience.
在您學習分析資料所需的所有內容並嘗試完成開放任務和競賽之後,然後開始尋找工作。當然,你只會說好話,但你有權利懷疑你的話。然後您將演示獨立確認,例如:
Advanced profile on Kaggle. Kaggle has a ranks system, you can go through the steps from beginner to grandmaster. For successful participation in competitions, the publication of scripts and discussions, you can get points that allow you to raise the rating. In addition, the site shows in what competitions you participated, and what are your results.
數據分析程式可以發佈在GitHub或其他開放式儲存庫上,然後所有有興趣的人都可以熟悉它們。包括雇主代表,他們將與您進行面談。
Final Advice: Don't Be a Copy of a Copy, Find Your Own Way
現在任何人都可以成為資料科學家。公共領域提供了您所需的一切:線上課程、書籍、獲得實務經驗的競賽等等。乍一看很好,但你不應該僅僅因為炒作而學習它。我們所聽到的關於數據科學的一切都非常酷,而且是 21 世紀最性感的工作。如果這些事情是你的主要動機,那麼什麼都行不通。悲傷的事實是的,也許我有點誇張了,但這就是我的感覺。我現在要說的是,成為自學成才的資料科學家是可能的。然而,成功的關鍵是定期抽出時間學習數據分析及其實際應用的強烈動力。最重要的是,你要學習在學習和工作的過程中獲得滿足感。
想一想。
祝你好運!
請隨意分享您的想法和想法。
下載報告。
走向數據科學
Data Science Repo - 詳細的分析報告
克隆此存儲庫:
git 克隆 https://github.com/iamsivab/Data-Science-Resources.git
從這裡檢查任何問題。
進行變更並傳送 Pull 請求。
?請隨時聯絡我@[email protected]
麻省理工學院 © Sivasubramanian