一個不懂數學的人工智慧領域的人就像一個不懂得如何說服的政治人物。兩者都有一個不可避免的工作領域!
一週前,我寫了一篇關於 2021 年如何進入資料科學的文章,從那時起,我收到了來自世界各地的幾封電子郵件,詢問資料科學需要多少數學知識。
我不會撒謊:這涉及很多數學知識。
這也是許多初學者望而卻步的原因之一。經過大量研究並與該領域的幾位資深人士交談後,我編寫了這份嚴肅的指南,其中涵蓋了您需要了解的所有數學基礎知識。下面提到的概念通常會在大學的幾個學期中涵蓋,但我將它們歸結為您可以關注的核心原則。
對於初學者來說,本指南絕對是救星,因此您可以學習最重要的主題,對於像我這樣需要快速掌握這些概念的從業者來說,這也是更好的資源。
注意:您不需要了解所有概念(如下)才能獲得資料科學領域的第一份工作。您所需要的只是牢牢掌握基礎知識。專注於這些並鞏固它們。
一般來說,代數知識也許是數學的基礎。除了加法、減法、乘法和除法等數學運算之外,您還需要了解以下內容:
指數
激進派
階乘
總結
科學記數法
線性代數是人工智慧和許多科學與工程領域的主要數學計算工具。在此,需要理解 4 個主要數學物件及其屬性:
標量 - 單一數字(可以是實數或自然數)。
向量 - 依序排列的數字清單。將它們視為空間中的點,每個元素代表沿軸的座標。
矩陣 - 二維數字數組,其中每個數字由 2 個索引標識。
張量 - ND 數字數組 (N>2),排列在具有 N 軸的規則網格上。在機器學習、深度學習和電腦視覺中很重要
特徵向量和特徵值 - 特殊向量及其對應的標量。了解其重要性以及如何找到它們。
奇異值分解 - 將一個矩陣分解為 3 個矩陣。了解特性和應用。
主成分分析 (PCA) - 了解其意義、性質和應用。
了解點積、向量積和哈達瑪積等屬性也很有用。
微積分處理參數、函數、誤差和近似值的變化。多維微積分的應用知識在資料科學中是不可或缺的。以下是微積分中最重要的概念(儘管並非詳盡無遺):
導數 - 規則(加法、乘積、鍊式法則等)、雙曲導數(tanh、cosh 等)和偏導數。
向量/矩陣微積分 - 不同的導數算符(梯度、雅可比、海森和拉普拉斯)
梯度演算法 - 局部/全局最大值和最小值、鞍點、凸函數、批次和小批量、隨機梯度下降和性能比較。
基本統計 - 平均數、中位數、眾數、變異數、協方差等
機率的基本規則 - 事件(相關和獨立)、樣本空間、條件機率。
隨機變數 - 連續和離散、期望、變異、分佈(聯合和條件)。
貝葉斯定理 - 計算信念的有效性。貝葉斯軟體可幫助機器識別模式並做出決策。
最大似然估計 (MLE) - 參數估計。需要了解基本機率概念(聯合機率和事件獨立性)。
常見分佈 - 二項分佈、泊松分佈、伯努利分佈、高斯分佈、指數分佈。
這是一個對人工智慧和深度學習做出了重大貢獻的重要領域,但許多人還不知道。它可以被認為是微積分、統計和機率的結合。
熵 - 也稱為香農熵。用於測量實驗中的不確定性。
交叉熵 - 比較兩個機率分佈並告訴我們它們有多相似。
Kullback Leibler 散度 - 兩個機率分佈相似程度的另一種測量。
維特比演算法 - 廣泛應用於自然語言處理 (NLP) 和語音
編碼器-解碼器 - 用於機器翻譯 RNN 和其他模型。
在人工智慧中,數學非常重要。沒有它,就相當於沒有靈魂的人體。你可以將數學概念視為現收現付:每當出現一個外來概念時,抓住它併吞噬它!上面的指南提供了一個最小但全面的資源來理解人工智慧中的任何類型的主題或概念。
祝你好運!
如果您認為此路線圖可以改進,請提交包含任何更新的 PR 並提交任何問題。我們將繼續改進這一點,因此您可能需要考慮觀看/加註星標此存儲庫以便將來重新訪問它。
查看貢獻指南以了解如何更新路線圖。
打開帶有改進的拉取請求
討論問題中的想法
傳播這個詞
如有任何回饋請聯絡我們
該路線圖由 Jason Dsouza 創建,並根據 MIT 許可證公開發布。