示範深度學習功能的 IPython 筆記本。
其他 TensorFlow 教學:
筆記本 | 描述 |
---|---|
tsf 基礎知識 | 學習 TensorFlow 中的基本操作,這是一個來自 Google 的用於各種感知和語言理解任務的庫。 |
tsf-線性 | 在 TensorFlow 中實作線性迴歸。 |
tsf物流 | 在 TensorFlow 中實作邏輯迴歸。 |
tsf-nn | 在 TensorFlow 中實作最近鄰。 |
tsf-亞歷克斯 | 在 TensorFlow 中實作 AlexNet。 |
tsf-cnn | 在 TensorFlow 中實作卷積神經網路。 |
tsf-MLP | 在 TensorFlow 中實作多層感知器。 |
tsf-rnn | 在 TensorFlow 中實作循環神經網路。 |
tsf GPU | 了解 TensorFlow 中的基本多 GPU 運算。 |
tsf-gviz | 了解 TensorFlow 中的圖形視覺化。 |
tsf-lviz | 了解 TensorFlow 中的損失視覺化。 |
筆記本 | 描述 |
---|---|
tsf-非 mnist | 透過使用格式化資料集建立 pickle 來學習簡單的資料管理,以便在 TensorFlow 中進行訓練、開發和測試。 |
tsf 全連接 | 使用 TensorFlow 中的邏輯回歸和神經網路逐步訓練更深、更準確的模型。 |
tsf 正規化 | 透過訓練全連接網路來對 TensorFlow 中的 notMNIST 字元進行分類,探索正規化技術。 |
tsf 卷積 | 在 TensorFlow 中建立卷積神經網路。 |
tsf-word2vec | 在 TensorFlow 中使用 Text8 資料訓練 Skip-gram 模型。 |
TSF-LSTM | 在 TensorFlow 中透過 Text8 資料訓練 LSTM 字元模型。 |
筆記本 | 描述 |
---|---|
theano 介紹 | Theano 簡介,它允許您有效地定義、最佳化和評估涉及多維數組的數學表達式。它可以使用 GPU 並執行高效的符號微分。 |
理論掃描 | 學習掃描,一種在 Theano 圖中執行循環的機制。 |
神學論 | 在 Theano 中實現邏輯迴歸。 |
西亞諾-RNN | 在 Theano 中實現循環神經網路。 |
西亞諾-MLP | 在 Theano 中實作多層感知器。 |
筆記本 | 描述 |
---|---|
喀拉斯 | Keras 是一個用 Python 寫的開源神經網路函式庫。它能夠在 Tensorflow 或 Theano 之上運作。 |
設定 | 了解教學目標以及如何設定 Keras 環境。 |
深度學習神經網路介紹 | 了解 Keras 和人工神經網路 (ANN) 的深度學習簡介。 |
西亞諾 | 透過使用權重矩陣和梯度來了解 Theano。 |
克拉斯奧托 | 透過查看 Kaggle Otto 挑戰來了解 Keras。 |
安尼斯特 | 查看使用 Keras 的 MNIST 的 ANN 的簡單實作。 |
卷積網絡 | 使用 Keras 了解卷積神經網路 (CNN)。 |
轉換網路1 | 使用 Keras 辨識 MNIST 中的手寫數字 - 第 1 部分。 |
轉換網路2 | 使用 Keras 辨識 MNIST 中的手寫數字 - 第 2 部分。 |
keras-模型 | 將 VGG16、VGG19、ResNet50 和 Inception v3 等預訓練模型與 Keras 結合使用。 |
自動編碼器 | 使用 Keras 了解自動編碼器。 |
RNN-LSTM | 了解使用 Keras 的循環神經網路 (RNN)。 |
LSTM 句子生成 | 了解將長短期記憶 (LSTM) 網路與 Keras 結合使用的 RNN。 |
筆記本 | 描述 |
---|---|
深夢 | 基於 Caffe 的電腦視覺程序,使用卷積神經網路來尋找和增強影像中的模式。 |
示範 scikit-learn 功能的 IPython 筆記本。
筆記本 | 描述 |
---|---|
介紹 | scikit-learn 的筆記本介紹。 Scikit-learn 增加了對大型多維數組和矩陣的 Python 支持,以及用於對這些數組進行操作的大型高級數學函數庫。 |
克恩 | 在 scikit-learn 中實現 k 最近鄰。 |
線性調節 | 在 scikit-learn 中實現線性迴歸。 |
支援向量機 | 在 scikit-learn 中實作帶核和不帶核的支援向量機分類器。 |
隨機森林 | 在 scikit-learn 中實作隨機森林分類器和回歸器。 |
k-均值 | 在 scikit-learn 中實作 k-means 聚類。 |
多氯聯苯 | 在 scikit-learn 中實現主成分分析。 |
格姆 | 在 scikit-learn 中實作高斯混合模型。 |
驗證 | 在 scikit-learn 中實現驗證和模型選擇。 |
IPython 筆記本示範使用 SciPy 功能進行統計推論。
筆記本 | 描述 |
---|---|
scipy | SciPy 是基於 Python 的 Numpy 擴充功能所建構的數學演算法和便利函數的集合。它透過為使用者提供用於操作和視覺化資料的高級命令和類,為互動式 Python 會話增添了強大的功能。 |
效應大小 | 透過分析男性和女性的身高差異來探索量化效應大小的統計數據。使用行為風險因素監測系統 (BRFSS) 的數據來估計美國成年女性和男性身高的平均值和標準差。 |
取樣 | 使用 BRFSS 數據分析美國男性和女性的平均體重,探索隨機抽樣。 |
假設 | 透過分析第一胎嬰兒與其他嬰兒的差異來探索假設檢定。 |
示範 pandas 功能的 IPython 筆記本。
筆記本 | 描述 |
---|---|
貓熊 | 用 Python 編寫的用於資料操作和分析的軟體庫。提供用於操作數值表和時間序列的資料結構和操作。 |
github-數據爭論 | 透過分析Viz 儲存庫中的 GitHub 數據,了解如何載入、清理、合併和進行功能設計。 |
貓熊簡介 | 熊貓簡介。 |
介紹 Pandas 對象 | 了解 Pandas 對象。 |
數據索引和選擇 | 了解 Pandas 中的資料索引和選擇。 |
Pandas 中的操作 | 了解如何操作 Pandas 中的數據。 |
缺失值 | 了解如何處理 Pandas 中的缺失資料。 |
分層索引 | 了解 Pandas 中的分層索引。 |
連接並附加 | 了解如何組合資料集:Pandas 中的連接和追加。 |
合併並連接 | 了解如何合併資料集:在 Pandas 中合併和加入。 |
聚合和分組 | 了解 Pandas 中的聚合和分組。 |
數據透視表 | 了解 Pandas 中的資料透視表。 |
使用字串 | 了解 Pandas 中的向量化字串操作。 |
處理時間序列 | 了解如何使用 Pandas 中的時間序列。 |
效能評估和查詢 | 了解高性能 Pandas:Pandas 中的 eval() 和 query()。 |
示範 matplotlib 功能的 IPython 筆記本。
筆記本 | 描述 |
---|---|
繪圖庫 | Python 2D 繪圖庫,以各種硬拷貝格式和跨平台的互動環境產生出版品質的圖形。 |
應用 matplotlib | 將 matplotlib 視覺化應用於 Kaggle 競賽以進行探索性資料分析。了解如何建立長條圖、直方圖、subplot2grid、歸一化圖、散佈圖、子圖和核密度估計圖。 |
Matplotlib 簡介 | Matplotlib 簡介。 |
簡單線圖 | 了解 Matplotlib 中的簡單線圖。 |
簡單散點圖 | 了解 Matplotlib 中的簡單散佈圖。 |
錯誤欄.ipynb | 了解如何在 Matplotlib 中視覺化錯誤。 |
密度和等值線圖 | 了解 Matplotlib 中的密度圖和等高線圖。 |
直方圖和分箱 | 了解 Matplotlib 中的直方圖、分箱和密度。 |
客製化-圖例 | 了解如何在 Matplotlib 中自訂繪圖圖例。 |
客製化-顏色條 | 了解如何在 Matplotlib 中自訂色條。 |
多個子圖 | 了解 Matplotlib 中的多個子圖。 |
文字和註釋 | 了解 Matplotlib 中的文字和註釋。 |
客製化-Ticks | 了解如何在 Matplotlib 中自訂刻度。 |
設定和樣式表 | 了解如何自訂 Matplotlib:配置和樣式表。 |
三維繪圖 | 了解 Matplotlib 中的三維繪圖。 |
底圖的地理數據 | 透過 Matplotlib 中的底圖了解地理資料。 |
使用 Seaborn 進行可視化 | 了解 Seaborn 的可視化。 |
示範 NumPy 功能的 IPython 筆記本。
筆記本 | 描述 |
---|---|
麻木 | 新增了對大型多維數組和矩陣的 Python 支持,以及用於對這些數組進行操作的大型高級數學函數庫。 |
NumPy 簡介 | NumPy 簡介。 |
理解資料類型 | 了解 Python 中的資料類型。 |
NumPy 數組的基礎知識 | 了解 NumPy 數組的基礎知識。 |
數組計算 ufuncs | 了解 NumPy 數組的計算:通用函數。 |
數組聚合計算 | 了解 NumPy 中的聚合:最小值、最大值以及介於兩者之間的所有內容。 |
數組計算廣播 | 了解數組計算:NumPy 中的廣播。 |
布林數組和掩碼 | 了解 NumPy 中的比較、遮罩和布林邏輯。 |
花式索引 | 了解 NumPy 中的精美索引。 |
排序 | 了解如何在 NumPy 中對陣列進行排序。 |
結構化資料 NumPy | 了解結構化資料:NumPy 的結構化數組。 |
IPython 筆記本示範了以資料分析為導向的 Python 功能。
筆記本 | 描述 |
---|---|
資料結構 | 透過元組、列表、字典、集合學習 Python 基礎知識。 |
資料結構實用程式 | 學習 Python 操作,例如切片、範圍、xrange、二等分、排序、排序、反轉、枚舉、zip、列表推導式。 |
功能 | 了解更多進階 Python 功能:函數作為物件、lambda 函數、閉包、*args、**kwargs 柯里化、生成器、生成器表達式、itertools。 |
日期時間 | 了解如何使用 Python 日期和時間:datetime、strftime、strptime、timedelta。 |
記錄 | 了解有關使用 RotatingFileHandler 和 TimedRotatingFileHandler 進行 Python 日誌記錄的資訊。 |
資料庫 | 了解如何使用互動式原始碼調試器在 Python 中進行調試。 |
單元測試 | 了解如何使用 Nose 單元測試在 Python 中進行測試。 |
用於 Kaggle 競賽和業務分析的 IPython Notebook。
筆記本 | 描述 |
---|---|
泰坦尼克號 | 預測泰坦尼克號上的生存情況。學習資料清理、探索性資料分析和機器學習。 |
流失分析 | 預測客戶流失。練習邏輯迴歸、梯度增強分類器、支援向量機、隨機森林和 k 最近鄰。包括對混淆矩陣、ROC 圖、特徵重要性、預測機率和校準/判別的討論。 |
示範 Spark 和 HDFS 功能的 IPython Notebook。
筆記本 | 描述 |
---|---|
火花 | 記憶體叢集運算框架,對於某些應用程式速度最高可達 100 倍,非常適合機器學習演算法。 |
HDFS | 在大型叢集中跨機器可靠地儲存非常大的檔案。 |
IPython 筆記本演示具有 mrjob 功能的 Hadoop MapReduce。
筆記本 | 描述 |
---|---|
映射減少Python | 在 Python 中執行 MapReduce 作業,在本機或 Hadoop 叢集上執行作業。使用單元測試和 mrjob 設定檔在 Python 程式碼中示範 Hadoop Streaming,以分析 Elastic MapReduce 上的 Amazon S3 儲存桶日誌。 Disco 是另一種基於 python 的替代方案。 |
IPython 筆記本示範 Amazon Web Services (AWS) 和 AWS 工具功能。
另請查看:
筆記本 | 描述 |
---|---|
博托 | 適用於 Python 的官方 AWS 開發工具包。 |
s3cmd | 透過命令列與 S3 互動。 |
s3distcp | 組合較小的文件,並透過採用模式和目標文件將它們聚合在一起。 S3DistCp 也可用於將大量資料從 S3 傳輸到 Hadoop 叢集。 |
s3 並行放置 | 並行上傳多個檔案到 S3。 |
紅移 | 充當基於大規模並行處理 (MPP) 技術構建的快速資料倉儲。 |
運動 | 即時傳輸數據,能夠每秒處理數千個數據流。 |
拉姆達 | 運行程式碼以回應事件,自動管理計算資源。 |
IPython Notebook(s) 示範 Linux、Git 等的各種命令列。
筆記本 | 描述 |
---|---|
作業系統 | 類 Unix 且大多相容於 POSIX 的電腦作業系統。磁碟使用情況、分割檔案、grep、sed、curl、檢視正在執行的進程、終端語法反白顯示和 Vim。 |
蟒蛇 | 用於大規模資料處理、預測分析和科學計算的 Python 程式語言的分發,旨在簡化套件管理和部署。 |
ipython筆記本 | 基於 Web 的互動式運算環境,您可以將程式碼執行、文字、數學、繪圖和富媒體組合到單一文件中。 |
git | 分散式修訂控制系統,強調速度、資料完整性以及對分散式非線性工作流程的支援。 |
紅寶石 | 用於與 AWS 命令列和 Jekyll 交互,Jekyll 是一個可以託管在 GitHub Pages 上的部落格框架。 |
傑基爾 | 適用於個人、專案或組織網站的簡單、部落格感知的靜態網站產生器。渲染 Markdown 或 Textile 和 Liquid 模板,並產生一個完整的靜態網站,可供 Apache HTTP Server、Nginx 或其他 Web 伺服器提供服務。 |
鵜鶘 | 基於 Python 的 Jekyll 替代品。 |
薑戈 | 進階 Python Web 框架,鼓勵快速開發和簡潔、務實的設計。共享報告/分析和部落格可能很有用。更輕量級的替代品包括 Pyramid、Flask、Tornado 和 Bottle。 |
示範各種功能的 IPython 筆記本。
筆記本 | 描述 |
---|---|
正規表示式 | 正規表示式備忘單在資料整理中很有用。 |
演算法 | Algorithmia 是一個演算法市場。這本筆記本展示了 4 種不同的演算法:人臉偵測、內容摘要器、潛在狄利克雷分配和光學字元辨識。 |
Anaconda 是 Python 程式語言的免費發行版,用於大規模資料處理、預測分析和科學計算,旨在簡化套件管理和部署。
按照說明安裝 Anaconda 或輕量級的 miniconda。
有關設定資料分析開發環境的詳細說明、腳本和工具,請查看 dev-setup 儲存庫。
若要查看互動式內容或修改 IPython 筆記本中的元素,您必須先複製或下載儲存庫,然後執行筆記本。有關 IPython Notebooks 的更多資訊可以在此處找到。
$ git clone https://github.com/donnemartin/data-science-ipython-notebooks.git
$ cd data-science-ipython-notebooks
$ jupyter notebook
使用 Python 2.7.x 測試的筆記本。
歡迎貢獻!對於錯誤報告或請求,請提交問題。
請隨時與我聯繫討論任何問題、疑問或意見。
該存儲庫包含各種內容;有些是由 Donne Martin 開發的,有些是來自第三方。第三方內容根據這些方提供的許可進行分發。
Donne Martin 開發的內容根據以下許可證分發:
我根據開源許可證向您提供此儲存庫中的程式碼和資源。因為這是我的個人儲存庫,所以您收到的我的程式碼和資源的許可證來自我,而不是我的雇主 (Facebook)。
Copyright 2015 Donne Martin
Licensed under the Apache License, Version 2.0 (the "License");
you may not use this file except in compliance with the License.
You may obtain a copy of the License at
http://www.apache.org/licenses/LICENSE-2.0
Unless required by applicable law or agreed to in writing, software
distributed under the License is distributed on an "AS IS" BASIS,
WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
See the License for the specific language governing permissions and
limitations under the License.