深層学習機能をデモする IPython ノートブック。
追加の TensorFlow チュートリアル:
ノート | 説明 |
---|---|
tsfの基本 | Google が提供するさまざまな種類の知覚および言語理解タスク用のライブラリである TensorFlow の基本操作を学びます。 |
tsf-線形 | TensorFlow で線形回帰を実装します。 |
tsfロジスティック | TensorFlow でロジスティック回帰を実装します。 |
tsf-nn | TensorFlow に最近傍を実装します。 |
tsf-アレックス | TensorFlow に AlexNet を実装します。 |
tsf-cnn | TensorFlow で畳み込みニューラル ネットワークを実装します。 |
tsf-mlp | TensorFlow で多層パーセプトロンを実装します。 |
tsf-rnn | TensorFlow でリカレント ニューラル ネットワークを実装します。 |
tsf-gpu | TensorFlow での基本的なマルチ GPU 計算について学びます。 |
tsf-gviz | TensorFlow でのグラフの視覚化について学びます。 |
tsf-lviz | TensorFlow での損失の可視化について学びます。 |
ノート | 説明 |
---|---|
tsf-not-mnist | TensorFlow でのトレーニング、開発、テスト用にフォーマットされたデータセットを使用してピクルスを作成することで、簡単なデータ キュレーションを学びます。 |
tsf-完全接続 | TensorFlow のロジスティック回帰とニューラル ネットワークを使用して、より深くより正確なモデルを段階的にトレーニングします。 |
tsf-正則化 | TensorFlow で notMNIST 文字を分類するために完全に接続されたネットワークをトレーニングすることにより、正則化手法を探索します。 |
tsf畳み込み | TensorFlow で畳み込みニューラル ネットワークを作成します。 |
tsf-word2vec | TensorFlow の Text8 データに対してスキップグラム モデルをトレーニングします。 |
tsf-lstm | TensorFlow の Text8 データを使用して LSTM 文字モデルをトレーニングします。 |
ノート | 説明 |
---|---|
テアノイントロ | Theano の紹介。多次元配列を含む数式を効率的に定義、最適化、評価できます。 GPU を使用して、効率的なシンボリック微分を実行できます。 |
テアノスキャン | Theano グラフでループを実行するメカニズムであるスキャンを学習します。 |
テアノロジスティック | Theano にロジスティック回帰を実装します。 |
テアノ-rnn | Theano にリカレント ニューラル ネットワークを実装します。 |
テアノ-mlp | Theano に多層パーセプトロンを実装します。 |
ノート | 説明 |
---|---|
ケラス | Keras は、Python で書かれたオープンソースのニューラル ネットワーク ライブラリです。 Tensorflow または Theano のいずれかの上で実行できます。 |
設定 | チュートリアルの目標と Keras 環境のセットアップ方法について学びます。 |
イントロディープラーニングアン | Keras と人工ニューラル ネットワーク (ANN) を使用したディープ ラーニングの概要を学びましょう。 |
テアノ | 重み行列と勾配を操作して、Theano について学びます。 |
ケラスオット | Kaggle Otto チャレンジを見て Keras について学びましょう。 |
アンムニスト | Keras を使用した MNIST 用の ANN の簡単な実装を確認します。 |
変換ネット | Keras を使用した畳み込みニューラル ネットワーク (CNN) について学びます。 |
変換ネット-1 | Keras を使用して MNIST からの手書き数字を認識する - パート 1。 |
変換ネット-2 | Keras を使用して MNIST からの手書き数字を認識する - パート 2。 |
ケラスモデル | VGG16、VGG19、ResNet50、Inception v3 などの事前トレーニング済みモデルを Keras で使用します。 |
オートエンコーダ | Keras を使用したオートエンコーダーについて学びます。 |
rnn-lstm | Keras を使用したリカレント ニューラル ネットワーク (RNN) について学びます。 |
lstm-sentence-gen | Keras で Long Short Term Memory (LSTM) ネットワークを使用する RNN について学びます。 |
ノート | 説明 |
---|---|
深い夢 | 畳み込みニューラル ネットワークを使用して画像内のパターンを見つけて強化する、Caffe ベースのコンピューター ビジョン プログラム。 |
scikit-learn 機能をデモする IPython ノートブック。
ノート | 説明 |
---|---|
イントロ | scikit-learn の入門ノートブック。 Scikit-learn は、大規模な多次元配列および行列に対する Python サポートと、これらの配列を操作するための高レベル数学関数の大規模なライブラリを追加します。 |
ん | scikit-learn で k 最近傍を実装します。 |
リニアレグ | scikit-learn で線形回帰を実装します。 |
SVM | scikit-learn でカーネルを使用する場合と使用しない場合のサポート ベクター マシン分類器を実装します。 |
ランダムフォレスト | scikit-learn でランダム フォレスト分類器とリグレッサーを実装します。 |
K 平均法 | scikit-learn で K 平均法クラスタリングを実装します。 |
PCA | scikit-learn で主成分分析を実装します。 |
うーん | scikit-learn で混合ガウス モデルを実装します。 |
検証 | scikit-learn で検証とモデル選択を実装します。 |
SciPy 機能を使用した統計推論をデモする IPython ノートブック。
ノート | 説明 |
---|---|
サイピー | SciPy は、Python の Numpy 拡張機能に基づいて構築された数学的アルゴリズムと便利な関数のコレクションです。データを操作および視覚化するための高レベルのコマンドとクラスをユーザーに提供することで、対話型の Python セッションに大幅な機能が追加されます。 |
効果量 | 男性と女性の身長差を分析することで、効果の大きさを定量化する統計を調べます。行動危険因子監視システム (BRFSS) のデータを使用して、米国の成人女性と男性の身長の平均偏差と標準偏差を推定します。 |
サンプリング | BRFSS データを使用して米国の男性と女性の平均体重を分析することで、ランダム サンプリングを調査します。 |
仮説 | 初子と他の子との違いを分析することで、仮説検定を検討します。 |
pandas の機能をデモする IPython ノートブック。
ノート | 説明 |
---|---|
パンダ | Python でのデータ操作と分析のために作成されたソフトウェア ライブラリ。数値テーブルと時系列を操作するためのデータ構造と操作を提供します。 |
github-データ-ラングリング | Viz リポジトリから GitHub データを分析することで、ロード、クリーン、マージ、および機能エンジニアの方法を学びます。 |
パンダの紹介 | パンダの紹介。 |
Pandas オブジェクトの紹介 | Pandas オブジェクトについて学びます。 |
データのインデックス作成と選択 | Pandas でのデータのインデックス作成と選択について学びます。 |
Panda での操作 | Pandas でのデータの操作について学びます。 |
欠損値 | Pandas での欠落データの処理について学習します。 |
階層型インデックス作成 | Pandas の階層インデックス作成について学習します。 |
連結と追加 | データセットの結合 (Pandas での concat と append) について学びます。 |
マージアンドジョイン | データセットの結合について学びます: Pandas でのマージと結合。 |
集約とグループ化 | Pandas の集約とグループ化について学びます。 |
ピボットテーブル | Pandas のピボット テーブルについて学習します。 |
文字列の操作 | Pandas でのベクトル化された文字列操作について学びます。 |
時系列の操作 | pandas での時系列の操作について学びます。 |
パフォーマンスの評価とクエリ | 高パフォーマンスの Pandas: Pandas の eval() と query() について学びます。 |
matplotlib の機能をデモする IPython ノートブック。
ノート | 説明 |
---|---|
マットプロットライブラリ | Python 2D プロット ライブラリ。さまざまなハードコピー形式とプラットフォームにわたる対話型環境で出版品質の図を生成します。 |
matplotlib 適用済み | matplotlib ビジュアライゼーションを Kaggle コンテストに適用して、探索的なデータ分析を行います。棒プロット、ヒストグラム、subplot2grid、正規化プロット、散布図、サブプロット、およびカーネル密度推定プロットを作成する方法を学びます。 |
Matplotlib の概要 | Matplotlib の紹介。 |
単純な線のプロット | Matplotlib の単純な折れ線プロットについて学びます。 |
単純な散布図 | Matplotlib の単純な散布図について学びます。 |
エラーバー.ipynb | Matplotlib でのエラーの視覚化について学びます。 |
密度および等高線プロット | Matplotlib の密度プロットと等高線プロットについて学びます。 |
ヒストグラムとビニング | Matplotlib のヒストグラム、ビニング、密度について学びます。 |
カスタマイズ-凡例 | Matplotlib でのプロット凡例のカスタマイズについて学習します。 |
カラーバーのカスタマイズ | Matplotlib でのカラーバーのカスタマイズについて学びます。 |
複数のサブプロット | Matplotlib の複数のサブプロットについて学びます。 |
テキストと注釈 | Matplotlib のテキストと注釈について学びます。 |
カスタマイズ-ティック | Matplotlib でのティックのカスタマイズについて学びます。 |
設定とスタイルシート | Matplotlib のカスタマイズ: 構成とスタイルシートについて学びます。 |
3次元プロット | Matplotlib での 3 次元プロットについて学習します。 |
ベースマップ付き地理データ | Matplotlib のベースマップを使用した地理データについて学びます。 |
Seaborn による視覚化 | Seaborn による視覚化について学びましょう。 |
NumPy 機能をデモする IPython ノートブック。
ノート | 説明 |
---|---|
しびれる | 大規模な多次元配列および行列に対する Python サポートと、これらの配列を操作するための高レベル数学関数の大規模なライブラリが追加されました。 |
NumPy の概要 | NumPy の紹介。 |
データ型について | Python のデータ型について学びます。 |
NumPy 配列の基本 | NumPy 配列の基本について学びます。 |
配列の計算 -ufuncs | NumPy 配列の計算: ユニバーサル関数について学びます。 |
配列集合体の計算 | NumPy の最小値、最大値、およびその間のすべての集計について学びます。 |
アレイ上の計算とブロードキャスト | 配列の計算: NumPy でのブロードキャストについて学びます。 |
ブール配列とマスク | NumPy の比較、マスク、ブール ロジックについて学びます。 |
ファンシーなインデックス作成 | NumPy の高度なインデックス作成について学習します。 |
仕分け | NumPy での配列のソートについて学びます。 |
構造化データ-NumPy | 構造化データについて学びましょう: NumPy の構造化配列。 |
データ分析に特化した Python 機能をデモンストレーションする IPython ノートブック。
ノート | 説明 |
---|---|
データ構造 | タプル、リスト、辞書、セットを使用して Python の基本を学びます。 |
データ構造ユーティリティ | スライス、範囲、xrange、二分化、並べ替え、並べ替え、反転、列挙、zip、リストの内包表記などの Python 操作を学びます。 |
機能 | より高度な Python 機能について学びます: オブジェクトとしての関数、ラムダ関数、クロージャー、*args、**kwargs カリー化、ジェネレーター、ジェネレーター式、itertools。 |
日時 | Python の日付と時刻 (datetime、strftime、strptime、timedelta) を操作する方法を学びます。 |
ロギング | RotatingFileHandler と TimedRotatingFileHandler を使用した Python ロギングについて学びます。 |
pdb | インタラクティブなソース コード デバッガーを使用して Python でデバッグする方法を学びます。 |
単体テスト | Nose 単体テストを使用して Python でテストする方法を学びます。 |
Kaggle コンテストやビジネス分析で使用される IPython Notebook。
ノート | 説明 |
---|---|
タイタニック号 | タイタニック号での生存を予測します。データ クリーニング、探索的データ分析、機械学習について学びます。 |
チャーン分析 | 顧客離れを予測します。ロジスティック回帰、勾配ブースティング分類器、サポート ベクター マシン、ランダム フォレスト、k 最近傍法を実行します。混同行列、ROC プロット、特徴の重要性、予測確率、および校正/識別についての説明が含まれます。 |
Spark と HDFS の機能をデモする IPython Notebook。
ノート | 説明 |
---|---|
スパーク | インメモリ クラスター コンピューティング フレームワーク。特定のアプリケーションでは最大 100 倍高速であり、機械学習アルゴリズムに最適です。 |
HDF | 大規模なクラスター内のマシン全体に非常に大きなファイルを確実に保存します。 |
mrjob 機能を使用した Hadoop MapReduce をデモする IPython ノートブック。
ノート | 説明 |
---|---|
マップリデュース-Python | Python で MapReduce ジョブを実行し、ジョブをローカルまたは Hadoop クラスター上で実行します。 Elastic MapReduce で Amazon S3 バケット ログを分析するための、単体テストと mrjob 構成ファイルを使用した Python コードでの Hadoop ストリーミングをデモンストレーションします。 Disco も Python ベースの代替手段です。 |
アマゾン ウェブ サービス (AWS) と AWS ツールの機能をデモする IPython ノートブック。
以下もチェックしてください:
ノート | 説明 |
---|---|
ボト | 公式 AWS SDK for Python。 |
s3cmd | コマンドラインを通じて S3 と対話します。 |
s3distcp | パターンとターゲット ファイルを取り込むことで、より小さいファイルを結合し、集約します。 S3DistCp を使用して、S3 から Hadoop クラスターに大量のデータを転送することもできます。 |
s3-パラレル-プット | 複数のファイルを並行して S3 にアップロードします。 |
赤方偏移 | 大規模並列処理 (MPP) のテクノロジーに基づいて構築された高速データ ウェアハウスとして機能します。 |
キネシス | 1 秒あたり数千のデータ ストリームを処理できる機能により、リアルタイムでデータをストリーミングします。 |
ラムダ | イベントに応答してコードを実行し、コンピューティング リソースを自動的に管理します。 |
Linux、Git などのさまざまなコマンド ラインをデモする IPython ノートブック。
ノート | 説明 |
---|---|
リナックス | Unix に似た、ほとんどが POSIX 準拠のコンピュータ オペレーティング システム。ディスク使用量、ファイルの分割、grep、sed、curl、実行中のプロセスの表示、ターミナル構文の強調表示、および Vim。 |
アナコンダ | パッケージの管理と展開を簡素化することを目的とした、大規模なデータ処理、予測分析、科学技術コンピューティング用の Python プログラミング言語の配布。 |
ipython ノートブック | コードの実行、テキスト、数学、プロット、リッチ メディアを 1 つのドキュメントに組み合わせることができる、Web ベースのインタラクティブな計算環境。 |
git | 速度、データの整合性、および分散型の非線形ワークフローのサポートに重点を置いた分散型リビジョン管理システム。 |
ルビー | AWS コマンドラインと対話するために、および GitHub Pages でホストできるブログ フレームワークである Jekyll に使用されます。 |
ジキル | 個人、プロジェクト、または組織のサイト向けの、シンプルでブログを意識した静的サイト ジェネレーター。 Markdown または Textile and Liquid テンプレートをレンダリングし、Apache HTTP サーバー、Nginx、または別の Web サーバーで提供できる完全な静的 Web サイトを生成します。 |
ペリカン | Jekyll に代わる Python ベースの代替ツール。 |
ジャンゴ | 迅速な開発とクリーンで実用的な設計を促進する高レベルの Python Web フレームワーク。レポート/分析の共有やブログに役立ちます。軽量の代替手段には、Pyramid、Flask、Tornado、Bottle などがあります。 |
さまざまな機能をデモする IPython ノートブック。
ノート | 説明 |
---|---|
正規表現 | データラングリングに役立つ正規表現チートシート。 |
アルゴリズム主義 | Algorithmia はアルゴリズムのマーケットプレイスです。このノートブックでは、顔検出、コンテンツ サマライザー、潜在ディリクレ割り当て、光学式文字認識の 4 つの異なるアルゴリズムを紹介します。 |
Anaconda は、パッケージの管理と展開を簡素化することを目的とした、大規模なデータ処理、予測分析、科学計算用の Python プログラミング言語の無料配布です。
指示に従って、Anaconda またはより軽量な miniconda をインストールします。
データ分析用に開発環境をセットアップするための詳細な手順、スクリプト、ツールについては、dev-setup リポジトリを確認してください。
インタラクティブなコンテンツを表示したり、IPython ノートブック内の要素を変更するには、まずリポジトリを複製またはダウンロードしてから、ノートブックを実行する必要があります。 IPython ノートブックの詳細については、ここを参照してください。
$ git clone https://github.com/donnemartin/data-science-ipython-notebooks.git
$ cd data-science-ipython-notebooks
$ jupyter notebook
ノートブックは Python 2.7.x でテストされました。
貢献は大歓迎です!バグレポートやリクエストについては、問題を送信してください。
問題、質問、コメントがございましたら、お気軽にご連絡ください。
このリポジトリにはさまざまなコンテンツが含まれています。 Donne Martin によって開発されたものもあれば、サードパーティが開発したものもあります。サードパーティのコンテンツは、それらのパーティが提供するライセンスに基づいて配布されます。
Donne Martin によって開発されたコンテンツは、次のライセンスに基づいて配布されています。
このリポジトリ内のコードとリソースは、オープン ソース ライセンスに基づいて提供されています。これは私の個人的なリポジトリであるため、私のコードとリソースに対するライセンスは私からのものであり、私の雇用主 (Facebook) からのものではありません。
Copyright 2015 Donne Martin
Licensed under the Apache License, Version 2.0 (the "License");
you may not use this file except in compliance with the License.
You may obtain a copy of the License at
http://www.apache.org/licenses/LICENSE-2.0
Unless required by applicable law or agreed to in writing, software
distributed under the License is distributed on an "AS IS" BASIS,
WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
See the License for the specific language governing permissions and
limitations under the License.