? Ranked as one of the top data science repositories on GitHub!
テクニック、ツール、ベストプラクティスなど、機械学習を学ぶために必要なものがすべて揃っています。
Complete Machine Learning Package は、Python プログラミング、データ操作、データ分析、データ視覚化、データ クリーニング、古典的な機械学習、コンピューター ビジョン、自然言語処理 (NLP) に関する 35 のノートブックを含む包括的なリポジトリです。
すべてのノートは読者を念頭に置いて作成されました。すべてのノートブックは、対象となる特定のアルゴリズム/概念の高レベルの概要から始まります。可能な限り、物事を明確にするためにビジュアルが使用されます。
2023 年 5 月 10 日: MLOps に関する包括的なガイドを追加しました。ガイドをお楽しみください!!
2022 年 6 月 23 日: パッケージをどのようにサポートできるかという質問が多くの人から寄せられました。コーヒーを買ってきてもらえますよ☕️
2022 年 5 月 18 日: 完全な機械学習パッケージが Web で利用できるようになりました。すべてのノートブックを簡単に表示できるようになりました。
2022 年 4 月 9 日: 事前学習済み畳み込みニューラル ネットワークを使用した転移学習を追加内容で更新し、リソースを追加しました。
2021 年 11 月 25 日: 機械学習の基礎を更新: 入門ノート、ML システム設計ワークフロー、学習システムの課題を追加しました。
以下は、Complete Machine Learning Package でカバーされているツールです。これらは、ほとんどの機械学習エンジニアやデータ サイエンティストが何らかの形で日常的に必要とする人気のあるツールです。
Python は、データ コミュニティで非常に人気のある高レベル プログラミング言語であり、ライブラリとフレームワークの急速な成長により、ML を実行するのに最適なプログラミング言語です。
NumPy は、配列または行列の演算に使用される科学計算ツールです。
Pandas は、さまざまなソースからのデータを分析および操作するための優れたシンプルなツールです。
Matplotlib は、Python で静的、アニメーション化されたインタラクティブな視覚化を作成するために使用される包括的なデータ視覚化ツールです。
Seaborn は、Matplotlib 上に構築されたもう 1 つのデータ視覚化ツールで、非常に使いやすいです。
Scikit-Learn: 機械学習モデルを最初から構築するのではなく、Scikit-Learn を使用すると、数行のコードで古典的なモデルを簡単に使用できるようになります。このツールは、新興企業から大手テクノロジー企業に至るまで、ML コミュニティと業界のほぼ全体で採用されています。
深層学習のための TensorFlow と Keras: TensorFlow は、コンピューター ビジョンや自然言語処理などのさまざまな分野に適したモデルを構築するために使用される人気の深層学習フレームワークです。 Keras は、深層学習モデルの設計を容易にする高レベルのニューラル ネットワーク API です。 TensorFlow と Keras には、TensorBoard、TF Datasets、TensorFlow Lite、TensorFlow Extended、TensorFlow Hub、TensorFlow.js、TensorFlow GNN などのツールを含む優れたコミュニティとエコシステムがあります。
[ NumPy に関する詳細なメモはここで見つけることができます]
探索的データ分析
データ準備の概要
カテゴリ特徴の処理
機能のスケーリング
欠損値の処理
機械学習のための Scikit-Learn の概要
回帰の線形モデル
分類のための線形モデル
サポート ベクター マシン: イントロと回帰
分類のためのサポートベクターマシン
デシジョン ツリー: イントロと回帰
分類のための決定木
ランダム フォレスト: イントロと回帰
分類のためのランダム フォレスト
ランダム フォレストを超えて: より多くのアンサンブル モデル
KMeans クラスタリングを使用した教師なし学習の概要
主成分分析の実践的な入門
人工ニューラル ネットワークの概要
なぜディープラーニングをするのか
単層ニューラルネットワーク
アクティベーション関数
深層学習アーキテクチャの種類
ディープ ニューラル ネットワークのトレーニングにおける課題
深層学習のための TensorFlow の概要
TensorFlow を使用した回帰用のニューラル ネットワーク
TensorFlow を使用した分類のためのニューラル ネットワーク
畳み込みニューラル ネットワーク (CNN) を使用したコンピューター ビジョンの概要
実世界のデータと画像拡張のための ConvNet
事前学習済み畳み込みニューラル ネットワークによる転移学習
[転移学習の最新ノートブックはここにあります]
TensorFlow を使用した NLP とテキスト処理の概要
Word 埋め込みを使用してテキストを表現する
リカレント ニューラル ネットワーク (RNN)
畳み込みニューラル ネットワークを使用したテキスト分類
テキスト分類のための事前学習済み BERT の使用
このリポジトリに使用されるデータセットの多くは、次のソースからのものです。
機械学習コミュニティは非常に活発です。 Complete Machine Learning Package を入手すればすぐに始めることができますが、それだけでは十分ではありません。幸いなことに、素晴らしい学習リソースが数多くあり、その中には有料または無料で利用できるものもあります。多くの方からお勧めされるコースをご紹介します。取得順にリストされているわけではないことに注意してください。
Coursera による機械学習: このコースは Andrew Ng によって教えられました。これは最も人気のある機械学習コースの 1 つであり、400 万人以上が受講しています。このコースでは、機械学習の技術とアルゴリズムの基礎に重点を置きます。 Coursera では無料です。
ディープ ラーニング スペシャライゼーション: これも Andrew Ng. が指導するディープ ラーニング スペシャライゼーションも基礎ベースのコースです。畳み込みニューラル ネットワークやリカレント ニューラル ネットワークなどの主要な深層学習アーキテクチャの適切な基礎を教えます。コース全体は Coursera で視聴することも、Youtube で自由に視聴することもできます。
MIT ディープラーニング入門: このコースは、ディープラーニングの基礎をかなりの短期間で提供します。各講義は1時間以内ですが、教材はクラスの中で最高のものです。コースページはこちら、講義ビデオはこちらからご覧ください。
MIT データ中心 AI 入門: これは DCAI に関する初めてのコースです。このクラスでは、ML データ内の一般的な問題を見つけて修正し、分類などの教師あり学習タスクで使用されるデータに焦点を当てて、より優れたデータセットを構築するためのアルゴリズムについて説明します。このコースで教えられる内容はすべて非常に実践的であり、特定のモデルがどのように機能するかの数学的な詳細ではなく、現実世界の ML アプリケーションの影響力のある側面に焦点を当てています。このコースを受講すると、ほとんどの ML クラスではカバーされていない実践的なテクニックを学ぶことができます。これは、現実世界の ML アプリケーションの多くを悩ませる「ガベージ イン、ガベージ アウト」問題を軽減するのに役立ちます。コースページはこちら、講義ビデオはこちら、ラボの課題はこちらをご覧ください。
NYU Deep Learning Spring 2021 : ヤン・ルカン氏、アルフレッド・カンツィアーニ氏がニューヨーク大学で教えているこのコースは、最もクリエイティブなコースの 1 つです。資料は驚くべき方法で提示されます。講義ビデオはこちら、コースレポートはこちらでご覧ください。
CS231N: スタンフォードによる視覚認識のための畳み込みニューラル ネットワーク: CS231N は、最高の深層学習およびコンピューター ビジョン コースの 1 つです。 2017 年バージョンは、フェイフェイ・リー、ジャスティン・ジョンソン、セリーナ・ヤンが教えました。 2016 年バージョンは、フェイフェイ、ジョンソン、アンドレイ カルパシーによって教えられました。 2017 年の講義ビデオはこちら、その他の資料はこちらをご覧ください。
CS224N: スタンフォードによる深層学習による自然言語処理: 自然言語処理に興味がある場合、これは受講するのに最適なコースです。世界クラスの NLP スターの 1 人であるクリストファー・マニングによって教えられます。講義ビデオはこちらからご覧ください。
fast.ai によるプログラマーのための実践的な深層学習: これも、深層学習のアーキテクチャと技術の全範囲をカバーする集中的な深層学習コースです。講義ビデオやノートなどのリソースはコースページです。
Machine Learning Engineering for Production (MLOps) スペシャライゼーション: Andrew Ng.、Laurence Moroney、Robert Crowe が指導する、最高の ML エンジニアリング コースの 1 つです。エンドツーエンドの機械学習運用システムを設計し、効率的なデータとモデリング パイプラインを構築し、運用環境にモデルをデプロイする方法を学びます。このコースは Coursera で、その他のコース資料は Github で見つけることができます。
フルスタックディープラーニング: 機械学習コースの大部分はモデリングに焦点を当てていますが、このコースは機械学習システムの出荷に焦点を当てています。機械学習プロジェクトの設計、データ管理 (ストレージ、アクセス、処理、バージョン管理、ラベル付け)、トレーニング、デバッグ、機械学習モデルのデプロイの方法を学びます。 2021 年版はこちら、2019 年版はこちらをご覧ください。プロジェクトのショーケースにざっと目を通し、学習者プロジェクトを通じてコースの成果がどのようなものであるかを確認することもできます。
以下に、素晴らしい機械学習の書籍をいくつか紹介します。
The 100-Page Machine Learning Book : Andriy Burkov 著のこの本は、インターネット上で見つけられる本の中で最も短いものの、簡潔でよく書かれた本の 1 つです。ここで本を無料で読むことができます。
Machine Learning Engineering : こちらも Andriy Burkov が執筆した優れた機械学習の本で、データの収集、準備からモデルの提供、メンテナンスに至るまで、機械学習のワークフローの各ステップを明らかにしています。こちらの本も無料です。
Machine Learning Yearning : Andrew Ng. 著のこの本には、効果的な学習システムを構築するためのさまざまな戦略が含まれています。小さな部分に分割されているため読みやすく、機械学習エンジニアにとって苦痛ではありません。データ サイエンスや機械学習のチームで働く人なら誰でも、この本は役に立つと思うでしょう。公式ブックはここから無料で入手できますが、サインアップすることなくここから読んだりダウンロードしたりできます。
Scikit-Learn、Keras、TensorFlow を使用した実践的な機械学習: Aurelion Geron 著の、最高の機械学習本の 1 つです。わかりやすく書かれており、アイデアとベストプラクティスが満載です。ここで本を入手するか、ここでそのリポジトリを参照できます。
Deep Learning : 3 人の深層学習のレジェンド、Ian Goodfellow、Yoshua Bengio、Aaron Courville によって執筆されたこの書籍は、無料で入手できる偉大な深層学習書籍の 1 つです。ここで入手できます。
Deep Learning with Python : Keras デザイナーの Francois Chollet が執筆した、非常に包括的なディープ ラーニングの本です。この本はここから、本のレポはここから入手できます。
Dive into Deep Learning : これも無料で入手できる素晴らしいディープラーニングの本です。この本では PyTorch と TensorFlow の両方を使用しています。ここで本全体を読むことができます。
ニューラル ネットワークとディープ ラーニング: これも、マイケル ニールセンによるもう 1 つの優れたディープ ラーニング オンライン書籍です。ここで本全体を読むことができます。
さらに機械学習と深層学習のリソースに興味がある場合は、ここ、ここ、そしてここで見つけることができます。
@article{Nyandwi2021MLPackage,
title = "Complete Machine Learning Package",
author = "Nyandwi, Jean de Dieu",
journal = "GitHub",
year = "2021",
url = "https://nyandwi.com/machine_learning_complete",
}
このリポジトリは Jean de Dieu Nyandwi によって作成されました。彼は Twitter、LinkedIn、Medium、Instagram で見つけることができます。