? Ranked as one of the top data science repositories on GitHub!
技术、工具、最佳实践以及学习机器学习所需的一切!
完整的机器学习包是一个综合存储库,包含 35 个有关 Python 编程、数据操作、数据分析、数据可视化、数据清理、经典机器学习、计算机视觉和自然语言处理 (NLP) 的笔记本。
所有笔记本都是以读者为中心而创建的。每个笔记本都从所涵盖的任何特定算法/概念的高级概述开始。只要有可能,就会使用视觉效果使事情变得清晰。
2023 年 5 月 10 日:添加了有关 MLOps 的综合指南。享受指南!
2022 年 6 月 23 日:许多人询问如何支持该套餐。你可以给我们买杯咖啡☕️
2022 年 5 月 18 日:完整的机器学习包现已在网络上提供。现在可以轻松查看所有笔记本!
2022 年 4 月 9 日:使用预训练卷积神经网络更新了迁移学习,添加了更多内容并添加了更多资源。
2021 年 11 月 25 日:更新了机器学习基础知识:添加了介绍性注释、ML 系统设计工作流程和学习系统的挑战。
以下是完整机器学习包中涵盖的工具。它们是大多数机器学习工程师和数据科学家日常所需的流行工具。
Python 是一种高级编程语言,在数据社区中很受欢迎,并且随着库和框架的快速增长,这是一种适合进行机器学习的编程语言。
NumPy 是一种用于数组或矩阵运算的科学计算工具。
Pandas 是一个伟大而简单的工具,用于分析和操作来自各种不同来源的数据。
Matplotlib 是一个综合性的数据可视化工具,用于在 Python 中创建静态、动画和交互式可视化。
Seaborn 是另一个基于 Matplotlib 构建的数据可视化工具,使用起来非常简单。
Scikit-Learn:Scikit-Learn 无需从头开始构建机器学习模型,而是可以通过几行代码轻松使用经典模型。从初创公司到大型科技公司,几乎整个机器学习社区和行业都采用了该工具。
用于深度学习的 TensorFlow 和 Keras:TensorFlow 是一种流行的深度学习框架,用于构建适合计算机视觉和自然语言处理等不同领域的模型。 Keras 是一个高级神经网络 API,可以轻松设计深度学习模型。 TensorFlow 和 Keras 拥有出色的社区和生态系统,其中包括 TensorBoard、TF Datasets、TensorFlow Lite、TensorFlow Extended、TensorFlow Hub、TensorFlow.js、TensorFlow GNN 等工具。
[您可以在这里找到有关 NumPy 的详细注释]
探索性数据分析
数据准备简介
处理分类特征
特征缩放
处理缺失值
机器学习 Scikit-Learn 简介
回归的线性模型
用于分类的线性模型
支持向量机:介绍和回归
用于分类的支持向量机
决策树:介绍和回归
分类决策树
随机森林:介绍和回归
用于分类的随机森林
超越随机森林:更多集成模型
KMeans 聚类无监督学习简介
主成分分析实用介绍
人工神经网络简介
为什么选择深度学习
单层神经网络
激活函数
深度学习架构的类型
训练深度神经网络的挑战
用于深度学习的 TensorFlow 简介
使用 TensorFlow 进行回归的神经网络
使用 TensorFlow 进行分类的神经网络
卷积神经网络 (CNN) 计算机视觉简介
用于现实世界数据和图像增强的卷积网络
使用预训练卷积神经网络进行迁移学习
[迁移学习的更新笔记本可以在这里找到]
NLP 和 TensorFlow 文本处理简介
使用词嵌入来表示文本
循环神经网络 (RNN)
使用卷积神经网络进行文本分类
使用预训练的 BERT 进行文本分类
该存储库使用的许多数据集来自以下来源:
机器学习社区非常活跃。完整的机器学习包可以帮助您入门,但这还不够。幸运的是,有许多精彩的学习资源,其中一些是付费或免费的。这里列出了很多人经常推荐的课程。请注意,它们并未按使用顺序列出。
Coursera 机器学习:本课程由 Andrew Ng 教授。它是最受欢迎的机器学习课程之一,已有超过 400 万人参加。该课程更多地关注机器学习技术和算法的基础知识。它在 Coursera 上免费。
深度学习专业化:Andrew Ng. 也指出,深度学习专业化也是一门基础课程。它教授主要深度学习架构(例如卷积神经网络和循环神经网络)的良好基础。完整课程可以在 Coursera 上旁听,或在 Youtube 上免费观看。
麻省理工学院深度学习简介:本课程在相当短的时间内提供深度学习的基础。每堂课的时间不超过一小时,但教材仍然是课堂上最好的。在此处查看课程页面,在此处查看讲座视频。
麻省理工学院以数据为中心的人工智能简介:这是有史以来第一门关于 DCAI 的课程。本课程涵盖用于查找和解决机器学习数据中常见问题以及构建更好的数据集的算法,重点关注分类等监督学习任务中使用的数据。本课程教授的所有材料都非常实用,重点关注现实世界中机器学习应用的有影响力的方面,而不是特定模型如何工作的数学细节。您可以参加本课程来学习大多数 ML 课程中未涵盖的实用技术,这将有助于缓解困扰许多现实世界 ML 应用程序的“垃圾输入,垃圾输出”问题。在此处查看课程页面,在此处查看讲座视频,在此处查看实验室作业。
纽约大学深度学习 2021 年春季课程:由 Yann LeCun、Alfredo Canziani 在纽约大学讲授,本课程是最具创意的课程之一。这些材料以令人惊奇的方式呈现。在此处查看讲座视频,在此处查看课程存储库。
CS231N:斯坦福大学的用于视觉识别的卷积神经网络:CS231N 是最好的深度学习和计算机视觉课程之一。 2017 年版本由李飞飞、Justin Johnson 和 Serena Yeung 授课。 2016 年版本由 Fei-Fei、Johnson 和 Andrej Karpathy 授课。请在此处查看 2017 年讲座视频,在此处查看其他材料。
CS224N:斯坦福大学的深度学习自然语言处理:如果您对自然语言处理感兴趣,这是一门很棒的课程。它由世界级 NLP 明星之一 Christopher Manning 教授。请参阅此处的讲座视频。
fast.ai 的 Practical Deep Learning for Coders :这也是一门强化深度学习课程,涵盖了深度学习架构和技术的全部范围。讲座视频和笔记本等其他资源是课程页面。
生产机器学习工程 (MLOps) 专业:由 Andrew Ng.、Laurence Moroney 和 Robert Crowe 教授,这是最好的 ML 工程课程之一。它教授如何设计端到端机器学习生产系统、构建高效的数据和建模管道以及在生产中部署模型。您可以在 Coursera 上找到该课程,并在 Github 上找到其他课程资料。
全栈深度学习:虽然大多数机器学习课程侧重于建模,但本课程侧重于运输机器学习系统。它教授如何设计机器学习项目、数据管理(存储、访问、处理、版本控制和标签)、培训、调试和部署机器学习模型。请参阅此处的 2021 版本和此处的 2019 版本。您还可以浏览项目展示,通过学习者项目了解课程成果的类型。
以下是一些很棒的机器学习书籍。
《百页机器学习书》 :由 Andriy Burkov 撰写,这是您在互联网上找到的最短但简洁且写得很好的书之一。您可以在这里免费阅读这本书。
机器学习工程:这也是由 Andriy Burkov 撰写的,这是另一本很棒的机器学习书籍,它揭示了机器学习工作流程的每一步,从数据收集、准备......到模型服务和维护。这本书在这里也是免费的。
机器学习向往:由 Andrew Ng. 撰写,这本书包含构建有效学习系统的各种策略。它被分成小部分,这使得它易于阅读,并且对于机器学习工程师来说并不困难。任何与数据科学和机器学习团队合作的人都会发现这本书很有帮助。官方书籍可以在这里免费获得,但您可以在这里阅读或下载,无需注册。
Hands-on Machine Learning with Scikit-Learn、Keras 和 TensorFlow :由 Aurelion Geron 撰写,这是最好的机器学习书籍之一。它写得很清楚,充满了想法和最佳实践。您可以在此处获取该书,或在此处查看其存储库。
深度学习:由 3 位深度学习传奇人物 Ian Goodfellow、Yoshua Bengio 和 Aaron Courville 撰写,这是免费提供的优秀深度学习书籍之一。你可以在这里得到它。
Deep Learning with Python :由 Keras 设计师 Francois Chollet 撰写,这是一本非常全面的深度学习书籍。您可以在此处获取该书,并在此处获取该书的存储库。
Dive into Deep Learning :这也是一本很棒的深度学习书籍,可以免费获取。本书同时使用 PyTorch 和 TensorFlow。您可以在这里阅读整本书。
神经网络和深度学习:这也是迈克尔·尼尔森撰写的另一本很棒的深度学习在线书籍。您可以在这里阅读整本书。
如果您对更多机器学习和深度学习资源感兴趣,可以在这里、这里和这里找到它们
@article{Nyandwi2021MLPackage,
title = "Complete Machine Learning Package",
author = "Nyandwi, Jean de Dieu",
journal = "GitHub",
year = "2021",
url = "https://nyandwi.com/machine_learning_complete",
}
该存储库由 Jean de Dieu Nyandwi 创建。您可以在 Twitter、LinkedIn、Medium 和 Instagram 上找到他。