? Ranked as one of the top data science repositories on GitHub!
Методы, инструменты, лучшие практики и все, что вам нужно для изучения машинного обучения!
Полный пакет машинного обучения — это комплексный репозиторий, содержащий 35 блокнотов по программированию на Python, манипулированию данными, анализу данных, визуализации данных, очистке данных, классическому машинному обучению, компьютерному зрению и обработке естественного языка (НЛП).
Все блокноты создавались с заботой о читателях. Каждая записная книжка начинается с общего обзора любого конкретного рассматриваемого алгоритма/концепции. Везде, где это возможно, используются визуальные эффекты, чтобы прояснить ситуацию.
10 мая 2023 г.: добавлено подробное руководство по MLOps. Наслаждайтесь руководством!!
23 июня 2022 г.: Многие люди спрашивают, как они могут поддержать пакет. Вы можете купить нам кофе ☕️
18 мая 2022 г.: Полный пакет машинного обучения теперь доступен в Интернете. Теперь легко просмотреть все блокноты!
9 апреля 2022 г.: Обновлено трансферное обучение с предварительно обученными сверточными нейронными сетями, добавлены дополнительные возможности и дополнительные ресурсы.
25 ноября 2021 г.: Обновлены основы машинного обучения: добавлены вводные примечания, рабочий процесс проектирования систем машинного обучения и проблемы систем обучения.
Ниже приведены инструменты, входящие в состав полного пакета машинного обучения. Это популярные инструменты, которые так или иначе нужны большинству инженеров по машинному обучению и специалистам по обработке данных изо дня в день.
Python — это язык программирования высокого уровня, который пользуется большой популярностью в сообществе данных, а с учетом быстрого роста библиотек и платформ это подходящий язык программирования для машинного обучения.
NumPy — это инструмент научных вычислений, используемый для операций с массивами или матрицами.
Pandas — отличный и простой инструмент для анализа и обработки данных из самых разных источников.
Matplotlib — это комплексный инструмент визуализации данных, используемый для создания статических, анимированных и интерактивных визуализаций на Python.
Seaborn — еще один инструмент визуализации данных, созданный на основе Matplotlib, который довольно прост в использовании.
Scikit-Learn: вместо создания моделей машинного обучения с нуля Scikit-Learn позволяет легко использовать классические модели с помощью нескольких строк кода. Этот инструмент адаптирован практически всем сообществом и отраслями машинного обучения, от стартапов до крупных технологических компаний.
TensorFlow и Keras для глубокого обучения: TensorFlow — это популярная среда глубокого обучения, используемая для создания моделей, подходящих для различных областей, таких как компьютерное зрение и обработка естественного языка. Keras — это API нейронной сети высокого уровня, который упрощает разработку моделей глубокого обучения. TensorFlow и Keras имеют отличное сообщество и экосистему, включающую такие инструменты, как TensorBoard, TF Datasets, TensorFlow Lite, TensorFlow Extended, TensorFlow Hub, TensorFlow.js, TensorFlow GNN и многие другие.
[ Вы можете найти подробные заметки о NumPy здесь ]
Исследовательский анализ данных
Введение в подготовку данных
Обработка категориальных функций
Масштабирование функций
Обработка пропущенных значений
Введение в Scikit-Learn для машинного обучения
Линейные модели регрессии
Линейные модели для классификации
Машины опорных векторов: введение и регрессия
Машины опорных векторов для классификации
Деревья решений: введение и регрессия
Деревья решений для классификации
Случайные леса: введение и регрессия
Случайные леса для классификации
За пределами случайных лесов: больше моделей ансамблей
Введение в обучение без учителя с помощью кластеризации KMeans
Практическое введение в анализ главных компонентов
Введение в искусственные нейронные сети
Почему глубокое обучение
Однослойная нейронная сеть
Функции активации
Типы архитектур глубокого обучения
Проблемы обучения глубоких нейронных сетей
Введение в TensorFlow для глубокого обучения
Нейронные сети для регрессии с TensorFlow
Нейронные сети для классификации с TensorFlow
Введение в компьютерное зрение со сверточными нейронными сетями (CNN)
ConvNets для реальных данных и увеличения изображений
Перенос обучения с предварительно обученными сверточными нейронными сетями
[Обновленный блокнот трансферного обучения можно найти здесь]
Введение в НЛП и обработку текста с помощью TensorFlow
Использование векторных представлений слов для представления текстов
Рекуррентные нейронные сети (RNN)
Использование сверточных нейронных сетей для классификации текстов
Использование предварительно обученного BERT для классификации текста
Многие наборы данных, используемые для этого репозитория, взяты из следующих источников:
Сообщество машинного обучения очень активное. Полный пакет машинного обучения поможет вам начать работу, но этого недостаточно. К счастью, существует множество замечательных обучающих ресурсов, некоторые из которых платные или доступны бесплатно. Вот список курсов, которые часто рекомендуют многие люди. Обратите внимание, что они перечислены не в том порядке, в котором их следует принимать.
Машинное обучение от Coursera : этот курс вел Эндрю Нг. Это один из самых популярных курсов по машинному обучению, его прошли более 4 миллионов человек. В курсе больше внимания уделяется основам методов и алгоритмов машинного обучения. Это бесплатно на Coursera.
Специализация по глубокому обучению : Специализация по глубокому обучению, которую также преподает Эндрю Нг, также представляет собой базовый курс. Он преподает хорошие основы основных архитектур глубокого обучения, таких как сверточные нейронные сети и рекуррентные нейронные сети. Полный курс можно прослушать на Coursera или бесплатно посмотреть на Youtube.
MIT «Введение в глубокое обучение» : этот курс дает основы глубокого обучения за достаточно короткий период времени. Каждая лекция длится час или меньше, но материалы по-прежнему лучшие в классе. Посетите страницу курса здесь и видео лекций здесь.
MIT «Введение в data-centric AI» : это первый курс по DCAI. В этом классе рассматриваются алгоритмы для поиска и устранения распространенных проблем в данных ML, а также для создания более качественных наборов данных, концентрируясь на данных, используемых в контролируемых задачах обучения, таких как классификация. Весь материал, преподаваемый в этом курсе, очень практичен и сосредоточен на эффективных аспектах реальных приложений машинного обучения, а не на математических деталях работы конкретных моделей. Вы можете пройти этот курс, чтобы изучить практические приемы, не рассматриваемые в большинстве курсов по машинному обучению, которые помогут смягчить проблему «мусор на входе и выходе», от которой страдают многие реальные приложения машинного обучения. Посетите страницу курса здесь, видео лекций здесь и лабораторные задания здесь.
Глубокое обучение Нью-Йоркского университета, весна 2021 г. Этот курс, который преподают в Нью-Йоркском университете Ян Лекун и Альфредо Канциани, является одним из самых творческих курсов. Материалы подаются потрясающе. Посмотрите видео лекций здесь и репозиторий курсов здесь.
CS231N: Сверточные нейронные сети для визуального распознавания от Стэнфорда : CS231N — один из лучших курсов глубокого обучения и компьютерного зрения. Версию 2017 года преподавали Фей-Фей Ли, Джастин Джонсон и Серена Юнг. Версию 2016 года преподавали Фей-Фей, Джонсон и Андрей Карпати. Видео лекций 2017 года смотрите здесь, а другие материалы — здесь.
CS224N: Обработка естественного языка с глубоким обучением от Стэнфорда : Если вы интересуетесь обработкой естественного языка, это отличный курс. Его преподает Кристофер Мэннинг, одна из звезд НЛП мирового класса. Видео лекций смотрите здесь.
Практическое глубокое обучение для программистов от fast.ai : это также интенсивный курс глубокого обучения, который охватывает весь спектр архитектур и методов глубокого обучения. Видео лекций и другие ресурсы, такие как блокноты, являются страницей курса.
Специализация «Машинное обучение для производства» (MLOps). Этот курс преподают Эндрю Нг., Лоуренс Морони и Роберт Кроу. Это один из лучших курсов по машинному обучению. Он учит, как проектировать комплексные производственные системы машинного обучения, создавать эффективные конвейеры данных и моделирования, а также развертывать модели в производстве. Вы можете найти курс на Coursera и другие материалы курса на Github.
Полное глубокое обучение : хотя большинство курсов по машинному обучению посвящено моделированию, этот курс посвящен поставке систем машинного обучения. Он учит, как разрабатывать проекты машинного обучения, управлять данными (хранение, доступ, обработка, управление версиями и маркировка), обучение, отладку и развертывание моделей машинного обучения. См. версию 2021 года здесь и версию 2019 года здесь. Вы также можете просмотреть презентации проектов, чтобы увидеть результаты курсов в рамках проектов учащихся.
Ниже приведены несколько замечательных книг по машинному обучению.
Стостраничная книга по машинному обучению . Автор: Андрей Бурков. Это одна из самых коротких, но лаконичных и хорошо написанных книг, которые вы когда-либо найдете в Интернете. Бесплатно прочитать книгу можно здесь.
Инженерия машинного обучения . Это еще одна замечательная книга по машинному обучению, автором которой также является Андрей Бурков. В ней раскрываются все этапы рабочего процесса машинного обучения: от сбора, подготовки данных... до обслуживания и обслуживания моделей. Книга также бесплатна здесь.
«Жажда машинного обучения» : книга, написанная Эндрю Нг., содержит различные стратегии построения эффективных систем обучения. Он разделен на мелкие части, что облегчает чтение и не вызывает затруднений у инженеров по машинному обучению. Книга может оказаться полезной всем, кто работает с командами по обработке данных и машинному обучению. Официальная книга доступна здесь бесплатно, но вы можете прочитать или скачать ее здесь без регистрации.
Практическое машинное обучение с помощью Scikit-Learn, Keras и TensorFlow . Это одна из лучших книг по машинному обучению, автор которой — Аурелион Герон. Он ясно написан и полон идей и лучших практик. Вы можете получить книгу здесь или просмотреть ее репозиторий здесь.
«Глубокое обучение» : эта книга, написанная тремя легендами глубокого обучения — Яном Гудфеллоу, Йошуа Бенджио и Аароном Курвиллем, — одна из величайших книг по глубокому обучению, которая находится в свободном доступе. Вы можете получить это здесь.
«Глубокое обучение с помощью Python» . Это очень обширная книга по глубокому обучению, автор которой — Франсуа Шолле, дизайнер Keras. Вы можете получить книгу здесь, а репозиторий книг здесь.
Погружение в глубокое обучение : это также отличная книга по глубокому обучению, которая находится в свободном доступе. В книге используются как PyTorch, так и TensorFlow. Вы можете прочитать всю книгу здесь.
Нейронные сети и глубокое обучение : это еще одна замечательная онлайн-книга Майкла Нильсена по глубокому обучению. Вы можете прочитать всю книгу здесь.
Если вас интересуют дополнительные ресурсы по машинному и глубокому обучению, вы можете найти их здесь, здесь и здесь.
@article{Nyandwi2021MLPackage,
title = "Complete Machine Learning Package",
author = "Nyandwi, Jean de Dieu",
journal = "GitHub",
year = "2021",
url = "https://nyandwi.com/machine_learning_complete",
}
Этот репозиторий был создан Жаном де Дьё Ньяндви. Вы можете найти его в Twitter, LinkedIn, Medium и Instagram.