pip install numpy
)pip install pandas
)pip install scikit-learn
)pip install scipy
)pip install statsmodels
)pip install matplotlib
)pip install seaborn
)pip install sympy
)pip install flask
)pip install wtforms
)pip install tensorflow>=1.15
)pip install keras
)pip install pdpipe
)Вы можете начать со статьи, которую я написал в журнале Heartbeat (на платформе Medium):
Блокноты Jupyter, охватывающие широкий спектр функций и операций по темам NumPy, Pandans, Seaborn, Matplotlib и т. д.
Несколько способов выполнения линейной регрессии в Python и сравнение их скорости (см. статью, которую я написал на freeCodeCamp)
Многомерная регрессия с регуляризацией
Полиномиальная регрессия с использованием функции конвейера scikit-learn (см. статью, которую я написал в разделе «На пути к науке о данных »).
Деревья решений и регрессия случайного леса (показывающие, как случайный лес работает как надежный/регуляризованный мета-оценщик, отвергающий переобучение)
Подробный визуальный анализ и диагностические тесты согласия для задачи линейной регрессии
Надежная линейная регрессия с использованием HuberRegressor
из Scikit-learn.
k - классификация ближайших соседей (вот блокнот)
Деревья решений и классификация случайных лесов (вот блокнот)
Классификация машин опорных векторов (вот блокнот) ( см. статью, которую я написал в разделе «Наука о данных» о SVM и алгоритме сортировки)
K - означает кластеризацию (Вот блокнот)
Распространение сходства (показывает его временную сложность и влияние коэффициента затухания) (Вот блокнот)
Метод среднего сдвига (показывающий его временную сложность и влияние шума на обнаружение кластеров) (Вот блокнот)
DBSCAN (показывает, как он может в целом обнаруживать области с высокой плотностью независимо от формы кластеров, чего не может сделать k-среднее) (Вот блокнот)
Иерархическая кластеризация с дендограммами, показывающими, как выбрать оптимальное количество кластеров (вот блокнот)
Как использовать пакет Sympy для генерации случайных наборов данных с использованием символьных математических выражений.
Вот моя статья на Medium на эту тему: Генерация задач случайной регрессии и классификации с символьным выражением.
Обслуживание модели линейной регрессии через простой интерфейс HTTP-сервера. Пользователю необходимо запросить прогнозы, выполнив скрипт Python. Использует Flask
и Gunicorn
.
Обслуживание рекуррентной нейронной сети (RNN) через веб-страницу HTTP с веб-формой, где пользователи могут вводить параметры и нажимать кнопку для генерации текста на основе предварительно обученной модели RNN. Использует Flask
, Jinja
, Keras
/ TensorFlow
, WTForms
.
Реализация некоторых основных принципов ООП в контексте машинного обучения путем создания собственного оценщика, подобного Scikit-learn, и его улучшения.
Смотрите мои статьи на Medium по этой теме.
Проверьте файлы и подробные инструкции в каталоге Pytest, чтобы понять, как писать код/модуль модульного тестирования для моделей машинного обучения.
Профилирование кода обработки данных и моделей машинного обучения с учетом объема памяти и времени вычислений — важная, но часто упускаемая из виду область. Вот пара блокнотов, демонстрирующих идеи: