#Self- Learning
#Guide for Beginners
#Self Learning
#Python
#LearnDataScience
#Machcine Learning
Ну, вообще говоря, Data Science — это не какая-то определенная или одна область, это похоже на комбинацию различных дисциплин, которые сосредоточены на анализе данных и поиске лучших решений на их основе. Первоначально эти задачи выполнялись специалистами по математике или статистике, но затем эксперты по данным начали использовать машинное обучение и искусственный интеллект, что добавило оптимизацию и информатику в качестве метода анализа данных. Этот новый подход оказался намного быстрее и эффективнее и поэтому чрезвычайно популярен.
Итак, в целом популярность Data Science заключается в том, что она включает в себя сбор больших массивов структурированных и неструктурированных данных и преобразование их в удобочитаемый формат, включая визуализацию, работу со статистикой и аналитические методы — машинные и глубокие. обучение, вероятностный анализ и прогнозные модели, нейронные сети и их применение для решения актуальных задач.
Искусственный интеллект, машинное обучение, глубокое обучение и наука о данных — несомненно, эти основные термины сегодня наиболее популярны. И хотя они как-то связаны, но это не одно и то же. Итак, прежде чем прыгать в любую из этих сфер, обязательно почувствуйте разницу.
Искусственный интеллект — это область, в которой основное внимание уделяется созданию интеллектуальных машин, которые работают и реагируют как люди. Исследование искусственного интеллекта началось в 1936 году, когда Алан Тьюринг построил первые машины с искусственным интеллектом. Несмотря на достаточно долгую историю, сегодня ИИ в большинстве областей пока не способен полностью заменить человека. И конкуренция ИИ с человеком в шахматах, и шифрование данных — это две стороны одной медали.
Machine learning is a creating tool for extracting knowledge from data. In ML models can be trained on data independently or in stages: training with a teacher, that is, having human-prepared data or training without a teacher, working with spontaneous, noisy data.
Глубокое обучение — это создание многослойных нейронных сетей в областях, где необходим более продвинутый или быстрый анализ, а традиционное машинное обучение не справляется. «Глубина» обеспечивает более одного скрытого слоя нейронов в сети, выполняющей математические вычисления.
Big Data — work with huge amounts of often unstructured data. The specifics of the sphere are tools and systems capable of withstanding high loads.
Наука о данных — это добавление значения к массивам данных, визуализация, сбор информации и принятие решений на основе этих данных. Специалисты на местах используют некоторые методы машинного обучения и больших данных — облачные вычисления, инструменты для создания виртуальной среды разработки и многое другое. Задачи Data Science хорошо суммированы этой диаграммой Венна, созданной Дрю Конвеем:
Так чем же занимается Data Scientist?
Вот все, что вам нужно знать об этом:
- detection of anomalies, for example, abnormal customer behavior, fraud; - personalized marketing — personal e-mail newsletters, retargeting, recommendation systems; - Metric forecasts — performance indicators, quality of advertising campaigns and other activities; - scoring systems — process large amounts of data and help to make a decision, for example, on granting a loan; - asic interaction with the client — standard answers in chat rooms, voice assistants, sorting letters into folders.
Чтобы выполнить любую из вышеперечисленных задач, вам необходимо выполнить определенные шаги:
- Collection Search for channels where you can collect data, and how to get it. - Check. Validation, pruning anomalies that do not affect the result and confuse with further analysis. - Analysis. The study of data, confirmation of assumptions, conclusions. - Visualization. Presentation in a form that will be simple and understandable for perception by a person — in graphs, diagrams. - Act. Making decisions based on the analyzed data, for example, about changing the marketing strategy, increasing the budget for any activity of the company.
Сейчас самое время перейти к более сложным вещам. Все приведенные ниже шаги, вероятно, покажутся слишком сложными, отнимающими много времени и энергии и тому подобное. Ну да, этот путь труден, если воспринимать его как то, чему можно научиться за месяц или даже за год. Вы должны признать факт постоянного обучения, факт ежедневных маленьких шажков и быть готовыми видеть ошибки, быть готовыми пробовать снова и рассчитывать на длительный период освоения этой области.
Итак, вы действительно готовы к этому? Если да, то поехали.
“Data Scientist is a person who is better at statistics than any programmer and better at programming than any statistician.” Josh Wills
Если говорить в целом о Data Science, то для серьезного понимания и работы нужен фундаментальный курс теории вероятностей (а значит, и математического анализа как необходимого инструмента теории вероятностей), линейной алгебры и, конечно же, математической статистики. Фундаментальные математические знания важны для того, чтобы иметь возможность анализировать результаты применения алгоритмов обработки данных. Есть примеры относительно сильных инженеров в машинном обучении без такого бэкграунда, но это скорее исключение.
Если университетское образование оставило много пробелов, я рекомендую книгу Хасти, Тибширани и Фридмана «Элементы статистического обучения». В этой книге классические разделы машинного обучения представлены с точки зрения математической статистики со строгими математическими расчетами. Несмотря на обилие математических формулировок и доказательств, все методы сопровождаются практическими примерами и упражнениями.
Лучшая книга на данный момент для понимания математических принципов, лежащих в основе нейронных сетей, — «Глубокое обучение» Яна Гудфеллоу. Во введении есть целый раздел, посвящённый всей математике, необходимой для хорошего понимания нейронных сетей. Еще один хороший справочник — «Нейронные сети и глубокое обучение» Майкла Нильсена — возможно, это не фундаментальная работа, но для понимания основных принципов она будет очень полезна.
Дополнительные ресурсы:
Полное руководство по математике и статистике для науки о данных: классное и нескучное пошаговое руководство, которое поможет вам хорошо ориентироваться в области математики и статистики.
Введение в статистику для науки о данных. Это руководство помогает объяснить центральную предельную теорему, охватывающую совокупности и выборки, распределение выборки, интуицию, а также содержит полезное видео, чтобы вы могли продолжить обучение.
Полное руководство для начинающих по линейной алгебре для специалистов по обработке данных: все, что вам нужно знать о линейной алгебре
Линейная алгебра для специалистов по данным: замечательная статья, позволяющая быстро изучить основы.
На самом деле, большим преимуществом будет сразу познакомиться с основами программирования. Но так как это очень трудоемкий процесс, то можно немного упростить эту задачу. Как? Все просто. Начните изучать один язык и сосредоточьтесь на всех нюансах программирования через синтаксис этого языка.
But still, it is difficult to do without some kind of general guide. For this reason, I recommend paying attention to this article: Software Development Skills for Data Scientists: Amazing article about important soft skills for programming practice.
Например, я бы посоветовал вам обратить внимание на Python. Во-первых, он идеально подходит для новичков, поскольку имеет относительно простой синтаксис. Во-вторых, Python сочетает в себе востребованность специалистов и многофункциональность.
But if these statements don't tell you anything, read more about it here: Python vs R. Choosing the Best Tool for AI, ML & Data Science. Time is a precious resource, so it's better not to disintegrate at once and not just waste it.
Итак, как изучить Python?
Если у вас нет понимания программирования, я рекомендую прочитать «Автоматизация скучных задач с помощью Python». Книга предлагает объяснение практического программирования для начинающих и обучение с нуля. Прочтите главу 6 «Манипуляции со строками» и выполните практические задания этого урока. Этого будет достаточно.
Вот еще несколько замечательных ресурсов для изучения:
Codecademy — учит хорошему общему синтаксису.
Learn Python the Hard Way — блестящая книга, похожая на руководство, в которой объясняются как основы, так и более сложные приложения.
Dataquest — этот ресурс обучает синтаксису, а также преподает науку о данных.
Учебник по Python — официальная документация
Изучите Python подробно
После того, как вы изучите основы Python, вам нужно потратить время на знакомство с основными библиотеками.
Machine learning allows you to train computers to act independently so that we do not have to write detailed instructions for performing certain tasks. For this reason, machine learning is of great value for almost any area, but first of all, of course, it will work well where there is Data Science.
Первым делом или первым шагом в изучении ML являются его три основные группы:
Обучение с учителем в настоящее время является наиболее развитой формой МО. Идея здесь в том, что у вас есть исторические данные с некоторым представлением о выходной переменной. Выходная переменная предназначена для распознавания того, как вы можете использовать хорошую комбинацию нескольких входных переменных и соответствующих выходных значений в виде исторических данных, представленных вам, а затем на основе этого вы пытаетесь придумать функцию, которая способна прогнозировать выходные данные с учетом любых входных данных. Итак, ключевая идея заключается в том, что исторические данные помечены. Маркировка означает, что у вас есть определенное выходное значение для каждой строки данных, которая ему представлена⠀ PS. в случае выходной переменной, если выходная переменная дискретна, это называется КЛАССИФИКАЦИЯ. А если оно непрерывное, то это называется РЕГРЕССИЯ.
2) Unsupervised learning doesn't have the luxury of having labeled historical data input-output. Instead, we can only say that it has a whole bunch of input data, RAW INPUT DATA. It allows us to identify what is known as patterns in the historical input data and interesting insights from the overall perspective. So, the output here is absent and all you need to understand is that is there a pattern being visible in the unsupervised set of input. The beauty of unsupervised learning is that it lends itself to numerous combinations of patterns, that's why unsupervised algorithms are harder.
Обучение с подкреплением происходит, когда вы представляете алгоритму примеры без меток, как при обучении без учителя. Однако вы можете сопровождать пример положительной или отрицательной обратной связью в зависимости от решения, предлагаемого алгоритмом. RL связан с приложениями, для которых алгоритм должен принимать решения, а решения имеют последствия. Это похоже на обучение методом проб и ошибок. Интересный пример RL возникает, когда компьютеры сами учатся играть в видеоигры. Итак, теперь вы знаете основы ML. После этого вам, очевидно, нужно узнать больше. Вот отличные ресурсы для изучения с этой целью:
Алгоритмы машинного обучения с учителем и без учителя: четкие и краткие объяснения типов алгоритмов машинного обучения. Визуализация машинного обучения: отличная визуализация, которая поможет вам понять, как именно используется машинное обучение.
Data Mining — это важный аналитический процесс, предназначенный для изучения данных. Это процесс анализа скрытых шаблонов данных в соответствии с различными точками зрения для категоризации полезной информации, которая собирается и компонуется в общих областях, таких как хранилища данных, для эффективного анализа, алгоритмов интеллектуального анализа данных, облегчения принятия бизнес-решений и удовлетворения других информационных требований. в конечном итоге сократить расходы и увеличить доходы.
Ресурсы для освоения интеллектуального анализа данных:
Как работает интеллектуальный анализ данных — отличное видео с лучшим объяснением, которое я нашел на данный момент. «Работа дворника» — ключевое препятствие для понимания: интересная статья, в которой подробно описывается важность методов интеллектуального анализа данных в области науки о данных.
Визуализация данных — это общий термин, описывающий попытку помочь людям понять значение данных путем помещения их в визуальный контекст.
Ресурсы для освоения визуализации данных:
Руководство для начинающих по визуализации данных
Что делает визуализацию данных хорошей
Изучать только теорию не очень интересно, нужно попробовать свои силы на практике. У новичка Data Scientist есть несколько хороших вариантов для этого:
Use Kaggle, a website dedicated to Data Science. It constantly hosts data analysis competitions in which you can take part. There are also a large number of open data sets that you can analyze and publish your results. In addition, you can watch scripts published by other participants (on Kaggle, such scripts are called Kernels) and learn from successful experience.
После того, как вы изучили все необходимое, проанализировали данные и попробовали свои силы в открытых заданиях и конкурсах, тогда приступайте к поиску работы. Конечно, вы будете говорить только хорошее, но вы имеете право усомниться в своих словах. Затем вы продемонстрируете независимые подтверждения, например:
Advanced profile on Kaggle. Kaggle has a ranks system, you can go through the steps from beginner to grandmaster. For successful participation in competitions, the publication of scripts and discussions, you can get points that allow you to raise the rating. In addition, the site shows in what competitions you participated, and what are your results.
Программы анализа данных можно публиковать на GitHub или других открытых репозиториях, тогда с ними смогут ознакомиться все желающие. В том числе представители работодателя, которые проведут с вами собеседование.
Final Advice: Don't Be a Copy of a Copy, Find Your Own Way
Теперь любой может стать Data Scientist. В открытом доступе есть все необходимое: онлайн-курсы, книги, конкурсы для получения практического опыта и так далее. На первый взгляд это хорошо, но не стоит изучать это только из-за хайпа. Все, что мы слышим о Data Science, — это невероятно круто и это самая привлекательная профессия 21 века. Если эти вещи являются для вас основной мотивацией, ничего не получится. Печальная правда, да, и, возможно, я немного преувеличиваю, но я так к этому отношусь. Сейчас я хочу сказать, что стать специалистом по данным-самоучкой возможно. Однако залогом вашего успеха является высокая мотивация регулярно находить время для изучения анализа данных и его практического применения. Самое главное — надо научиться получать удовлетворение в процессе обучения и работы.
Подумайте об этом.
Удачи!
Не стесняйтесь делиться своими идеями и мыслями.
Скачать для отчета.
На пути к науке о данных
Data Science Repo — подробный отчет об анализе
Клонируйте этот репозиторий:
git-клон https://github.com/iamsivab/Data-Science-Resources.git
Проверьте любую проблему здесь.
Внесите изменения и отправьте запрос на включение.
? Не стесняйтесь обращаться ко мне @ [email protected]
MIT © Сивасубраманиан