#Self- Learning
#Guide for Beginners
#Self Learning
#Python
#LearnDataScience
#Machcine Learning
嗯,一般来说,数据科学不是某个或单一的领域,它就像各种学科的组合,专注于分析数据并基于数据找到最佳解决方案。最初,这些任务由数学或统计专家承担,但后来数据专家开始使用机器学习和人工智能,其中增加了优化和计算机科学作为分析数据的方法。事实证明,这种新方法更快、更有效,因此非常受欢迎。
总而言之,数据科学的流行在于它涵盖了大量结构化和非结构化数据的收集以及将它们转换为人类可读的格式,包括可视化、使用统计和分析方法——机器和深度学习、概率分析和预测模型、神经网络及其在解决实际问题中的应用。
人工智能、机器学习、深度学习和数据科学——毫无疑问,这些主要术语是当今最流行的。尽管它们在某种程度上有关联,但它们并不相同。因此,在进入任何一个领域之前,必须先感受其中的差异。
人工智能是一个专注于创造像人类一样工作和反应的智能机器的领域。人工智能作为一项研究可以追溯到 1936 年,当时阿兰·图灵建造了第一台人工智能驱动的机器。尽管人工智能已经有相当长的历史,但今天在大多数领域还无法完全取代人类。而人工智能与人类在国际象棋中的竞争和数据加密是同一枚硬币的两个方面。
Machine learning is a creating tool for extracting knowledge from data. In ML models can be trained on data independently or in stages: training with a teacher, that is, having human-prepared data or training without a teacher, working with spontaneous, noisy data.
深度学习是在需要更高级或快速分析而传统机器学习无法应对的领域创建多层神经网络。 “深度”在网络中提供了不止一层隐藏的神经元来进行数学计算。
Big Data — work with huge amounts of often unstructured data. The specifics of the sphere are tools and systems capable of withstanding high loads.
数据科学是为数据数组、可视化、见解收集以及根据这些数据做出决策添加意义。领域专家使用一些机器学习和大数据的方法——云计算、创建虚拟开发环境的工具等等。 Drew Conway 创建的维恩图很好地总结了数据科学的任务:
那么数据科学家是做什么的呢?
以下是您需要了解的全部信息:
- detection of anomalies, for example, abnormal customer behavior, fraud; - personalized marketing — personal e-mail newsletters, retargeting, recommendation systems; - Metric forecasts — performance indicators, quality of advertising campaigns and other activities; - scoring systems — process large amounts of data and help to make a decision, for example, on granting a loan; - asic interaction with the client — standard answers in chat rooms, voice assistants, sorting letters into folders.
要执行上述任何任务,您需要遵循某些步骤:
- Collection Search for channels where you can collect data, and how to get it. - Check. Validation, pruning anomalies that do not affect the result and confuse with further analysis. - Analysis. The study of data, confirmation of assumptions, conclusions. - Visualization. Presentation in a form that will be simple and understandable for perception by a person — in graphs, diagrams. - Act. Making decisions based on the analyzed data, for example, about changing the marketing strategy, increasing the budget for any activity of the company.
现在是转向更复杂的事情的时候了。下面的所有步骤可能看起来太难了,耗费时间和精力,等等。嗯,是的,如果你认为这条路是你可以在一个月甚至一年内学会的东西,那么这条路是很难的。你应该承认不断学习的事实,每天都在小步前进的事实,并准备好看到错误,准备好再次尝试,并指望在很长一段时间内掌握这个领域。
那么,你真的准备好接受这些东西了吗?既然如此,那就滚吧。
“Data Scientist is a person who is better at statistics than any programmer and better at programming than any statistician.” Josh Wills
如果我们一般性地谈论数据科学,那么为了认真理解和工作,我们需要概率论(因此,数学分析作为概率论的必要工具)、线性代数,当然还有数理统计的基础课程。为了能够分析应用数据处理算法的结果,基础数学知识非常重要。有一些机器学习领域实力较强的工程师没有这样的背景的例子,但这只是例外。
如果大学教育留下了很多空白,我推荐 Hastie、Tibshirani 和 Friedman 写的《统计学习的要素》一书。本书以数理统计的方式,通过严格的数学计算来呈现机器学习的经典章节。尽管有大量的数学公式和证据,但所有方法都附有实际示例和练习。
目前了解神经网络数学原理的最佳书籍——Ian Goodfellow 的《深度学习》。在引言中,有一个完整的部分介绍了很好地理解神经网络所需的所有数学知识。另一个很好的参考文献是 Michael Nielsen 的《神经网络和深度学习》——这可能不是一本基础著作,但对于理解基本原理非常有用。
其他资源:
数据科学数学和统计学完整指南:酷而不乏味的演练,帮助您在数学和统计学领域获得良好的导向
数据科学统计简介:本教程帮助解释中心极限定理,涵盖总体和样本、抽样分布、直觉,并包含一个有用的视频,以便您可以继续学习。
数据科学家线性代数综合初学者指南:您需要了解的有关线性代数的一切
数据科学家的线性代数:精彩的文章,深入介绍了基础知识的快速浏览。
事实上,一个很大的优势是立即熟悉编程的基础知识。但由于这是一个非常耗时的过程,因此您可以稍微简化此任务。如何?一切都很简单。开始学习一种语言,并通过该语言的语法关注编程的所有细微差别。
But still, it is difficult to do without some kind of general guide. For this reason, I recommend paying attention to this article: Software Development Skills for Data Scientists: Amazing article about important soft skills for programming practice.
例如,我建议你关注Python。首先,它非常适合初学者学习,语法相对简单。其次,Python结合了专家的需求,并且是多功能的。
But if these statements don't tell you anything, read more about it here: Python vs R. Choosing the Best Tool for AI, ML & Data Science. Time is a precious resource, so it's better not to disintegrate at once and not just waste it.
那么如何学习Python呢?
如果您没有任何编程理解,我建议您阅读使用 Python 自动处理无聊的事情。这本书为初学者解释了实用的编程并从头开始教学。阅读第 6 章“字符串操作”,并完成本课的实际任务。这就足够了。
以下是一些其他值得探索的优质资源:
Codecademy — 教授良好的通用语法
Learn Python the Hard Way——一本精彩的类似手册的书,解释了基础知识和更复杂的应用程序。
Dataquest — 该资源在教授语法的同时还教授数据科学
Python 教程 - 官方文档
详细学习Python
学习了 Python 基础知识后,您需要花时间了解主要库。
Machine learning allows you to train computers to act independently so that we do not have to write detailed instructions for performing certain tasks. For this reason, machine learning is of great value for almost any area, but first of all, of course, it will work well where there is Data Science.
学习 ML 的第一件事或第一步是它的三个主要组:
监督学习现在是机器学习最发达的形式。这里的想法是,您拥有历史数据以及输出变量的一些概念。输出变量旨在认识如何将多个输入变量和相应的输出值作为历史数据呈现给您,然后基于此尝试提出一个能够在给定任何输入的情况下预测输出的函数。因此,关键思想是对历史数据进行标记。带标签意味着每行数据都有一个特定的输出值,呈现给它⠀ PS。对于输出变量,如果输出变量是离散的,则称为分类。如果它是连续的,则称为回归
2) Unsupervised learning doesn't have the luxury of having labeled historical data input-output. Instead, we can only say that it has a whole bunch of input data, RAW INPUT DATA. It allows us to identify what is known as patterns in the historical input data and interesting insights from the overall perspective. So, the output here is absent and all you need to understand is that is there a pattern being visible in the unsupervised set of input. The beauty of unsupervised learning is that it lends itself to numerous combinations of patterns, that's why unsupervised algorithms are harder.
当您向算法提供缺乏标签的示例时(如无监督学习),就会发生强化学习。但是,您可以根据算法提出的解决方案提供带有正反馈或负反馈的示例。强化学习与算法必须做出决策的应用程序相关,并且决策会产生后果。这就像通过反复试验来学习一样。当计算机学习自己玩视频游戏时,就会出现强化学习的一个有趣例子。好吧,现在您已经了解了 ML 的基础知识。在此之后,您显然需要了解更多信息。为此目的,可以探索以下资源:
有监督和无监督机器学习算法:对机器学习算法类型的清晰、简洁的解释。机器学习的可视化:出色的可视化,可引导您准确了解机器学习的使用方式。
数据挖掘是旨在探索数据的重要分析过程。它是根据不同角度分析数据的隐藏模式,分类为有用信息的过程,这些信息被收集并组装在数据仓库等公共区域中,以进行高效分析、数据挖掘算法、促进业务决策和其他信息需求最终削减成本并增加收入。
掌握数据挖掘的资源:
数据挖掘的工作原理 - 迄今为止我发现的带有最佳解释的精彩视频“看门人工作”是洞察力的关键障碍:有趣的文章,详细介绍了数据科学领域中数据挖掘实践的重要性。
数据可视化是一个通用术语,描述了通过将数据置于视觉环境中来帮助人们理解数据的重要性的努力。
掌握数据可视化的资源:
数据可视化初学者指南
什么是良好的数据可视化
只学习理论不是很有趣,你需要尝试实践。数据科学家的初学者对此有一些不错的选择:
Use Kaggle, a website dedicated to Data Science. It constantly hosts data analysis competitions in which you can take part. There are also a large number of open data sets that you can analyze and publish your results. In addition, you can watch scripts published by other participants (on Kaggle, such scripts are called Kernels) and learn from successful experience.
在您学习完分析数据所需的所有内容并尝试完成开放任务和竞赛之后,然后开始寻找工作。当然,你只会说好话,但你有权利怀疑你的话。然后您将演示独立确认,例如:
Advanced profile on Kaggle. Kaggle has a ranks system, you can go through the steps from beginner to grandmaster. For successful participation in competitions, the publication of scripts and discussions, you can get points that allow you to raise the rating. In addition, the site shows in what competitions you participated, and what are your results.
数据分析程序可以发布在GitHub或其他开放存储库上,然后所有有兴趣的人都可以熟悉它们。包括雇主代表,他们将与您进行面谈。
Final Advice: Don't Be a Copy of a Copy, Find Your Own Way
现在任何人都可以成为数据科学家。公共领域提供了您所需的一切:在线课程、书籍、获得实践经验的竞赛等等。乍一看很好,但你不应该仅仅因为炒作而学习它。我们所听到的关于数据科学的一切都非常酷,而且是 21 世纪最性感的工作。如果这些事情是你的主要动机,那么什么都行不通。悲伤的事实是的,也许我有点夸张了,但这就是我的感受。我现在要说的是,成为一名自学成才的数据科学家是可能的。然而,成功的关键是定期抽出时间学习数据分析及其实际应用的强烈动力。最重要的是,你要学会在学习和工作的过程中获得满足感。
想一想。
祝你好运!
请随意分享您的想法和想法。
下载报告。
走向数据科学
Data Science Repo - 详细的分析报告
克隆此存储库:
git 克隆 https://github.com/iamsivab/Data-Science-Resources.git
从这里检查任何问题。
进行更改并发送 Pull 请求。
?请随时联系我@[email protected]
麻省理工学院 © Sivasubramanian