#Self- Learning
#Guide for Beginners
#Self Learning
#Python
#LearnDataScience
#Machcine Learning
一般的に言えば、データ サイエンスは特定の領域や単一の領域ではなく、データを分析し、それに基づいて最適なソリューションを見つけることに焦点を当てたさまざまな分野の組み合わせのようなものです。当初、これらのタスクは数学または統計の専門家が担当していましたが、その後、データの専門家が機械学習と人工知能を使用し始め、データを分析する方法として最適化とコンピューターサイエンスが追加されました。この新しいアプローチは、はるかに高速かつ効果的であることが判明し、非常に人気がありました。
つまり、データ サイエンスの人気は、大規模な構造化データと非構造化データの収集と、視覚化、統計および分析手法 (機械的および詳細な分析手法) を含む、人間が判読できる形式への変換を含むという事実にあります。学習、確率分析と予測モデル、ニューラル ネットワークと実際の問題を解決するためのその応用。
人工知能、機械学習、深層学習、データ サイエンス — 間違いなく、これらの主要な用語が今日最も人気があります。そして、それらは何らかの形で関連していますが、同じではありません。したがって、これらの領域に飛び込む前に、違いを感じることが必須です。
人工知能は、人間のように動作し反応するインテリジェントなマシンの作成に焦点を当てた領域です。研究としての AI は、アラン チューリングが最初の AI 搭載マシンを構築した 1936 年に遡ります。かなり長い歴史があるにもかかわらず、今日、ほとんどの分野で AI はまだ人間を完全に置き換えることはできません。そして、チェスにおける AI と人間の競争とデータ暗号化は、同じコインの表裏の関係にあります。
Machine learning is a creating tool for extracting knowledge from data. In ML models can be trained on data independently or in stages: training with a teacher, that is, having human-prepared data or training without a teacher, working with spontaneous, noisy data.
ディープラーニングは、より高度な分析や高速な分析が必要で、従来の機械学習では対応できない領域で多層ニューラル ネットワークを作成することです。 「深さ」は、数学的計算を実行するネットワーク内にニューロンの複数の隠れ層を提供します。
Big Data — work with huge amounts of often unstructured data. The specifics of the sphere are tools and systems capable of withstanding high loads.
データ サイエンスとは、一連のデータに意味を追加し、視覚化し、洞察を収集し、これらのデータに基づいて意思決定を行うことです。フィールドスペシャリストは、機械学習とビッグデータのいくつかの方法、つまりクラウドコンピューティング、仮想開発環境を作成するためのツールなどを使用します。データ サイエンスのタスクは、Drew Conway が作成した次のベン図にうまくまとめられています。
では、データサイエンティストは何をする人なのでしょうか?
これについて知っておくべきことは次のとおりです。
- detection of anomalies, for example, abnormal customer behavior, fraud; - personalized marketing — personal e-mail newsletters, retargeting, recommendation systems; - Metric forecasts — performance indicators, quality of advertising campaigns and other activities; - scoring systems — process large amounts of data and help to make a decision, for example, on granting a loan; - asic interaction with the client — standard answers in chat rooms, voice assistants, sorting letters into folders.
上記のタスクのいずれかを実行するには、特定の手順に従う必要があります。
- Collection Search for channels where you can collect data, and how to get it. - Check. Validation, pruning anomalies that do not affect the result and confuse with further analysis. - Analysis. The study of data, confirmation of assumptions, conclusions. - Visualization. Presentation in a form that will be simple and understandable for perception by a person — in graphs, diagrams. - Act. Making decisions based on the analyzed data, for example, about changing the marketing strategy, increasing the budget for any activity of the company.
今は、より複雑な方向に進む時期です。以下の手順はどれも難しすぎて、時間とエネルギーがかかり、どうしようもないように思えるかもしれません。そうですね、この道は、1 か月、さらには 1 年で学べるものだと認識しているのであれば、難しいものです。絶えず学習しているという事実、毎日少しずつ前進しているという事実を認め、間違いを受け入れる準備をし、再挑戦する準備をし、この分野を習得するには長い期間を期待する必要があります。
それで、本当にこの準備はできていますか?ならば、巻きましょう。
“Data Scientist is a person who is better at statistics than any programmer and better at programming than any statistician.” Josh Wills
データ サイエンスについて一般的に話す場合、本格的な理解と研究のためには、確率論 (したがって、確率論に必要なツールとしての数学的分析)、線形代数、そしてもちろん数学統計の基礎コースが必要です。データ処理アルゴリズムを適用した結果を分析できるようにするには、基本的な数学的知識が重要です。そうしたバックグラウンドがなくても機械学習に比較的強いエンジニアの例はありますが、これはむしろ例外です。
大学教育で多くのギャップが残されている場合は、Hastie、Tibshirani、Friedman 著の『The Elements of Statistical Learning』という本をお勧めします。この本では、機械学習の古典的なセクションが、厳密な数学的計算を伴う数学的統計の観点から説明されています。数学的定式化と証拠が豊富にあるにもかかわらず、すべてのメソッドには実践的な例と演習が付属しています。
ニューラル ネットワークの基礎となる数学的原理を理解するための現時点で最良の本は、イアン グッドフェロー著の Deep Learning です。はじめに、ニューラル ネットワークをよく理解するために必要なすべての数学に関するセクション全体があります。もう 1 つの良い参考文献は、Michael Nielsen の『Neural Networks and Deep Learning』です。これは基本的な著作ではないかもしれませんが、基本原理を理解するのに非常に役立ちます。
追加のリソース:
データ サイエンスのための数学と統計の完全ガイド: 数学と統計の分野で適切な方向性を身につけるのに役立つ、クールで退屈ではないウォークスルー
データ サイエンスのための統計学入門: このチュートリアルは、母集団とサンプル、標本分布、直観をカバーする中心極限定理の説明に役立ち、学習を継続できるように役立つビデオが含まれています。
データサイエンティストのための線形代数の包括的な初心者ガイド: 線形代数について知っておくべきことすべて
データ サイエンティストのための線形代数: 基本をざっと理解するための素晴らしい記事です。
実際、プログラミングの基本をすぐに習得できることは大きな利点です。ただし、これは非常に時間のかかるプロセスであるため、このタスクを少し簡略化することができます。どうやって?すべてがシンプルです。 1 つの言語の学習を開始し、その言語の構文を通じてプログラミングのあらゆるニュアンスに焦点を当てます。
But still, it is difficult to do without some kind of general guide. For this reason, I recommend paying attention to this article: Software Development Skills for Data Scientists: Amazing article about important soft skills for programming practice.
たとえば、Python に注目することをお勧めします。まず、構文が比較的単純なので、初心者が学ぶのに最適です。次に、Python は専門家の需要を兼ね備え、多機能です。
But if these statements don't tell you anything, read more about it here: Python vs R. Choosing the Best Tool for AI, ML & Data Science. Time is a precious resource, so it's better not to disintegrate at once and not just waste it.
では、Python を学ぶにはどうすればよいでしょうか?
プログラミングについてまったく理解していない場合は、「Python で退屈なものを自動化する」を読むことをお勧めします。この本は、まったくの初心者向けに実践的なプログラミングを説明し、ゼロから教えます。第 6 章「文字列の操作」を読み、このレッスンの実践的なタスクを完了してください。それで十分でしょう。
他にも参考になる素晴らしいリソースがいくつかあります。
Codecademy — 優れた一般的な構文を教えます
Learn Python the Hard Way — 基本とより複雑なアプリケーションの両方を説明する素晴らしいマニュアルのような本です。
Dataquest — このリソースは構文を教えながらデータ サイエンスも教えます
Python チュートリアル — 公式ドキュメント
Pythonを詳しく学ぶ
Python の基礎を学んだ後は、時間をかけて主要なライブラリを理解する必要があります。
Machine learning allows you to train computers to act independently so that we do not have to write detailed instructions for performing certain tasks. For this reason, machine learning is of great value for almost any area, but first of all, of course, it will work well where there is Data Science.
ML を学習する際の最初のこと、つまり最初のステップは、次の 3 つの主要なグループです。
教師あり学習は現在、ML の最も開発された形式です。ここでの考え方は、出力変数の概念を含む履歴データがあるということです。出力変数は、提示された履歴データとして複数の入力変数と対応する出力値を適切に組み合わせる方法を認識し、それに基づいて任意の入力が与えられた場合の出力を予測できる関数を考え出すことを目的としています。したがって、重要な考え方は、履歴データにラベルを付けるということです。ラベル付きとは、データの行ごとに特定の出力値があり、それがそれに提示されることを意味します⠀ PS。出力変数の場合、出力変数が秘密である場合、それは CLASSIFICATION と呼ばれます。そして、それが連続的である場合、それは回帰と呼ばれます
2) Unsupervised learning doesn't have the luxury of having labeled historical data input-output. Instead, we can only say that it has a whole bunch of input data, RAW INPUT DATA. It allows us to identify what is known as patterns in the historical input data and interesting insights from the overall perspective. So, the output here is absent and all you need to understand is that is there a pattern being visible in the unsupervised set of input. The beauty of unsupervised learning is that it lends itself to numerous combinations of patterns, that's why unsupervised algorithms are harder.
強化学習は、教師なし学習のように、ラベルのない例をアルゴリズムに提示するときに発生します。ただし、アルゴリズムが提案する解決策に応じて、例に正または負のフィードバックを付けることができます。 RL は、アルゴリズムが決定を下す必要があるアプリケーションに接続されており、その決定は結果をもたらします。それはまさに試行錯誤して学習するようなものです。 RL の興味深い例は、コンピューターが自分でビデオ ゲームをプレイすることを学習するときに発生します。さて、これで ML の基本は理解できました。この後は、明らかにさらに学習する必要があります。この目的のために検討すべき優れたリソースは次のとおりです。
教師ありおよび教師なし機械学習アルゴリズム: 機械学習アルゴリズムの種類についての明確かつ簡潔な説明。機械学習の視覚化: 機械学習がどのように使用されるかを正確に説明する優れた視覚化。
データ マイニングは、データを探索するために設計された重要な分析プロセスです。これは、さまざまな視点に従ってデータの隠れたパターンを分析して有用な情報に分類するプロセスであり、効率的な分析、データ マイニング アルゴリズム、ビジネス上の意思決定およびその他の情報要件の促進のために、データ ウェアハウスなどの共通領域に収集および組み立てられます。最終的にはコストを削減し、収益を増加させます。
データマイニングをマスターするためのリソース:
データ マイニングの仕組み — 私がこれまでに見つけた最良の説明を含む素晴らしいビデオ 「管理人の仕事」は洞察への重要なハードルです: データ サイエンスの分野におけるデータ マイニング実践の重要性について詳しく説明した興味深い記事です。
データビジュアライゼーションは、データを視覚的なコンテキストに配置することで、データの重要性を人々が理解できるようにする取り組みを表す一般用語です。
データ視覚化をマスターするためのリソース:
データ視覚化の初心者向けガイド
優れたデータ視覚化の条件
理論だけを勉強してもあまり面白くないので、実践してみる必要があります。データ サイエンティストの初心者には、これに適したオプションがいくつかあります。
Use Kaggle, a website dedicated to Data Science. It constantly hosts data analysis competitions in which you can take part. There are also a large number of open data sets that you can analyze and publish your results. In addition, you can watch scripts published by other participants (on Kaggle, such scripts are called Kernels) and learn from successful experience.
データを分析し、公開されているタスクやコンテストに挑戦するために必要なすべてを学習したら、仕事を探し始めます。もちろん、あなたは良いことだけを言いますが、あなたには自分の言葉を疑う権利があります。次に、次のような独立した確認を示します。
Advanced profile on Kaggle. Kaggle has a ranks system, you can go through the steps from beginner to grandmaster. For successful participation in competitions, the publication of scripts and discussions, you can get points that allow you to raise the rating. In addition, the site shows in what competitions you participated, and what are your results.
データ分析プログラムは GitHub またはその他のオープン リポジトリで公開でき、興味のある人は誰でも知ることができます。あなたと面接を行う雇用主の代表者も含まれます。
Final Advice: Don't Be a Copy of a Copy, Find Your Own Way
今では誰でもデータサイエンティストになれるのです。オンラインコース、書籍、実践経験を積むためのコンテストなど、これに必要なものはすべてパブリックドメインにあります。初めて見るには良いですが、誇大宣伝だけでそれを学ぶべきではありません。データ サイエンスについて私たちが耳にするのは、信じられないほどクールで、21 世紀で最もセクシーな仕事だということです。これらがあなたの主な動機である場合、何もうまくいきません。悲しい真実、はい、少し誇張しているかもしれませんが、それが私がそれについてどのように感じているかです。私が今言いたいのは、独学でデータサイエンティストになることは可能だということです。ただし、成功の鍵は、データ分析とその実際の応用を勉強する時間を定期的に見つける高いモチベーションです。最も重要なことは、学習と作業の過程で満足感を得る方法を学ばなければならないということです。
考えてみてください。
幸運を!
あなたのアイデアや考えを自由に共有してください。
レポートをダウンロードしてください。
データサイエンスに向けて
データ サイエンス リポジトリ - 分析に関する詳細なレポート
このリポジトリのクローンを作成します。
git clone https://github.com/iamsivab/Data-Science-Resources.git
ここから問題を確認してください。
変更を加えてプルリクエストを送信します。
?お気軽に@[email protected]までご連絡ください。
MIT © シヴァスブラマニアン