#Self- Learning
#Guide for Beginners
#Self Learning
#Python
#LearnDataScience
#Machcine Learning
Nun, im Allgemeinen ist Data Science kein bestimmter Bereich, sondern eine Kombination verschiedener Disziplinen, die sich darauf konzentrieren, Daten zu analysieren und darauf basierend die besten Lösungen zu finden. Ursprünglich wurden diese Aufgaben von Mathematik- oder Statistikspezialisten übernommen, doch dann begannen Datenexperten, maschinelles Lernen und künstliche Intelligenz zu nutzen, wodurch Optimierung und Informatik als Methoden zur Datenanalyse hinzukamen. Dieser neue Ansatz erwies sich als viel schneller und effektiver und erfreute sich großer Beliebtheit.
Alles in allem liegt die Popularität von Data Science darin begründet, dass es die Sammlung großer Mengen strukturierter und unstrukturierter Daten und deren Umwandlung in ein für Menschen lesbares Format umfasst, einschließlich Visualisierung, Arbeit mit Statistiken und Analysemethoden – maschinell und tiefgreifend Lernen, Wahrscheinlichkeitsanalyse und Vorhersagemodelle, neuronale Netze und deren Anwendung zur Lösung tatsächlicher Probleme.
Künstliche Intelligenz, maschinelles Lernen, Deep Learning und Data Science – diese wichtigen Begriffe sind heute zweifellos die beliebtesten. Und obwohl sie irgendwie verwandt sind, sind sie nicht dasselbe. Bevor man sich also in eines dieser Bereiche begibt, muss man unbedingt den Unterschied spüren.
Künstliche Intelligenz ist der Bereich, der sich auf die Schaffung intelligenter Maschinen konzentriert, die wie Menschen funktionieren und reagieren. Die KI-Studie geht auf das Jahr 1936 zurück, als Alan Turing die ersten Maschinen mit KI-Antrieb baute. Trotz einer recht langen Geschichte ist KI heute in den meisten Bereichen noch nicht in der Lage, den Menschen vollständig zu ersetzen. Und die Konkurrenz der KI mit dem Menschen im Schach und die Datenverschlüsselung sind zwei Seiten derselben Medaille.
Machine learning is a creating tool for extracting knowledge from data. In ML models can be trained on data independently or in stages: training with a teacher, that is, having human-prepared data or training without a teacher, working with spontaneous, noisy data.
Unter Deep Learning versteht man die Schaffung mehrschichtiger neuronaler Netze in Bereichen, in denen fortgeschrittenere oder schnellere Analysen erforderlich sind und herkömmliches maschinelles Lernen nicht zurechtkommt. „Depth“ stellt mehr als eine verborgene Schicht von Neuronen im Netzwerk bereit, die mathematische Berechnungen durchführt.
Big Data — work with huge amounts of often unstructured data. The specifics of the sphere are tools and systems capable of withstanding high loads.
Unter Data Science versteht man das Hinzufügen von Bedeutung zu Arrays von Daten, die Visualisierung, das Sammeln von Erkenntnissen und das Treffen von Entscheidungen auf der Grundlage dieser Daten. Die Fachspezialisten nutzen einige Methoden des maschinellen Lernens und Big Data – Cloud Computing, Tools zur Erstellung einer virtuellen Entwicklungsumgebung und vieles mehr. Die Aufgaben von Data Science werden durch dieses von Drew Conway erstellte Venn-Diagramm gut zusammengefasst:
Was macht ein Data Scientist?
Hier finden Sie alles, was Sie darüber wissen müssen:
- detection of anomalies, for example, abnormal customer behavior, fraud; - personalized marketing — personal e-mail newsletters, retargeting, recommendation systems; - Metric forecasts — performance indicators, quality of advertising campaigns and other activities; - scoring systems — process large amounts of data and help to make a decision, for example, on granting a loan; - asic interaction with the client — standard answers in chat rooms, voice assistants, sorting letters into folders.
Um eine der oben genannten Aufgaben auszuführen, müssen Sie bestimmte Schritte ausführen:
- Collection Search for channels where you can collect data, and how to get it. - Check. Validation, pruning anomalies that do not affect the result and confuse with further analysis. - Analysis. The study of data, confirmation of assumptions, conclusions. - Visualization. Presentation in a form that will be simple and understandable for perception by a person — in graphs, diagrams. - Act. Making decisions based on the analyzed data, for example, about changing the marketing strategy, increasing the budget for any activity of the company.
Jetzt ist es an der Zeit, sich komplizierteren Dingen zuzuwenden. Alle folgenden Schritte werden Ihnen wahrscheinlich zu schwer, zeit- und energieaufwändig und bla bla erscheinen. Nun ja, dieser Weg ist schwierig, wenn man ihn als etwas ansieht, das man in einem Monat oder sogar in einem Jahr lernen kann. Sie sollten die Tatsache des ständigen Lernens zugeben, die Tatsache, jeden Tag kleine Schritte zu machen, und bereit sein, Fehler zu erkennen, bereit sein, es noch einmal zu versuchen, und damit rechnen, dass Sie dieses Gebiet lange beherrschen.
Bist du also wirklich bereit für dieses Zeug? Wenn ja, dann lasst uns loslegen.
“Data Scientist is a person who is better at statistics than any programmer and better at programming than any statistician.” Josh Wills
Wenn wir allgemein über Data Science sprechen, dann benötigen wir für ein ernsthaftes Verständnis und eine ernsthafte Arbeit einen grundlegenden Kurs in Wahrscheinlichkeitstheorie (und daher in der mathematischen Analyse als notwendiges Werkzeug in der Wahrscheinlichkeitstheorie), linearer Algebra und natürlich mathematischer Statistik. Grundlegende mathematische Kenntnisse sind wichtig, um die Ergebnisse der Anwendung von Datenverarbeitungsalgorithmen analysieren zu können. Es gibt Beispiele für relativ starke Ingenieure im maschinellen Lernen ohne einen solchen Hintergrund, aber das ist eher die Ausnahme.
Wenn die universitäre Ausbildung viele Lücken hinterlassen hat, empfehle ich das Buch „The Elements of Statistical Learning“ von Hastie, Tibshirani und Friedman. In diesem Buch werden die klassischen Abschnitte des maschinellen Lernens anhand der mathematischen Statistik mit strengen mathematischen Berechnungen dargestellt. Trotz der Fülle an mathematischen Formulierungen und Belegen werden alle Methoden durch praktische Beispiele und Übungen begleitet.
Das derzeit beste Buch, um die mathematischen Prinzipien zu verstehen, die neuronalen Netzen zugrunde liegen – Deep Learning von Ian Goodfellow. In der Einleitung gibt es einen ganzen Abschnitt über die gesamte Mathematik, die für ein gutes Verständnis neuronaler Netze erforderlich ist. Eine weitere gute Referenz ist „Neural Networks and Deep Learning“ von Michael Nielsen – dies ist zwar kein grundlegendes Werk, aber für das Verständnis der Grundprinzipien sehr nützlich.
Zusätzliche Ressourcen:
Ein vollständiger Leitfaden zu Mathematik und Statistik für die Datenwissenschaft: Coole und nicht langweilige Komplettlösung, die Ihnen hilft, sich in den Bereichen Mathematik und Statistik gut zu orientieren
Einführung in die Statistik für die Datenwissenschaft: Dieses Tutorial hilft bei der Erläuterung des zentralen Grenzwertsatzes, deckt Populationen und Stichproben, Stichprobenverteilung und Intuition ab und enthält ein nützliches Video, damit Sie Ihr Lernen fortsetzen können.
Ein umfassender Einsteigerleitfaden zur linearen Algebra für Datenwissenschaftler: Alles, was Sie über lineare Algebra wissen müssen
Lineare Algebra für Datenwissenschaftler: Erstaunlicher Artikel, der einen schnellen Überblick über die Grundlagen bietet.
Tatsächlich wäre es ein großer Vorteil, sich sofort mit den Grundlagen der Programmierung vertraut zu machen. Da dies jedoch ein sehr zeitaufwändiger Vorgang ist, können Sie diese Aufgabe etwas vereinfachen. Wie? Alles ist einfach. Beginnen Sie mit dem Erlernen einer Sprache und konzentrieren Sie sich auf alle Nuancen der Programmierung anhand der Syntax dieser Sprache.
But still, it is difficult to do without some kind of general guide. For this reason, I recommend paying attention to this article: Software Development Skills for Data Scientists: Amazing article about important soft skills for programming practice.
Ich würde Ihnen zum Beispiel raten, auf Python zu achten. Erstens ist es perfekt für Anfänger geeignet, da es eine relativ einfache Syntax hat. Zweitens vereint Python den Bedarf an Spezialisten und ist multifunktional.
But if these statements don't tell you anything, read more about it here: Python vs R. Choosing the Best Tool for AI, ML & Data Science. Time is a precious resource, so it's better not to disintegrate at once and not just waste it.
Wie lernt man Python?
Wenn Sie keine Programmierkenntnisse haben, empfehle ich die Lektüre von „Automate the Boring Stuff With Python“. Das Buch bietet die Möglichkeit, die praktische Programmierung für absolute Anfänger zu erklären und von Grund auf zu unterrichten. Lesen Sie Kapitel 6, „String-Manipulation“, und erledigen Sie die praktischen Aufgaben für diese Lektion. Das wird reichen.
Hier sind einige weitere großartige Ressourcen, die es zu erkunden gilt:
Codecademy – lehrt gute allgemeine Syntax
Lernen Sie Python auf die harte Tour – ein brillantes, handbuchähnliches Buch, das sowohl Grundlagen als auch komplexere Anwendungen erklärt.
Dataquest – diese Ressource lehrt Syntax und lehrt gleichzeitig Datenwissenschaft
Das Python-Tutorial – offizielle Dokumentation
Lernen Sie Python im Detail
Nachdem Sie die Grundlagen von Python erlernt haben, müssen Sie sich die Zeit nehmen, die wichtigsten Bibliotheken kennenzulernen.
Machine learning allows you to train computers to act independently so that we do not have to write detailed instructions for performing certain tasks. For this reason, machine learning is of great value for almost any area, but first of all, of course, it will work well where there is Data Science.
Das Erste oder der erste Schritt beim Erlernen von ML sind die drei Hauptgruppen:
Überwachtes Lernen ist mittlerweile die am weitesten entwickelte Form von ML. Die Idee dabei ist, dass Sie über historische Daten mit einer Vorstellung von der Ausgabevariablen verfügen. Die Ausgabevariable dient dazu, zu erkennen, wie Sie eine gute Kombination aus mehreren Eingabevariablen und entsprechenden Ausgabewerten als historische Daten erstellen können und dann versuchen, auf dieser Grundlage eine Funktion zu entwickeln, die in der Lage ist, eine Ausgabe bei jeder Eingabe vorherzusagen. Der Schlüsselgedanke besteht also darin, historische Daten zu kennzeichnen. Beschriftet bedeutet, dass Sie für jede angezeigte Datenzeile einen bestimmten Ausgabewert haben. ⠀ PS. Wenn die Ausgabevariable im Fall der Ausgabevariablen diskret ist, wird sie als KLASSIFIZIERUNG bezeichnet. Und wenn es kontinuierlich ist, nennt man es REGRESSION
2) Unsupervised learning doesn't have the luxury of having labeled historical data input-output. Instead, we can only say that it has a whole bunch of input data, RAW INPUT DATA. It allows us to identify what is known as patterns in the historical input data and interesting insights from the overall perspective. So, the output here is absent and all you need to understand is that is there a pattern being visible in the unsupervised set of input. The beauty of unsupervised learning is that it lends itself to numerous combinations of patterns, that's why unsupervised algorithms are harder.
Reinforcement Learning findet statt, wenn Sie dem Algorithmus Beispiele ohne Labels präsentieren, wie beim unbeaufsichtigten Lernen. Sie können ein Beispiel jedoch je nach Lösungsvorschlag des Algorithmus mit positivem oder negativem Feedback versehen. RL ist mit Anwendungen verbunden, für die der Algorithmus Entscheidungen treffen muss, und die Entscheidungen haben Konsequenzen. Es ist wie Lernen durch Versuch und Irrtum. Ein interessantes Beispiel für RL entsteht, wenn Computer lernen, selbst Videospiele zu spielen. Also gut, jetzt kennen Sie die Grundlagen von ML. Danach müssen Sie natürlich mehr lernen. Hier sind großartige Ressourcen, die Sie zu diesem Zweck erkunden können:
Überwachte und unbeaufsichtigte Algorithmen für maschinelles Lernen: Klare, prägnante Erklärungen der Arten von Algorithmen für maschinelles Lernen. Visualisierung von maschinellem Lernen: Hervorragende Visualisierung, die Sie genau durch die Verwendung von maschinellem Lernen führt.
Data Mining ist ein wichtiger Analyseprozess zur Erforschung von Daten. Dabei handelt es sich um den Prozess der Analyse verborgener Datenmuster aus verschiedenen Perspektiven zur Kategorisierung in nützliche Informationen, die in gemeinsamen Bereichen wie Data Warehouses für effiziente Analysen, Data-Mining-Algorithmen, zur Erleichterung der Geschäftsentscheidungsfindung und für andere Informationsanforderungen gesammelt und zusammengestellt werden um letztendlich Kosten zu senken und den Umsatz zu steigern.
Ressourcen zur Beherrschung von Data Mining:
Wie Data Mining funktioniert – tolles Video mit der besten Erklärung, die ich bisher gefunden habe. „Hausmeisterarbeit“ ist die größte Hürde für Einblicke: Interessanter Artikel, der detailliert auf die Bedeutung von Data Mining-Praktiken im Bereich der Datenwissenschaft eingeht.
Datenvisualisierung ist ein allgemeiner Begriff, der den Versuch beschreibt, Menschen dabei zu helfen, die Bedeutung von Daten zu verstehen, indem sie in einen visuellen Kontext gestellt werden.
Ressourcen zur Beherrschung der Datenvisualisierung:
Leitfaden für Einsteiger in die Datenvisualisierung
Was eine gute Datenvisualisierung ausmacht
Nur die Theorie zu studieren ist nicht sehr interessant, man muss sich in der Praxis versuchen. Einsteiger in Data Scientist haben dafür ein paar gute Möglichkeiten:
Use Kaggle, a website dedicated to Data Science. It constantly hosts data analysis competitions in which you can take part. There are also a large number of open data sets that you can analyze and publish your results. In addition, you can watch scripts published by other participants (on Kaggle, such scripts are called Kernels) and learn from successful experience.
Nachdem Sie alles Notwendige studiert haben, um die Daten zu analysieren und sich an offenen Aufgaben und Wettbewerben zu versuchen, beginnen Sie mit der Jobsuche. Natürlich werden Sie nur Gutes sagen, aber Sie haben das Recht, an Ihren Worten zu zweifeln. Dann weisen Sie unabhängige Bestätigungen nach, zum Beispiel:
Advanced profile on Kaggle. Kaggle has a ranks system, you can go through the steps from beginner to grandmaster. For successful participation in competitions, the publication of scripts and discussions, you can get points that allow you to raise the rating. In addition, the site shows in what competitions you participated, and what are your results.
Datenanalyseprogramme können auf GitHub oder anderen offenen Repositories veröffentlicht werden, dann können sich alle Interessierten damit vertraut machen. Einschließlich Vertreter des Arbeitgebers, die mit Ihnen ein Vorstellungsgespräch führen.
Final Advice: Don't Be a Copy of a Copy, Find Your Own Way
Jetzt kann jeder Data Scientist werden. Im öffentlichen Bereich gibt es alles, was Sie dafür brauchen: Online-Kurse, Bücher, Wettbewerbe zum Sammeln praktischer Erfahrungen und so weiter. Für den ersten Blick ist es gut, aber man sollte es nicht nur wegen des Hypes lernen. Alles, was wir über Data Science hören, ist unglaublich cool und der attraktivste Job des 21. Jahrhunderts. Wenn diese Dinge für Sie die Hauptmotivation sind, wird nie etwas funktionieren. Traurige Wahrheit, ja, und vielleicht übertreibe ich ein bisschen, aber so denke ich darüber. Was ich jetzt sagen möchte, ist, dass es möglich ist, ein autodidaktischer Datenwissenschaftler zu werden. Der Schlüssel zu Ihrem Erfolg liegt jedoch in einer hohen Motivation, sich regelmäßig Zeit für das Studium der Datenanalyse und ihrer praktischen Anwendung zu nehmen. Am wichtigsten ist, dass Sie lernen, Zufriedenheit im Lern- und Arbeitsprozess zu finden.
Denken Sie darüber nach.
Viel Glück!
Teilen Sie gerne Ihre Ideen und Gedanken mit.
Zum Bericht herunterladen.
Auf dem Weg zur Datenwissenschaft
Data Science Repo – Ein detaillierter Bericht zur Analyse
Klonen Sie dieses Repository:
Git-Klon https://github.com/iamsivab/Data-Science-Resources.git
Schauen Sie sich hier alle Probleme an.
Nehmen Sie Änderungen vor und senden Sie eine Pull-Anfrage.
? Kontaktieren Sie mich gerne unter [email protected]
MIT © Sivasubramanian