#Self- Learning
#Guide for Beginners
#Self Learning
#Python
#LearnDataScience
#Machcine Learning
Eh bien, de manière générale, la science des données n'est pas un domaine précis ou unique, c'est comme une combinaison de diverses disciplines qui se concentrent sur l'analyse des données et la recherche des meilleures solutions basées sur celles-ci. Initialement, ces tâches étaient confiées à des spécialistes en mathématiques ou en statistiques, mais les experts en données ont ensuite commencé à utiliser l'apprentissage automatique et l'intelligence artificielle, qui ont ajouté l'optimisation et l'informatique comme méthode d'analyse des données. Cette nouvelle approche s’est avérée beaucoup plus rapide et efficace, et donc extrêmement populaire.
Donc, dans l’ensemble, la popularité de la science des données réside dans le fait qu’elle englobe la collecte de larges gammes de données structurées et non structurées et leur conversion dans un format lisible par l’homme, y compris la visualisation, le travail avec les statistiques et les méthodes analytiques – machines et profondes. apprentissage, analyse de probabilité et modèles prédictifs, réseaux de neurones et leur application pour résoudre des problèmes réels.
Intelligence artificielle, apprentissage automatique, apprentissage profond et science des données : ces termes majeurs sont sans aucun doute les plus populaires aujourd'hui. Et même s’ils sont liés d’une manière ou d’une autre, ils ne sont pas identiques. Ainsi, avant de se lancer dans l’un de ces domaines, il est obligatoire de ressentir la différence.
L'intelligence artificielle est le domaine axé sur la création de machines intelligentes qui fonctionnent et réagissent comme les humains. L'IA en tant qu'étude remonte à 1936, lorsque Alan Turing a construit les premières machines alimentées par l'IA. Malgré une histoire assez longue, l’IA n’est pas encore capable de remplacer complètement l’humain dans la plupart des domaines. Et la concurrence de l’IA avec les humains aux échecs et le cryptage des données sont les deux faces d’une même médaille.
Machine learning is a creating tool for extracting knowledge from data. In ML models can be trained on data independently or in stages: training with a teacher, that is, having human-prepared data or training without a teacher, working with spontaneous, noisy data.
L'apprentissage profond est la création de réseaux neuronaux multicouches dans des domaines où une analyse plus avancée ou plus rapide est nécessaire et où l'apprentissage automatique traditionnel ne peut pas y faire face. La « profondeur » fournit plus d'une couche cachée de neurones dans le réseau qui effectue les calculs mathématiques.
Big Data — work with huge amounts of often unstructured data. The specifics of the sphere are tools and systems capable of withstanding high loads.
La science des données consiste à ajouter du sens à des tableaux de données, à la visualisation, à la collecte d'informations et à la prise de décisions basées sur ces données. Les spécialistes de terrain utilisent certaines méthodes d'apprentissage automatique et de Big Data : cloud computing, outils pour créer un environnement de développement virtuel et bien plus encore. Les tâches de Data Science sont bien résumées par ce diagramme de Venn créé par Drew Conway :
Alors, que fait le Data Scientist ?
Voici tout ce que vous devez savoir à ce sujet :
- detection of anomalies, for example, abnormal customer behavior, fraud; - personalized marketing — personal e-mail newsletters, retargeting, recommendation systems; - Metric forecasts — performance indicators, quality of advertising campaigns and other activities; - scoring systems — process large amounts of data and help to make a decision, for example, on granting a loan; - asic interaction with the client — standard answers in chat rooms, voice assistants, sorting letters into folders.
Pour effectuer l'une des tâches ci-dessus, vous devez suivre certaines étapes :
- Collection Search for channels where you can collect data, and how to get it. - Check. Validation, pruning anomalies that do not affect the result and confuse with further analysis. - Analysis. The study of data, confirmation of assumptions, conclusions. - Visualization. Presentation in a form that will be simple and understandable for perception by a person — in graphs, diagrams. - Act. Making decisions based on the analyzed data, for example, about changing the marketing strategy, increasing the budget for any activity of the company.
Il est désormais temps de passer à des choses plus compliquées. Toutes les étapes ci-dessous vous sembleront probablement trop difficiles, consommatrices de temps et d’énergie et bla bla. Eh bien oui, ce chemin est difficile si vous le percevez comme quelque chose que vous pouvez apprendre en un mois ou même en un an. Il faut admettre le fait d'un apprentissage constant, le fait de faire de petits pas chaque jour et être prêt à voir les erreurs, être prêt à réessayer et compter sur une longue période de maîtrise de ce domaine.
Alors, êtes-vous vraiment prêt pour ce genre de choses ? Si c'est le cas, allons-y.
“Data Scientist is a person who is better at statistics than any programmer and better at programming than any statistician.” Josh Wills
Si nous parlons en général de science des données, alors pour une compréhension et un travail sérieux, nous avons besoin d'un cours fondamental de théorie des probabilités (et donc d'analyse mathématique comme outil nécessaire en théorie des probabilités), d'algèbre linéaire et, bien sûr, de statistiques mathématiques. Des connaissances mathématiques fondamentales sont importantes pour pouvoir analyser les résultats de l'application d'algorithmes de traitement de données. Il existe des exemples d’ingénieurs relativement forts en apprentissage automatique sans une telle formation, mais c’est plutôt l’exception.
Si l’enseignement universitaire a laissé de nombreuses lacunes, je recommande le livre The Elements of Statistical Learning de Hastie, Tibshirani et Friedman. Dans cet ouvrage, les sections classiques de l'apprentissage automatique sont présentées en termes de statistiques mathématiques avec des calculs mathématiques rigoureux. Malgré l'abondance de formulations et de preuves mathématiques, toutes les méthodes sont accompagnées d'exemples et d'exercices pratiques.
Le meilleur livre du moment pour comprendre les principes mathématiques qui sous-tendent les réseaux de neurones — Deep Learning de Ian Goodfellow. Dans l’introduction, il y a toute une section sur toutes les mathématiques nécessaires à une bonne compréhension des réseaux de neurones. Une autre bonne référence est Neural Networks and Deep Learning de Michael Nielsen – ce n'est peut-être pas un ouvrage fondamental, mais il sera très utile pour comprendre les principes de base.
Ressources supplémentaires :
Un guide complet des mathématiques et des statistiques pour la science des données : une procédure pas à pas intéressante et pas ennuyeuse pour vous aider à vous orienter dans les domaines des mathématiques et des statistiques.
Introduction aux statistiques pour la science des données : ce didacticiel aide à expliquer le théorème central limite, couvrant les populations et les échantillons, la distribution d'échantillonnage, l'intuition, et contient une vidéo utile pour que vous puissiez continuer votre apprentissage.
Un guide complet du débutant sur l'algèbre linéaire pour les data scientists : tout ce que vous devez savoir sur l'algèbre linéaire
Algèbre linéaire pour les data scientists : article étonnant pour se plonger dans un aperçu rapide des bases.
En fait, un grand avantage serait de se familiariser immédiatement avec les bases de la programmation. Mais comme il s'agit d'un processus qui prend beaucoup de temps, vous pouvez simplifier un peu cette tâche. Comment? Tout est simple. Commencez à apprendre un langage et concentrez-vous sur toutes les nuances de la programmation à travers la syntaxe de ce langage.
But still, it is difficult to do without some kind of general guide. For this reason, I recommend paying attention to this article: Software Development Skills for Data Scientists: Amazing article about important soft skills for programming practice.
Par exemple, je vous conseillerais de faire attention à Python. Premièrement, il est parfait pour les débutants, sa syntaxe est relativement simple. Deuxièmement, Python combine la demande de spécialistes et est multifonctionnel.
But if these statements don't tell you anything, read more about it here: Python vs R. Choosing the Best Tool for AI, ML & Data Science. Time is a precious resource, so it's better not to disintegrate at once and not just waste it.
Alors comment apprendre Python ?
Si vous n'avez aucune compréhension en programmation, je vous recommande de lire Automatiser les trucs ennuyeux avec Python. Le livre propose d'expliquer la programmation pratique pour les débutants et d'enseigner à partir de zéro. Lisez le chapitre 6, « Manipulation de chaînes » et effectuez les tâches pratiques de cette leçon. Cela suffira.
Voici quelques autres excellentes ressources à explorer :
Codecademy – enseigne une bonne syntaxe générale
Apprenez Python à la dure - un brillant livre de type manuel qui explique à la fois les bases et les applications plus complexes.
Dataquest - cette ressource enseigne la syntaxe tout en enseignant également la science des données
Le didacticiel Python — documentation officielle
Apprenez Python en détail
Après avoir appris les bases de Python, vous devez passer du temps à connaître les principales bibliothèques.
Machine learning allows you to train computers to act independently so that we do not have to write detailed instructions for performing certain tasks. For this reason, machine learning is of great value for almost any area, but first of all, of course, it will work well where there is Data Science.
La première chose ou la première étape dans l'apprentissage du ML sont ses trois groupes principaux :
L’apprentissage supervisé est désormais la forme de ML la plus développée. L'idée ici est que vous disposez de données historiques avec une certaine notion de variable de sortie. La variable de sortie est destinée à reconnaître comment vous pouvez une bonne combinaison de plusieurs variables d'entrée et les valeurs de sortie correspondantes sous forme de données historiques qui vous sont présentées, puis sur cette base, vous essayez de proposer une fonction capable de prédire une sortie compte tenu de n'importe quelle entrée. L’idée clé est donc que les données historiques soient étiquetées. Étiqueté signifie que vous disposez d'une valeur de sortie spécifique pour chaque ligne de données qui lui est présentée⠀ PS. dans le cas de la variable de sortie, si la variable de sortie est discrète, on parle de CLASSIFICATION. Et si c'est continu ça s'appelle RÉGRESSION
2) Unsupervised learning doesn't have the luxury of having labeled historical data input-output. Instead, we can only say that it has a whole bunch of input data, RAW INPUT DATA. It allows us to identify what is known as patterns in the historical input data and interesting insights from the overall perspective. So, the output here is absent and all you need to understand is that is there a pattern being visible in the unsupervised set of input. The beauty of unsupervised learning is that it lends itself to numerous combinations of patterns, that's why unsupervised algorithms are harder.
L'apprentissage par renforcement se produit lorsque vous présentez l'algorithme avec des exemples dépourvus d'étiquettes, comme dans l'apprentissage non supervisé. Cependant, vous pouvez accompagner un exemple d’un retour positif ou négatif selon la solution proposée par l’algorithme. RL est connecté à des applications pour lesquelles l'algorithme doit prendre des décisions, et les décisions ont des conséquences. C'est comme apprendre par essais et erreurs. Un exemple intéressant de RL se produit lorsque les ordinateurs apprennent à jouer à des jeux vidéo par eux-mêmes. Alors d'accord, vous connaissez maintenant les bases du ML. Après cela, vous devez évidemment en apprendre davantage. Voici d’excellentes ressources à explorer à cet effet :
Algorithmes d'apprentissage automatique supervisés et non supervisés : explications claires et concises des types d'algorithmes d'apprentissage automatique. Visualisation de l'apprentissage automatique : excellente visualisation qui vous explique exactement comment l'apprentissage automatique est utilisé.
Le Data Mining est un processus analytique important conçu pour explorer les données. Il s'agit du processus d'analyse de modèles de données cachés selon différentes perspectives pour la catégorisation en informations utiles, qui sont collectées et assemblées dans des espaces communs, tels que des entrepôts de données, pour une analyse efficace, des algorithmes d'exploration de données, facilitant la prise de décision commerciale et d'autres besoins en informations. pour finalement réduire les coûts et augmenter les revenus.
Ressources pour maîtriser le Data Mining :
Comment fonctionne l'exploration de données — excellente vidéo avec la meilleure explication que j'ai trouvée jusqu'à présent « Le travail de concierge » est un obstacle clé à la compréhension : article intéressant qui détaille l'importance des pratiques d'exploration de données dans le domaine de la science des données.
La visualisation des données est un terme général qui décrit un effort visant à aider les gens à comprendre l'importance des données en les plaçant dans un contexte visuel.
Ressources pour maîtriser la visualisation des données :
Guide du débutant en visualisation de données
Qu'est-ce qui fait une bonne visualisation des données
Étudier uniquement la théorie n'est pas très intéressant, il faut s'essayer à la pratique. Le débutant Data Scientist dispose de quelques bonnes options pour cela :
Use Kaggle, a website dedicated to Data Science. It constantly hosts data analysis competitions in which you can take part. There are also a large number of open data sets that you can analyze and publish your results. In addition, you can watch scripts published by other participants (on Kaggle, such scripts are called Kernels) and learn from successful experience.
Après avoir étudié tout ce dont vous avez besoin pour analyser les données et vous essayer aux tâches et concours ouverts, commencez à chercher un emploi. Bien sûr, vous ne direz que de bonnes choses, mais vous avez le droit de douter de vos propos. Ensuite, vous démontrerez des confirmations indépendantes, par exemple :
Advanced profile on Kaggle. Kaggle has a ranks system, you can go through the steps from beginner to grandmaster. For successful participation in competitions, the publication of scripts and discussions, you can get points that allow you to raise the rating. In addition, the site shows in what competitions you participated, and what are your results.
Les programmes d'analyse de données peuvent être publiés sur GitHub ou d'autres référentiels ouverts, puis toutes les personnes intéressées peuvent en prendre connaissance. Y compris des représentants de l'employeur, qui mèneront un entretien avec vous.
Final Advice: Don't Be a Copy of a Copy, Find Your Own Way
Désormais, tout le monde peut devenir Data Scientist. Il existe tout ce dont vous avez besoin dans le domaine public : cours en ligne, livres, concours pour acquérir une expérience pratique, etc. C'est bon au premier coup d'œil, mais vous ne devriez pas l'apprendre simplement à cause du battage médiatique. Tout ce que nous entendons sur la science des données, c'est incroyablement cool et c'est le travail le plus sexy du 21e siècle. Si ces choses sont votre principale motivation, rien ne fonctionnera jamais. Triste vérité oui et peut-être que j'exagère un peu mais c'est un peu ce que je ressens à ce sujet. Ce que je vais dire maintenant, c'est que devenir un Data Scientist autodidacte est possible. Cependant, la clé de votre réussite réside dans une grande motivation pour trouver régulièrement du temps pour étudier l’analyse des données et son application pratique. Plus important encore, vous devez apprendre à obtenir de la satisfaction dans le processus d’apprentissage et de travail.
Pensez-y.
Bonne chance!
N'hésitez pas à partager vos idées et vos réflexions.
Téléchargez le rapport.
Vers la science des données
Data Science Repo - Un rapport détaillé sur l'analyse
Clonez ce dépôt :
clone git https://github.com/iamsivab/Data-Science-Resources.git
Consultez n’importe quel problème à partir d’ici.
Apportez des modifications et envoyez une demande de tirage.
? N'hésitez pas à me contacter @ [email protected]
MIT © Sivasubramanian