#Self- Learning
#Guide for Beginners
#Self Learning
#Python
#LearnDataScience
#Machcine Learning
Bueno, en términos generales, la ciencia de datos no es un ámbito determinado ni único, es como una combinación de varias disciplinas que se centran en analizar datos y encontrar las mejores soluciones basadas en ellos. Inicialmente, esas tareas estaban a cargo de especialistas en matemáticas o estadística, pero luego los expertos en datos comenzaron a utilizar el aprendizaje automático y la inteligencia artificial, lo que añadió la optimización y la informática como método para analizar datos. Este nuevo enfoque resultó ser mucho más rápido y eficaz, y por tanto extremadamente popular.
En general, la popularidad de la ciencia de datos radica en el hecho de que abarca la recopilación de grandes conjuntos de datos estructurados y no estructurados y su conversión a un formato legible por humanos, incluida la visualización, el trabajo con estadísticas y métodos analíticos (mecánicos y profundos). aprendizaje, análisis de probabilidad y modelos predictivos, redes neuronales y su aplicación para la resolución de problemas reales.
Inteligencia artificial, aprendizaje automático, aprendizaje profundo y ciencia de datos: sin duda, estos términos principales son los más populares en la actualidad. Y aunque de alguna manera están relacionados, no son lo mismo. Entonces, antes de lanzarse a cualquiera de esos ámbitos, es obligatorio sentir la diferencia.
La Inteligencia Artificial es el ámbito que se centra en la creación de máquinas inteligentes que funcionan y reaccionan como humanos. La IA como estudio se remonta a 1936, cuando Alan Turing construyó las primeras máquinas impulsadas por IA. A pesar de una historia bastante larga, hoy en día la IA en la mayoría de los ámbitos aún no es capaz de sustituir completamente al ser humano. Y la competencia de la IA con los humanos en el ajedrez y el cifrado de datos son dos caras de la misma moneda.
Machine learning is a creating tool for extracting knowledge from data. In ML models can be trained on data independently or in stages: training with a teacher, that is, having human-prepared data or training without a teacher, working with spontaneous, noisy data.
El aprendizaje profundo es la creación de redes neuronales multicapa en áreas donde se necesita un análisis más avanzado o rápido y el aprendizaje automático tradicional no puede hacer frente. La "profundidad" proporciona más de una capa oculta de neuronas en la red que realiza cálculos matemáticos.
Big Data — work with huge amounts of often unstructured data. The specifics of the sphere are tools and systems capable of withstanding high loads.
La ciencia de datos es la adición de significado a conjuntos de datos, la visualización, la recopilación de conocimientos y la toma de decisiones basadas en estos datos. Los especialistas de campo utilizan algunos métodos de aprendizaje automático y Big Data: computación en la nube, herramientas para crear un entorno de desarrollo virtual y mucho más. Las tareas de la ciencia de datos se resumen bien en este diagrama de Venn creado por Drew Conway:
Entonces, ¿qué hace el científico de datos?
Aquí tienes todo lo que necesitas saber al respecto:
- detection of anomalies, for example, abnormal customer behavior, fraud; - personalized marketing — personal e-mail newsletters, retargeting, recommendation systems; - Metric forecasts — performance indicators, quality of advertising campaigns and other activities; - scoring systems — process large amounts of data and help to make a decision, for example, on granting a loan; - asic interaction with the client — standard answers in chat rooms, voice assistants, sorting letters into folders.
Para realizar cualquiera de las tareas anteriores es necesario seguir ciertos pasos:
- Collection Search for channels where you can collect data, and how to get it. - Check. Validation, pruning anomalies that do not affect the result and confuse with further analysis. - Analysis. The study of data, confirmation of assumptions, conclusions. - Visualization. Presentation in a form that will be simple and understandable for perception by a person — in graphs, diagrams. - Act. Making decisions based on the analyzed data, for example, about changing the marketing strategy, increasing the budget for any activity of the company.
Ahora es el momento de avanzar hacia cosas más complicadas. Todos los pasos a continuación probablemente parezcan demasiado difíciles, consuman tiempo y energía y sean bla, bla. Bueno, sí, este camino es difícil si lo percibes como algo que puedes aprender en un mes o incluso en un año. Debes admitir el hecho del aprendizaje constante, el hecho de dar pequeños pasos cada día y estar preparado para ver los errores, estar preparado para volver a intentarlo y contar con un largo período de dominio en este campo.
Entonces, ¿estás realmente preparado para esto? Si es así, sigamos adelante.
“Data Scientist is a person who is better at statistics than any programmer and better at programming than any statistician.” Josh Wills
Si hablamos en general de ciencia de datos, entonces para una comprensión y un trabajo serios necesitamos un curso fundamental en teoría de la probabilidad (y por lo tanto, análisis matemático como herramienta necesaria en la teoría de la probabilidad), álgebra lineal y, por supuesto, estadística matemática. El conocimiento matemático fundamental es importante para poder analizar los resultados de la aplicación de algoritmos de procesamiento de datos. Hay ejemplos de ingenieros relativamente fuertes en aprendizaje automático sin esa experiencia, pero esta es más bien la excepción.
Si la educación universitaria ha dejado muchas lagunas, recomiendo el libro The Elements of Statistical Learning de Hastie, Tibshirani y Friedman. En este libro, las secciones clásicas del aprendizaje automático se presentan en términos de estadística matemática con cálculos matemáticos rigurosos. A pesar de la abundancia de formulaciones y evidencias matemáticas, todos los métodos van acompañados de ejemplos y ejercicios prácticos.
El mejor libro hasta el momento para comprender los principios matemáticos que subyacen a las redes neuronales: Deep Learning de Ian Goodfellow. En la introducción, hay una sección completa sobre todas las matemáticas necesarias para una buena comprensión de las redes neuronales. Otra buena referencia es Neural Networks and Deep Learning de Michael Nielsen; puede que no sea un trabajo fundamental, pero será muy útil para comprender los principios básicos.
Recursos adicionales:
Una guía completa de matemáticas y estadística para ciencia de datos: tutorial interesante y nada aburrido que le ayudará a orientarse bien en el ámbito de las matemáticas y la estadística
Introducción a la estadística para la ciencia de datos: este tutorial ayuda a explicar el teorema del límite central, cubre poblaciones y muestras, distribución muestral, intuición y contiene un video útil para que pueda continuar su aprendizaje.
Una guía completa para principiantes de álgebra lineal para científicos de datos: todo lo que necesita saber sobre álgebra lineal
Álgebra lineal para científicos de datos: artículo increíble para profundizar en un repaso rápido de los conceptos básicos.
De hecho, una gran ventaja sería familiarizarse inmediatamente con los conceptos básicos de programación. Pero como se trata de un proceso que requiere mucho tiempo, puedes simplificar un poco esta tarea. ¿Cómo? Todo es sencillo. Empiece a aprender un idioma y concéntrese en todos los matices de la programación a través de la sintaxis de ese idioma.
But still, it is difficult to do without some kind of general guide. For this reason, I recommend paying attention to this article: Software Development Skills for Data Scientists: Amazing article about important soft skills for programming practice.
Por ejemplo, te aconsejaría que prestes atención a Python. En primer lugar, es perfecto para que lo aprendan los principiantes, tiene una sintaxis relativamente simple. En segundo lugar, Python combina la demanda de especialistas y es multifuncional.
But if these statements don't tell you anything, read more about it here: Python vs R. Choosing the Best Tool for AI, ML & Data Science. Time is a precious resource, so it's better not to disintegrate at once and not just waste it.
Entonces, ¿cómo aprender Python?
Si no tienes conocimientos de programación, te recomiendo leer Automatiza las cosas aburridas con Python. El libro ofrece explicar la programación práctica para principiantes y enseñar desde cero. Lea el Capítulo 6, “Manipulación de cadenas” y complete las tareas prácticas de esta lección. Eso será suficiente.
Aquí hay algunos otros recursos excelentes para explorar:
Codecademy: enseña buena sintaxis general
Aprenda Python de la manera más difícil: un brillante libro similar a un manual que explica tanto los conceptos básicos como las aplicaciones más complejas.
Dataquest: este recurso enseña sintaxis y al mismo tiempo enseña ciencia de datos.
El tutorial de Python: documentación oficial
Aprenda Python en detalle
Después de aprender los conceptos básicos de Python, deberá dedicar tiempo a conocer las bibliotecas principales.
Machine learning allows you to train computers to act independently so that we do not have to write detailed instructions for performing certain tasks. For this reason, machine learning is of great value for almost any area, but first of all, of course, it will work well where there is Data Science.
Lo primero o el primer paso para aprender ML son sus tres grupos principales:
El aprendizaje supervisado es ahora la forma más desarrollada de ML. La idea aquí es que tenga datos históricos con alguna noción de la variable de salida. La variable de salida está destinada a reconocer cómo se puede obtener una buena combinación de varias variables de entrada y los valores de salida correspondientes como datos históricos que se le presentan y luego, en base a eso, intenta crear una función que sea capaz de predecir una salida dada cualquier entrada. Entonces, la idea clave es que los datos históricos estén etiquetados. Etiquetado significa que tiene un valor de salida específico para cada fila de datos que se le presenta⠀ PD. en el caso de la variable de salida, si la variable de salida es discreta se llama CLASIFICACIÓN. Y si es continua se llama REGRESIÓN
2) Unsupervised learning doesn't have the luxury of having labeled historical data input-output. Instead, we can only say that it has a whole bunch of input data, RAW INPUT DATA. It allows us to identify what is known as patterns in the historical input data and interesting insights from the overall perspective. So, the output here is absent and all you need to understand is that is there a pattern being visible in the unsupervised set of input. The beauty of unsupervised learning is that it lends itself to numerous combinations of patterns, that's why unsupervised algorithms are harder.
El aprendizaje por refuerzo ocurre cuando se presentan al algoritmo ejemplos que carecen de etiquetas, como en el aprendizaje no supervisado. Sin embargo, puedes acompañar un ejemplo con comentarios positivos o negativos según la solución que proponga el algoritmo. RL está conectado a aplicaciones para las cuales el algoritmo debe tomar decisiones, y las decisiones tienen consecuencias. Es como aprender por prueba y error. Un ejemplo interesante de RL ocurre cuando las computadoras aprenden a jugar videojuegos por sí mismas. Bien, ahora conoces los conceptos básicos del ML. Después de esto, obviamente necesitas aprender más. Aquí hay excelentes recursos para explorar con este propósito:
Algoritmos de aprendizaje automático supervisados y no supervisados: explicaciones claras y concisas de los tipos de algoritmos de aprendizaje automático. Visualización del aprendizaje automático: excelente visualización que le explica exactamente cómo se utiliza el aprendizaje automático.
La minería de datos es un proceso analítico importante diseñado para explorar datos. Es el proceso de analizar patrones ocultos de datos según diferentes perspectivas para categorizarlos en información útil, que se recopila y ensambla en áreas comunes, como almacenes de datos, para un análisis eficiente, algoritmos de extracción de datos, facilitar la toma de decisiones comerciales y otros requisitos de información. para, en última instancia, reducir costos y aumentar los ingresos.
Recursos para dominar la Minería de Datos:
Cómo funciona la minería de datos: excelente video con la mejor explicación que encontré hasta ahora 'Janitor Work' is Key Hurdle to Insights: artículo interesante que detalla la importancia de las prácticas de minería de datos en el campo de la ciencia de datos.
Visualización de datos es un término general que describe un esfuerzo por ayudar a las personas a comprender el significado de los datos colocándolos en un contexto visual.
Recursos para dominar la visualización de datos:
Guía para principiantes en visualización de datos
Qué hace que una buena visualización de datos sea buena
Estudiar solo la teoría no es muy interesante, debes probar suerte en la práctica. El principiante de Data Scientist tiene algunas buenas opciones para esto:
Use Kaggle, a website dedicated to Data Science. It constantly hosts data analysis competitions in which you can take part. There are also a large number of open data sets that you can analyze and publish your results. In addition, you can watch scripts published by other participants (on Kaggle, such scripts are called Kernels) and learn from successful experience.
Una vez que haya estudiado todo lo que necesita para analizar los datos y probar suerte en tareas abiertas y concursos, comience a buscar trabajo. Por supuesto, sólo dirás cosas buenas, pero tienes derecho a dudar de tus palabras. Luego demostrará confirmaciones independientes, por ejemplo:
Advanced profile on Kaggle. Kaggle has a ranks system, you can go through the steps from beginner to grandmaster. For successful participation in competitions, the publication of scripts and discussions, you can get points that allow you to raise the rating. In addition, the site shows in what competitions you participated, and what are your results.
Los programas de análisis de datos se pueden publicar en GitHub u otros repositorios abiertos, luego todos los interesados pueden familiarizarse con ellos. Incluidos representantes del empleador, quienes lo entrevistarán.
Final Advice: Don't Be a Copy of a Copy, Find Your Own Way
Ahora cualquiera puede convertirse en científico de datos. Todo lo necesario para ello está disponible en el dominio público: cursos online, libros, concursos para adquirir experiencia práctica, etc. Es bueno a primera vista, pero no deberías aprenderlo solo por exageración. Todo lo que escuchamos sobre ciencia de datos es increíblemente genial y es el trabajo más sexy del siglo XXI. Si estas cosas son tu principal motivación, nada funcionará. Triste verdad, sí y tal vez estoy exagerando un poco, pero así es como me siento al respecto. Lo que voy a decir ahora es que es posible convertirse en un científico de datos autodidacta. Sin embargo, la clave del éxito es una gran motivación para encontrar tiempo regularmente para estudiar el análisis de datos y su aplicación práctica. Lo más importante es aprender a obtener satisfacción en el proceso de aprender y trabajar.
Piénselo.
¡Buena suerte!
Siéntase libre de compartir sus ideas y pensamientos.
Descargar para el informe.
Hacia la ciencia de datos
Repositorio de ciencia de datos: un informe detallado sobre el análisis
Clona este repositorio:
clon de git https://github.com/iamsivab/Data-Science-Resources.git
Consulta cualquier incidencia desde aquí.
Realice cambios y envíe Pull Request.
? No dudes en contactarme @ [email protected]
MIT © Sivasubramanian