#Self- Learning
#Guide for Beginners
#Self Learning
#Python
#LearnDataScience
#Machcine Learning
Bem, de modo geral, Data Science não é um domínio determinado ou único, é como uma combinação de várias disciplinas que se concentram na análise de dados e na busca das melhores soluções a partir deles. Inicialmente, essas tarefas eram realizadas por especialistas em matemática ou estatística, mas depois os especialistas em dados começaram a usar o aprendizado de máquina e a inteligência artificial, que agregaram a otimização e a ciência da computação como método de análise de dados. Esta nova abordagem revelou-se muito mais rápida e eficaz e, por isso, extremamente popular.
Portanto, em suma, a popularidade da Ciência de Dados reside no facto de abranger a recolha de grandes conjuntos de dados estruturados e não estruturados e a sua conversão em formato legível por humanos, incluindo visualização, trabalho com estatísticas e métodos analíticos - máquinas e profundos. aprendizagem, análise de probabilidades e modelos preditivos, redes neurais e sua aplicação na resolução de problemas reais.
Inteligência Artificial, Aprendizado de Máquina, Aprendizado Profundo e Ciência de Dados — sem dúvida, esses termos principais são os mais populares atualmente. E embora estejam de alguma forma relacionados, não são a mesma coisa. Portanto, antes de saltar para qualquer um desses domínios, é obrigatório sentir a diferença.
Inteligência Artificial é o domínio que se concentra na criação de máquinas inteligentes que funcionam e reagem como humanos. A IA como estudo remonta a 1936, quando Alan Turing construiu as primeiras máquinas movidas a IA. Apesar de uma longa história, hoje a IA na maioria das áreas ainda não é capaz de substituir completamente um ser humano. E a competição da IA com os humanos no xadrez e a criptografia de dados são as duas faces da mesma moeda.
Machine learning is a creating tool for extracting knowledge from data. In ML models can be trained on data independently or in stages: training with a teacher, that is, having human-prepared data or training without a teacher, working with spontaneous, noisy data.
O aprendizado profundo é a criação de redes neurais multicamadas em áreas onde são necessárias análises mais avançadas ou rápidas e o aprendizado de máquina tradicional não consegue lidar. “Profundidade” fornece mais de uma camada oculta de neurônios na rede que conduz cálculos matemáticos.
Big Data — work with huge amounts of often unstructured data. The specifics of the sphere are tools and systems capable of withstanding high loads.
Ciência de Dados é a adição de significado a matrizes de dados, visualização, coleta de insights e tomada de decisões com base nesses dados. Os especialistas da área utilizam alguns métodos de aprendizado de máquina e Big Data — computação em nuvem, ferramentas para criação de ambiente virtual de desenvolvimento e muito mais. As tarefas da Data Science são bem resumidas neste diagrama de Venn criado por Drew Conway:
Então, o que o Cientista de Dados faz?
Aqui está tudo o que você precisa saber sobre isso:
- detection of anomalies, for example, abnormal customer behavior, fraud; - personalized marketing — personal e-mail newsletters, retargeting, recommendation systems; - Metric forecasts — performance indicators, quality of advertising campaigns and other activities; - scoring systems — process large amounts of data and help to make a decision, for example, on granting a loan; - asic interaction with the client — standard answers in chat rooms, voice assistants, sorting letters into folders.
Para realizar qualquer uma das tarefas acima, você precisa seguir algumas etapas:
- Collection Search for channels where you can collect data, and how to get it. - Check. Validation, pruning anomalies that do not affect the result and confuse with further analysis. - Analysis. The study of data, confirmation of assumptions, conclusions. - Visualization. Presentation in a form that will be simple and understandable for perception by a person — in graphs, diagrams. - Act. Making decisions based on the analyzed data, for example, about changing the marketing strategy, increasing the budget for any activity of the company.
Agora é a hora de avançar para coisas mais complicadas. Todas as etapas abaixo provavelmente parecerão muito difíceis, consumirão tempo e energia e blá, blá. Bem, sim, esse caminho é difícil se você perceber isso como algo que pode aprender em um mês ou até em um ano. Você deve admitir o fato do aprendizado constante, o fato de dar passos de bebê todos os dias e estar pronto para ver os erros, estar pronto para tentar novamente e contar com um longo período de domínio dessa área.
Então, você está realmente pronto para essas coisas? Se sim, vamos rolar.
“Data Scientist is a person who is better at statistics than any programmer and better at programming than any statistician.” Josh Wills
Se falamos em geral sobre Ciência de Dados, então para uma compreensão e trabalho sérios precisamos de um curso fundamental em teoria das probabilidades (e, portanto, análise matemática como uma ferramenta necessária na teoria das probabilidades), álgebra linear e, claro, estatística matemática. O conhecimento matemático fundamental é importante para poder analisar os resultados da aplicação de algoritmos de processamento de dados. Existem exemplos de engenheiros relativamente fortes em aprendizado de máquina sem esse conhecimento, mas esta é uma exceção.
Se a educação universitária deixou muitas lacunas, recomendo o livro The Elements of Statistical Learning, de Hastie, Tibshirani e Friedman. Neste livro, as seções clássicas do aprendizado de máquina são apresentadas em termos de estatística matemática com cálculos matemáticos rigorosos. Apesar da abundância de formulações e evidências matemáticas, todos os métodos são acompanhados de exemplos práticos e exercícios.
O melhor livro do momento para entender os princípios matemáticos subjacentes às redes neurais - Deep Learning, de Ian Goodfellow. Na introdução, há uma seção inteira sobre toda a matemática necessária para um bom entendimento das redes neurais. Mais uma boa referência é Redes Neurais e Aprendizado Profundo de Michael Nielsen — este pode não ser um trabalho fundamental, mas será muito útil para a compreensão dos princípios básicos.
Recursos adicionais:
Um guia completo de matemática e estatística para ciência de dados: passo a passo interessante e nada chato para ajudá-lo a se tornar bem orientado nos domínios da matemática e da estatística
Introdução à Estatística para Ciência de Dados: Este tutorial ajuda a explicar o teorema do limite central, abrangendo populações e amostras, distribuição amostral, intuição, e contém um vídeo útil para que você possa continuar seu aprendizado.
Um guia abrangente para iniciantes em Álgebra Linear para Cientistas de Dados: Tudo o que você precisa saber sobre Álgebra Linear
Álgebra Linear para Cientistas de Dados: Artigo incrível para mergulhar rapidamente no básico.
Na verdade, uma grande vantagem seria familiarizar-se imediatamente com os fundamentos da programação. Mas como este é um processo muito demorado, você pode simplificar um pouco essa tarefa. Como? Tudo é simples. Comece a aprender uma linguagem e concentre-se em todas as nuances da programação através da sintaxe dessa linguagem.
But still, it is difficult to do without some kind of general guide. For this reason, I recommend paying attention to this article: Software Development Skills for Data Scientists: Amazing article about important soft skills for programming practice.
Por exemplo, aconselho você a prestar atenção ao Python. Em primeiro lugar, é perfeito para iniciantes aprenderem, pois possui uma sintaxe relativamente simples. Em segundo lugar, Python combina a demanda por especialistas e é multifuncional.
But if these statements don't tell you anything, read more about it here: Python vs R. Choosing the Best Tool for AI, ML & Data Science. Time is a precious resource, so it's better not to disintegrate at once and not just waste it.
Então, como aprender Python?
Se você não tem nenhum conhecimento de programação, recomendo a leitura Automatize as coisas chatas com Python. O livro oferece explicação de programação prática para iniciantes e ensina do zero. Leia o Capítulo 6, “Manipulação de Strings”, e conclua as tarefas práticas desta lição. Isso será suficiente.
Aqui estão alguns outros ótimos recursos para explorar:
Codecademy — ensina uma boa sintaxe geral
Aprenda Python da maneira mais difícil - um livro brilhante em formato de manual que explica aplicativos básicos e mais complexos.
Dataquest – este recurso ensina sintaxe e ao mesmo tempo ensina ciência de dados
O Tutorial Python — documentação oficial
Aprenda Python em detalhes
Depois de aprender o básico do Python, você precisará dedicar algum tempo conhecendo as principais bibliotecas.
Machine learning allows you to train computers to act independently so that we do not have to write detailed instructions for performing certain tasks. For this reason, machine learning is of great value for almost any area, but first of all, of course, it will work well where there is Data Science.
A primeira coisa ou o primeiro passo para aprender ML são seus três grupos principais:
A aprendizagem supervisionada é agora a forma mais desenvolvida de ML. A ideia aqui é que você tenha dados históricos com alguma noção da variável de saída. A variável de saída destina-se a reconhecer como você pode obter uma boa combinação de várias variáveis de entrada e valores de saída correspondentes como dados históricos apresentados a você e, com base nisso, você tenta criar uma função que seja capaz de prever uma saída dada qualquer entrada. Portanto, a ideia principal é que os dados históricos sejam rotulados. Rotulado significa que você tem um valor de saída específico para cada linha de dados apresentada a ele⠀ PS. no caso da variável de saída, se a variável de saída for discreta, chama-se CLASSIFICAÇÃO. E se for contínuo chama-se REGRESSÃO
2) Unsupervised learning doesn't have the luxury of having labeled historical data input-output. Instead, we can only say that it has a whole bunch of input data, RAW INPUT DATA. It allows us to identify what is known as patterns in the historical input data and interesting insights from the overall perspective. So, the output here is absent and all you need to understand is that is there a pattern being visible in the unsupervised set of input. The beauty of unsupervised learning is that it lends itself to numerous combinations of patterns, that's why unsupervised algorithms are harder.
O aprendizado por reforço ocorre quando você apresenta ao algoritmo exemplos sem rótulos, como no aprendizado não supervisionado. Porém, você pode acompanhar um exemplo com feedback positivo ou negativo de acordo com a solução que o algoritmo propõe. RL está conectado a aplicações para as quais o algoritmo deve tomar decisões, e as decisões trazem consequências. É como aprender por tentativa e erro. Um exemplo interessante de RL ocorre quando os computadores aprendem a jogar videogames sozinhos. Tudo bem, agora você conhece o básico do ML. Depois disso, você obviamente precisa aprender mais. Aqui estão ótimos recursos para explorar para essa finalidade:
Algoritmos de aprendizado de máquina supervisionados e não supervisionados: explicações claras e concisas dos tipos de algoritmos de aprendizado de máquina. Visualização de aprendizado de máquina: excelente visualização que mostra exatamente como o aprendizado de máquina é usado.
A mineração de dados é um importante processo analítico projetado para explorar dados. É o processo de análise de padrões ocultos de dados de acordo com diferentes perspectivas para categorização em informações úteis, que são coletadas e montadas em áreas comuns, como data warehouses, para análises eficientes, algoritmos de mineração de dados, facilitando a tomada de decisões de negócios e outros requisitos de informação. para, em última análise, cortar custos e aumentar a receita.
Recursos para dominar a mineração de dados:
Como funciona a mineração de dados — ótimo vídeo com a melhor explicação que encontrei até agora 'Trabalho de zelador' é o principal obstáculo para insights: artigo interessante que detalha a importância das práticas de mineração de dados no campo da ciência de dados.
Visualização de dados é um termo geral que descreve um esforço para ajudar as pessoas a compreender o significado dos dados, colocando-os em um contexto visual.
Recursos para dominar a visualização de dados:
Guia para iniciantes em visualização de dados
O que torna uma boa visualização de dados
Estudar apenas a teoria não é muito interessante, é preciso tentar a prática. O iniciante do Cientista de Dados tem algumas boas opções para isso:
Use Kaggle, a website dedicated to Data Science. It constantly hosts data analysis competitions in which you can take part. There are also a large number of open data sets that you can analyze and publish your results. In addition, you can watch scripts published by other participants (on Kaggle, such scripts are called Kernels) and learn from successful experience.
Depois de estudar tudo o que você precisa para analisar os dados e experimentar tarefas e concursos abertos, comece a procurar emprego. Claro, você dirá apenas coisas boas, mas tem o direito de duvidar de suas palavras. Então você demonstrará confirmações independentes, por exemplo:
Advanced profile on Kaggle. Kaggle has a ranks system, you can go through the steps from beginner to grandmaster. For successful participation in competitions, the publication of scripts and discussions, you can get points that allow you to raise the rating. In addition, the site shows in what competitions you participated, and what are your results.
Os programas de análise de dados podem ser publicados no GitHub ou em outros repositórios abertos, para que todos os interessados possam conhecê-los. Incluindo representantes do empregador, que realizarão uma entrevista com você.
Final Advice: Don't Be a Copy of a Copy, Find Your Own Way
Agora qualquer pessoa pode se tornar Cientista de Dados. Tudo o que você precisa para isso é de domínio público: cursos online, livros, concursos para aquisição de experiência prática e assim por diante. É bom à primeira vista, mas você não deve aprender apenas por causa do exagero. Tudo o que ouvimos sobre Data Science é incrivelmente legal e é o trabalho mais sexy do século XXI. Se essas coisas forem a principal motivação para você, nada funcionará. Triste verdade, sim, e talvez eu esteja exagerando um pouco, mas é assim que me sinto. O que vou dizer agora é que se tornar um Cientista de Dados autodidata é possível. No entanto, a chave do seu sucesso é uma grande motivação para encontrar regularmente tempo para estudar a análise de dados e sua aplicação prática. Mais importante ainda, você precisa aprender a obter satisfação no processo de aprendizagem e trabalho.
Pense nisso.
Boa sorte!
Sinta-se à vontade para compartilhar suas idéias e pensamentos.
Baixe para o relatório.
Rumo à ciência de dados
Data Science Repo - Um relatório detalhado sobre a análise
Clone este repositório:
clone do git https://github.com/iamsivab/Data-Science-Resources.git
Confira qualquer problema aqui.
Faça alterações e envie Pull Request.
? Sinta-se à vontade para entrar em contato comigo @ [email protected]
MIT © Sivasubramanian