Notebook(s) IPython demonstrando funcionalidade de aprendizado profundo.
Tutoriais adicionais do TensorFlow:
Caderno | Descrição |
---|---|
tsf-básico | Aprenda operações básicas no TensorFlow, uma biblioteca do Google para vários tipos de tarefas de percepção e compreensão de linguagem. |
tsf-linear | Implemente a regressão linear no TensorFlow. |
tsf-logística | Implemente a regressão logística no TensorFlow. |
tsf-nn | Implemente os vizinhos mais próximos no TensorFlow. |
tsf-alex | Implemente AlexNet no TensorFlow. |
tsf-cnn | Implemente redes neurais convolucionais no TensorFlow. |
tsf-mlp | Implemente perceptrons multicamadas no TensorFlow. |
tsf-rnn | Implemente redes neurais recorrentes no TensorFlow. |
tsf-gpu | Saiba mais sobre a computação básica de várias GPUs no TensorFlow. |
tsf-gviz | Saiba mais sobre a visualização de gráficos no TensorFlow. |
tsf-lviz | Saiba mais sobre a visualização de perdas no TensorFlow. |
Caderno | Descrição |
---|---|
tsf-não-mnist | Aprenda a curadoria de dados simples criando um pickle com conjuntos de dados formatados para treinamento, desenvolvimento e teste no TensorFlow. |
tsf-totalmente conectado | Treine progressivamente modelos mais profundos e precisos usando regressão logística e redes neurais no TensorFlow. |
regularização tsf | Explore técnicas de regularização treinando redes totalmente conectadas para classificar caracteres notMNIST no TensorFlow. |
convoluções tsf | Crie redes neurais convolucionais no TensorFlow. |
tsf-word2vec | Treine um modelo skip-gram em dados Text8 no TensorFlow. |
tsf-lstm | Treine um modelo de personagem LSTM em dados Text8 no TensorFlow. |
Caderno | Descrição |
---|---|
theano-introdução | Introdução ao Theano, que permite definir, otimizar e avaliar expressões matemáticas envolvendo matrizes multidimensionais de forma eficiente. Ele pode usar GPUs e realizar diferenciação simbólica eficiente. |
theano-scan | Aprenda scans, um mecanismo para realizar loops em um gráfico Theano. |
teano-logística | Implemente a regressão logística em Theano. |
Theano-rnn | Implemente redes neurais recorrentes em Theano. |
theano-mlp | Implemente perceptrons multicamadas em Theano. |
Caderno | Descrição |
---|---|
Keras | Keras é uma biblioteca de rede neural de código aberto escrita em Python. Ele é capaz de rodar em cima do Tensorflow ou do Theano. |
configurar | Saiba mais sobre os objetivos do tutorial e como configurar seu ambiente Keras. |
introdução-aprendizagem profunda-ann | Obtenha uma introdução ao aprendizado profundo com Keras e redes neurais artificiais (ANN). |
Theano | Aprenda sobre Theano trabalhando com matrizes de pesos e gradientes. |
keras-otto | Aprenda mais sobre Keras observando o desafio Kaggle Otto. |
ann-mnista | Revise uma implementação simples de RNA para MNIST usando Keras. |
redes de conversão | Aprenda sobre Redes Neurais Convolucionais (CNNs) com Keras. |
conv-net-1 | Reconheça dígitos manuscritos do MNIST usando Keras - Parte 1. |
conv-net-2 | Reconheça dígitos manuscritos do MNIST usando Keras - Parte 2. |
modelos keras | Use modelos pré-treinados como VGG16, VGG19, ResNet50 e Inception v3 com Keras. |
codificadores automáticos | Aprenda sobre codificadores automáticos com Keras. |
rnn-lstm | Aprenda sobre redes neurais recorrentes (RNNs) com Keras. |
lstm-sentença-gen | Saiba mais sobre RNNs usando redes Long Short Term Memory (LSTM) com Keras. |
Caderno | Descrição |
---|---|
sonho profundo | Programa de visão computacional baseado em Caffe que usa uma rede neural convolucional para encontrar e aprimorar padrões em imagens. |
Notebook(s) IPython demonstrando a funcionalidade do scikit-learn.
Caderno | Descrição |
---|---|
introdução | Caderno de introdução ao scikit-learn. Scikit-learn adiciona suporte Python para matrizes e matrizes grandes e multidimensionais, junto com uma grande biblioteca de funções matemáticas de alto nível para operar nessas matrizes. |
sabe | Implemente k-vizinhos mais próximos no scikit-learn. |
registro linear | Implemente a regressão linear no scikit-learn. |
SVM | Implemente classificadores de máquinas de vetores de suporte com e sem kernels no scikit-learn. |
floresta aleatória | Implemente classificadores e regressores florestais aleatórios no scikit-learn. |
k-significa | Implemente o agrupamento k-means no scikit-learn. |
PCA | Implemente a análise de componentes principais no scikit-learn. |
gmm | Implemente modelos de mistura gaussiana no scikit-learn. |
validação | Implemente validação e seleção de modelo no scikit-learn. |
Notebook(s) IPython demonstrando inferência estatística com funcionalidade SciPy.
Caderno | Descrição |
---|---|
picante | SciPy é uma coleção de algoritmos matemáticos e funções de conveniência construídas na extensão Numpy do Python. Ele adiciona um poder significativo à sessão interativa do Python, fornecendo ao usuário comandos e classes de alto nível para manipulação e visualização de dados. |
tamanho do efeito | Explore estatísticas que quantificam o tamanho do efeito analisando a diferença de altura entre homens e mulheres. Usa dados do Sistema de Vigilância de Fatores de Risco Comportamentais (BRFSS) para estimar a média e o desvio padrão da altura para mulheres e homens adultos nos Estados Unidos. |
amostragem | Explore a amostragem aleatória analisando o peso médio de homens e mulheres nos Estados Unidos usando dados do BRFSS. |
hipótese | Explore testes de hipóteses analisando a diferença entre os primogênitos em comparação com outros. |
Notebook(s) IPython demonstrando a funcionalidade do pandas.
Caderno | Descrição |
---|---|
pandas | Biblioteca de software escrita para manipulação e análise de dados em Python. Oferece estruturas de dados e operações para manipulação de tabelas numéricas e séries temporais. |
disputa de dados no github | Aprenda como carregar, limpar, mesclar e criar recursos analisando dados do GitHub do repositório Viz . |
Introdução aos Pandas | Introdução aos pandas. |
Apresentando-Pandas-Objetos | Aprenda sobre objetos Pandas. |
Indexação e seleção de dados | Aprenda sobre indexação e seleção de dados no Pandas. |
Operações em Pandas | Aprenda como operar com dados no Pandas. |
Valores ausentes | Aprenda como lidar com dados ausentes no Pandas. |
Indexação Hierárquica | Aprenda sobre indexação hierárquica no Pandas. |
Concat-e-anexar | Aprenda como combinar conjuntos de dados: concat e anexar no Pandas. |
Mesclar e juntar | Aprenda como combinar conjuntos de dados: mesclar e unir no Pandas. |
Agregação e agrupamento | Aprenda sobre agregação e agrupamento no Pandas. |
Tabelas dinâmicas | Aprenda sobre tabelas dinâmicas no Pandas. |
Trabalhando com Strings | Aprenda sobre operações de string vetorizadas no Pandas. |
Trabalhando com séries temporais | Aprenda como trabalhar com séries temporais em pandas. |
Avaliação e consulta de desempenho | Aprenda sobre Pandas de alto desempenho: eval() e query() em Pandas. |
Notebook(s) IPython demonstrando funcionalidade matplotlib.
Caderno | Descrição |
---|---|
matplotlib | Biblioteca de plotagem 2D Python que produz figuras com qualidade de publicação em uma variedade de formatos impressos e ambientes interativos em várias plataformas. |
aplicado em matplotlib | Aplique visualizações matplotlib a competições Kaggle para análise exploratória de dados. Aprenda como criar gráficos de barras, histogramas, subplot2grid, gráficos normalizados, gráficos de dispersão, subgráficos e gráficos de estimativa de densidade de kernel. |
Introdução ao Matplotlib | Introdução ao Matplotlib. |
Gráficos de linhas simples | Aprenda sobre gráficos de linhas simples no Matplotlib. |
Gráficos de dispersão simples | Aprenda sobre gráficos de dispersão simples no Matplotlib. |
Barras de erros.ipynb | Saiba mais sobre a visualização de erros no Matplotlib. |
Gráficos de densidade e contorno | Aprenda sobre gráficos de densidade e contorno no Matplotlib. |
Histogramas e Binnings | Aprenda sobre histogramas, binnings e densidade no Matplotlib. |
Personalizando-Legendas | Aprenda sobre como personalizar legendas de plotagem no Matplotlib. |
Personalização de barras de cores | Aprenda sobre como personalizar barras de cores no Matplotlib. |
Subtramas múltiplas | Aprenda sobre vários subtramas no Matplotlib. |
Texto e anotação | Aprenda sobre texto e anotação no Matplotlib. |
Personalização de ticks | Aprenda sobre como personalizar ticks no Matplotlib. |
Configurações e folhas de estilo | Aprenda sobre como personalizar o Matplotlib: configurações e folhas de estilo. |
Plotagem tridimensional | Aprenda sobre plotagem tridimensional no Matplotlib. |
Dados geográficos com mapa base | Aprenda sobre dados geográficos com mapa base no Matplotlib. |
Visualização com Seaborn | Aprenda sobre visualização com Seaborn. |
Notebook(s) IPython demonstrando funcionalidade NumPy.
Caderno | Descrição |
---|---|
entorpecido | Adiciona suporte Python para matrizes e arrays grandes e multidimensionais, junto com uma grande biblioteca de funções matemáticas de alto nível para operar nessas matrizes. |
Introdução ao NumPy | Introdução ao NumPy. |
Compreendendo os tipos de dados | Aprenda sobre os tipos de dados em Python. |
O básico de matrizes NumPy | Aprenda sobre os fundamentos dos arrays NumPy. |
Computação em arrays-ufuncs | Aprenda sobre cálculos em arrays NumPy: funções universais. |
Agregados de computação em matrizes | Aprenda sobre agregações: mínimo, máximo e tudo mais no NumPy. |
Transmissão de computação em matrizes | Aprenda sobre computação em arrays: transmissão em NumPy. |
Matrizes e máscaras booleanas | Aprenda sobre comparações, máscaras e lógica booleana no NumPy. |
Indexação sofisticada | Aprenda sobre indexação sofisticada em NumPy. |
Classificando | Aprenda sobre a classificação de arrays no NumPy. |
Dados Estruturados-NumPy | Aprenda sobre dados estruturados: arrays estruturados do NumPy. |
Notebook(s) IPython demonstrando funcionalidade Python voltada para análise de dados.
Caderno | Descrição |
---|---|
estruturas de dados | Aprenda o básico do Python com tuplas, listas, ditados e conjuntos. |
utilitários de estrutura de dados | Aprenda operações Python, como fatia, intervalo, xrange, bisect, classificação, classificação, reversão, enumeração, zip, compreensão de lista. |
funções | Aprenda sobre recursos mais avançados do Python: funções como objetos, funções lambda, fechamentos, *args, **kwargs currying, geradores, expressões geradoras, itertools. |
datahora | Aprenda como trabalhar com datas e horas em Python: datetime, strftime, strptime, timedelta. |
registro | Saiba mais sobre o registro em log do Python com RotatingFileHandler e TimedRotatingFileHandler. |
pdb | Aprenda como depurar em Python com o depurador de código-fonte interativo. |
testes unitários | Aprenda como testar em Python com testes de unidade Nose. |
Notebook(s) IPython usados em competições kaggle e análises de negócios.
Caderno | Descrição |
---|---|
titânico | Preveja a sobrevivência no Titanic. Aprenda limpeza de dados, análise exploratória de dados e aprendizado de máquina. |
análise de rotatividade | Preveja a rotatividade de clientes. Exercite regressão logística, classificadores de aumento de gradiente, máquinas de vetores de suporte, florestas aleatórias e k-vizinhos mais próximos. Inclui discussões sobre matrizes de confusão, gráficos ROC, importâncias de recursos, probabilidades de previsão e calibração/descriminação. |
Notebook(s) IPython demonstrando funcionalidade spark e HDFS.
Caderno | Descrição |
---|---|
fagulha | Estrutura de computação em cluster na memória, até 100 vezes mais rápida para determinados aplicativos e adequada para algoritmos de aprendizado de máquina. |
hdfs | Armazena de forma confiável arquivos muito grandes em máquinas em um cluster grande. |
Notebook(s) IPython demonstrando Hadoop MapReduce com funcionalidade mrjob.
Caderno | Descrição |
---|---|
mapreduce-python | Executa jobs MapReduce em Python, executando jobs localmente ou em clusters Hadoop. Demonstra o Hadoop Streaming em código Python com teste de unidade e arquivo de configuração mrjob para analisar logs de bucket do Amazon S3 no Elastic MapReduce. Disco é outra alternativa baseada em python. |
Notebook(s) IPython demonstrando a funcionalidade da Amazon Web Services (AWS) e das ferramentas da AWS.
Confira também:
Caderno | Descrição |
---|---|
boto | SDK oficial da AWS para Python. |
s3cmd | Interage com o S3 por meio da linha de comando. |
s3distcp | Combina arquivos menores e os agrega, obtendo um padrão e um arquivo de destino. S3DistCp também pode ser usado para transferir grandes volumes de dados do S3 para o cluster Hadoop. |
s3-colocação paralela | Carrega vários arquivos para o S3 em paralelo. |
desvio para o vermelho | Atua como um data warehouse rápido construído com base na tecnologia de processamento paralelo massivo (MPP). |
cinesia | Transmite dados em tempo real com a capacidade de processar milhares de fluxos de dados por segundo. |
lambda | Executa código em resposta a eventos, gerenciando automaticamente recursos de computação. |
Notebook(s) IPython demonstrando várias linhas de comando para Linux, Git, etc.
Caderno | Descrição |
---|---|
linux | Sistema operacional de computador semelhante ao Unix e principalmente compatível com POSIX. Uso de disco, divisão de arquivos, grep, sed, curl, visualização de processos em execução, destaque de sintaxe de terminal e Vim. |
anaconda | Distribuição da linguagem de programação Python para processamento de dados em larga escala, análise preditiva e computação científica, que visa simplificar o gerenciamento e implantação de pacotes. |
caderno ipython | Ambiente computacional interativo baseado na Web onde você pode combinar execução de código, texto, matemática, gráficos e rich media em um único documento. |
idiota | Sistema de controle de revisão distribuído com ênfase em velocidade, integridade de dados e suporte para fluxos de trabalho distribuídos e não lineares. |
rubi | Usado para interagir com a linha de comando da AWS e para Jekyll, uma estrutura de blog que pode ser hospedada em páginas do GitHub. |
jekyll | Gerador de sites estáticos simples, com reconhecimento de blog, para sites pessoais, de projetos ou de organizações. Renderiza modelos Markdown ou Textile and Liquid e produz um site completo e estático pronto para ser servido pelo Apache HTTP Server, Nginx ou outro servidor web. |
pelicano | Alternativa baseada em Python para Jekyll. |
Django | Estrutura Web Python de alto nível que incentiva o desenvolvimento rápido e um design limpo e pragmático. Pode ser útil para compartilhar relatórios/análises e para blogs. Alternativas mais leves incluem Pyramid, Flask, Tornado e Bottle. |
Notebook(s) IPython demonstrando funcionalidades diversas.
Caderno | Descrição |
---|---|
expressão regular | Folha de referências de expressões regulares útil na disputa de dados. |
algoritmo | Algorithmia é um mercado para algoritmos. Este notebook apresenta 4 algoritmos diferentes: detecção de rosto, resumo de conteúdo, alocação de Dirichlet latente e reconhecimento óptico de caracteres. |
Anaconda é uma distribuição gratuita da linguagem de programação Python para processamento de dados em larga escala, análise preditiva e computação científica que visa simplificar o gerenciamento e implantação de pacotes.
Siga as instruções para instalar o Anaconda ou o miniconda mais leve.
Para obter instruções detalhadas, scripts e ferramentas para configurar seu ambiente de desenvolvimento para análise de dados, confira o repositório dev-setup.
Para visualizar conteúdo interativo ou modificar elementos nos notebooks IPython, você deve primeiro clonar ou baixar o repositório e depois executar o notebook. Mais informações sobre notebooks IPython podem ser encontradas aqui.
$ git clone https://github.com/donnemartin/data-science-ipython-notebooks.git
$ cd data-science-ipython-notebooks
$ jupyter notebook
Notebooks testados com Python 2.7.x.
Contribuições são bem-vindas! Para relatórios de bugs ou solicitações, envie um problema.
Sinta-se à vontade para entrar em contato comigo para discutir quaisquer questões, perguntas ou comentários.
Este repositório contém uma variedade de conteúdo; alguns desenvolvidos por Donne Martin e alguns de terceiros. O conteúdo de terceiros é distribuído sob a licença fornecida por essas partes.
O conteúdo desenvolvido por Donne Martin é distribuído sob a seguinte licença:
Estou fornecendo código e recursos neste repositório para você sob uma licença de código aberto. Como este é meu repositório pessoal, a licença que você recebe para meu código e recursos é minha e não de meu empregador (Facebook).
Copyright 2015 Donne Martin
Licensed under the Apache License, Version 2.0 (the "License");
you may not use this file except in compliance with the License.
You may obtain a copy of the License at
http://www.apache.org/licenses/LICENSE-2.0
Unless required by applicable law or agreed to in writing, software
distributed under the License is distributed on an "AS IS" BASIS,
WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
See the License for the specific language governing permissions and
limitations under the License.