pip install numpy
)pip install pandas
)pip install scikit-learn
)pip install scipy
)pip install statsmodels
)pip install matplotlib
)pip install seaborn
)pip install sympy
)pip install flask
)pip install wtforms
)pip install tensorflow>=1.15
)pip install keras
)pip install pdpipe
)Você pode começar com este artigo que escrevi na revista Heartbeat (na plataforma Medium):
Cadernos Jupyter cobrindo uma ampla gama de funções e operações sobre os tópicos NumPy, Pandans, Seaborn, Matplotlib etc.
Múltiplas maneiras de realizar regressão linear em Python e sua comparação de velocidade (confira o artigo que escrevi no freeCodeCamp)
Regressão multivariada com regularização
Regressão polinomial usando o recurso de pipeline scikit-learn (confira o artigo que escrevi em Towards Data Science )
Árvores de decisão e regressão Random Forest (mostrando como a Random Forest funciona como um meta-estimador robusto/regularizado rejeitando overfitting)
Análise visual detalhada e testes de diagnóstico de adequação para um problema de regressão linear
Regressão linear robusta usando HuberRegressor
do Scikit-learn
k -classificação do vizinho mais próximo (aqui está o caderno)
Árvores de decisão e classificação florestal aleatória (aqui está o caderno)
Classificação de máquinas de vetores de suporte (aqui está o Notebook) ( confira o artigo que escrevi em Rumo à ciência de dados sobre SVM e algoritmo de classificação)
K -means clustering (aqui está o Notebook)
Propagação de afinidade (mostrando sua complexidade de tempo e o efeito do fator de amortecimento) (Aqui está o Notebook)
Técnica de mudança de média (mostrando sua complexidade de tempo e o efeito do ruído na descoberta de cluster) (aqui está o caderno)
DBSCAN (mostrando como ele pode detectar genericamente áreas de alta densidade, independentemente das formas do cluster, o que o k-means não consegue fazer) (Aqui está o Notebook)
Clustering hierárquico com dendogramas mostrando como escolher o número ideal de clusters (aqui está o notebook)
Como usar o pacote Sympy para gerar conjuntos de dados aleatórios usando expressões matemáticas simbólicas.
Aqui está meu artigo no Medium sobre este tópico: Regressão aleatória e geração de problemas de classificação com expressão simbólica
Servindo um modelo de regressão linear por meio de uma interface de servidor HTTP simples. O usuário precisa solicitar previsões executando um script Python. Usa Flask
e Gunicorn
.
Servindo uma rede neural recorrente (RNN) por meio de uma página HTTP, completa com um formulário web, onde os usuários podem inserir parâmetros e clicar em um botão para gerar texto com base no modelo RNN pré-treinado. Usa Flask
, Jinja
, Keras
/ TensorFlow
, WTForms
.
Implementar alguns dos princípios básicos de OOP em um contexto de aprendizado de máquina, construindo seu próprio estimador semelhante ao Scikit-learn e tornando-o melhor.
Veja meus artigos no Medium sobre este assunto.
Verifique os arquivos e instruções detalhadas no diretório Pytest para entender como se deve escrever código/módulo de teste de unidade para modelos de aprendizado de máquina
Criar perfis de código de ciência de dados e modelos de ML para consumo de memória e tempo de computação é uma área crítica, mas muitas vezes negligenciada. Aqui estão alguns cadernos mostrando as ideias,