? Ranked as one of the top data science repositories on GitHub!
¡Técnicas, herramientas, mejores prácticas y todo lo que necesitas para aprender el aprendizaje automático!
Complete Machine Learning Package es un repositorio completo que contiene 35 cuadernos sobre programación Python, manipulación de datos, análisis de datos, visualización de datos, limpieza de datos, aprendizaje automático clásico, visión por computadora y procesamiento del lenguaje natural (NLP).
Todos los cuadernos fueron creados pensando en los lectores. Cada cuaderno comienza con una descripción general de alto nivel de cualquier algoritmo/concepto específico que se esté tratando. Siempre que sea posible, se utilizan elementos visuales para aclarar las cosas.
10 de mayo de 2023: se agregó una guía completa sobre MLOps. ¡¡Disfruta la guía!!
23 de junio de 2022: Muchas personas han preguntado cómo pueden respaldar el paquete. Puedes invitarnos un café ☕️
18 de mayo de 2022: el paquete completo de aprendizaje automático ya está disponible en la web. ¡Ahora es fácil ver todos los cuadernos!
9 de abril de 2022: Transferencia de aprendizaje actualizada con redes neuronales convolucionales previamente entrenadas con elementos adicionales y recursos adicionales.
25 de noviembre de 2021: Fundamentos actualizados del aprendizaje automático: se agregaron notas introductorias, flujo de trabajo de diseño del sistema ML y desafíos de los sistemas de aprendizaje.
Las siguientes son las herramientas que se tratan en el paquete completo de aprendizaje automático. Son herramientas populares que la mayoría de los ingenieros de aprendizaje automático y científicos de datos necesitan de una forma u otra en el día a día.
Python es un lenguaje de programación de alto nivel que ha ganado mucha popularidad en la comunidad de datos y, con el rápido crecimiento de las bibliotecas y los marcos, este es un lenguaje de programación adecuado para realizar ML.
NumPy es una herramienta informática científica que se utiliza para operaciones matriciales o matrices.
Pandas es una herramienta excelente y sencilla para analizar y manipular datos de una variedad de fuentes diferentes.
Matplotlib es una herramienta integral de visualización de datos que se utiliza para crear visualizaciones estáticas, animadas e interactivas en Python.
Seaborn es otra herramienta de visualización de datos construida sobre Matplotlib que es bastante sencilla de usar.
Scikit-Learn: en lugar de crear modelos de aprendizaje automático desde cero, Scikit-Learn facilita el uso de modelos clásicos en unas pocas líneas de código. Esta herramienta está adaptada por casi toda la comunidad y las industrias de ML, desde las nuevas empresas hasta las grandes tecnológicas.
TensorFlow y Keras para aprendizaje profundo: TensorFlow es un marco de aprendizaje profundo popular que se utiliza para crear modelos adecuados para diferentes campos, como la visión por computadora y el procesamiento del lenguaje natural. Keras es una API de red neuronal de alto nivel que facilita el diseño de modelos de aprendizaje profundo. TensorFlow y Keras tienen una gran comunidad y un ecosistema que incluye herramientas como TensorBoard, TF Datasets, TensorFlow Lite, TensorFlow Extended, TensorFlow Hub, TensorFlow.js, TensorFlow GNN y mucho más.
[ Puedes encontrar notas detalladas sobre NumPy aquí ]
Análisis de datos exploratorios
Introducción a la preparación de datos
Manejo de características categóricas
Escalado de funciones
Manejo de valores faltantes
Introducción a Scikit-Learn para aprendizaje automático
Modelos lineales de regresión
Modelos lineales para clasificación
Máquinas de vectores de soporte: introducción y regresión
Máquinas de vectores de soporte para clasificación
Árboles de decisión: introducción y regresión
Árboles de decisión para clasificación
Bosques aleatorios: introducción y regresión
Bosques aleatorios para clasificación
Más allá de los bosques aleatorios: más modelos de conjuntos
Introducción al aprendizaje no supervisado con KMeans Clustering
Una introducción práctica al análisis de componentes principales
Introducción a las redes neuronales artificiales
Por qué el aprendizaje profundo
Una red neuronal de una sola capa
Funciones de activación
Tipos de arquitecturas de aprendizaje profundo
Desafíos en el entrenamiento de redes neuronales profundas
Introducción a TensorFlow para el aprendizaje profundo
Redes neuronales para regresión con TensorFlow
Redes neuronales para clasificación con TensorFlow
Introducción a la visión por computadora con redes neuronales convolucionales (CNN)
ConvNets para aumento de imágenes y datos del mundo real
Transferir aprendizaje con redes neuronales convolucionales previamente entrenadas
[El cuaderno actualizado de Transfer Learning se encuentra aquí]
Introducción a la PNL y el procesamiento de textos con TensorFlow
Uso de incrustaciones de Word para representar textos
Redes neuronales recurrentes (RNN)
Uso de redes neuronales convolucionales para la clasificación de textos
Uso de BERT previamente entrenado para la clasificación de textos
Muchos de los conjuntos de datos utilizados para este repositorio provienen de las siguientes fuentes:
La comunidad de Machine Learning es muy vibrante. El paquete completo de aprendizaje automático puede ayudarle a empezar, pero no es suficiente. Afortunadamente, existen muchos recursos de aprendizaje fantásticos, algunos de los cuales son pagos o están disponibles gratuitamente. Aquí hay una lista de cursos que muchas personas suelen recomendar. Tenga en cuenta que no están enumerados en el orden en que deben tomarse.
Aprendizaje automático de Coursera : este curso fue impartido por Andrew Ng. Es uno de los cursos de aprendizaje automático más populares y lo han realizado más de 4 millones de personas. El curso se centra más en los fundamentos de las técnicas y algoritmos de aprendizaje automático. Es gratis en Coursera.
Especialización en aprendizaje profundo : también impartido por Andrew Ng., La especialización en aprendizaje profundo también es un curso basado en conceptos básicos. Enseña los fundamentos decentes de las principales arquitecturas de aprendizaje profundo, como las redes neuronales convolucionales y las redes neuronales recurrentes. El curso completo se puede auditar en Coursera o verlo libremente en Youtube.
Introducción al aprendizaje profundo del MIT : este curso proporciona las bases del aprendizaje profundo en un período de tiempo razonablemente corto. Cada conferencia dura una hora o menos, pero los materiales siguen siendo los mejores de las clases. Consulte la página del curso aquí y los videos de las conferencias aquí.
Introducción del MIT a la IA centrada en datos : este es el primer curso sobre DCAI. Esta clase cubre algoritmos para encontrar y solucionar problemas comunes en los datos de ML y construir mejores conjuntos de datos, concentrándose en los datos utilizados en tareas de aprendizaje supervisado como la clasificación. Todo el material que se imparte en este curso es altamente práctico y se centra en aspectos impactantes de las aplicaciones de ML del mundo real, en lugar de detalles matemáticos de cómo funcionan modelos particulares. Puede realizar este curso para aprender técnicas prácticas que no se tratan en la mayoría de las clases de ML, lo que ayudará a mitigar el problema de “entrada de basura, salida de basura” que afecta a muchas aplicaciones de ML del mundo real. Consulte la página del curso aquí, los videos de las conferencias aquí y las tareas de laboratorio aquí.
NYU Deep Learning Spring 2021 : Impartido en NYU por Yann LeCun, Alfredo Canziani, este curso es uno de los cursos más creativos que existen. Los materiales se presentan de una manera asombrosa. Consulte los videos de las conferencias aquí y el repositorio del curso aquí.
CS231N: Redes neuronales convolucionales para el reconocimiento visual de Stanford : CS231N es uno de los mejores cursos de visión por computadora y aprendizaje profundo. La versión de 2017 fue impartida por Fei-Fei Li, Justin Johnson y Serena Yeung. La versión de 2016 fue impartida por Fei-Fei, Johnson y Andrej Karpathy. Vea los videos de las conferencias de 2017 aquí y otros materiales aquí.
CS224N: Procesamiento del lenguaje natural con aprendizaje profundo de Stanford : si está interesado en el procesamiento del lenguaje natural, este es un excelente curso. Lo imparte Christopher Manning, una de las estrellas de la PNL de talla mundial. Vea los vídeos de las conferencias aquí.
Aprendizaje profundo práctico para codificadores de fast.ai : este también es un curso intensivo de aprendizaje profundo que cubre todo el espectro de arquitecturas y técnicas de aprendizaje profundo. Los videos de las conferencias y otros recursos como cuadernos son la página del curso.
Especialización en ingeniería de aprendizaje automático para producción (MLOps) : impartido por Andrew Ng., Laurence Moroney y Robert Crowe, este es uno de los mejores cursos de ingeniería de aprendizaje automático. Enseña cómo diseñar sistemas de producción de aprendizaje automático de extremo a extremo, crear canales de modelado y datos eficientes e implementar modelos en producción. Puede encontrar el curso en Coursera y otros materiales del curso en Github.
Full Stack Deep Learning : si bien la mayoría de los cursos de aprendizaje automático se centran en el modelado, este curso se centra en el envío de sistemas de aprendizaje automático. Enseña cómo diseñar proyectos de aprendizaje automático, gestión de datos (almacenamiento, acceso, procesamiento, control de versiones y etiquetado), capacitación, depuración e implementación de modelos de aprendizaje automático. Vea la versión 2021 aquí y la 2019 aquí. También puede echar un vistazo a las presentaciones de proyectos para ver el tipo de resultados de los cursos a través de los proyectos de los estudiantes.
A continuación se muestran algunos libros increíbles sobre aprendizaje automático.
El libro de aprendizaje automático de cien páginas : escrito por Andriy Burkov, este es uno de los libros más breves pero concisos y bien escritos que jamás encontrará en Internet. Puedes leer el libro gratis aquí.
Ingeniería de aprendizaje automático : también escrito por Andriy Burkov, este es otro gran libro sobre aprendizaje automático que descubre cada paso del flujo de trabajo del aprendizaje automático, desde la recopilación de datos, la preparación... hasta el servicio y mantenimiento del modelo. El libro también está gratis aquí.
Anhelo de aprendizaje automático : escrito por Andrew Ng., El libro contiene varias estrategias para construir sistemas de aprendizaje efectivos. Está dividido en partes pequeñas, lo que lo hace fácil de leer y no resulta complicado para los ingenieros de aprendizaje automático. Cualquiera que trabaje con equipos de ciencia de datos y aprendizaje automático puede encontrar útil el libro. El libro oficial está disponible aquí de forma gratuita, pero puedes leerlo o descargarlo aquí sin necesidad de registrarte.
Aprendizaje automático práctico con Scikit-Learn, Keras y TensorFlow : escrito por Aurelion Geron, este es uno de los mejores libros sobre aprendizaje automático. Está escrito con claridad y lleno de ideas y mejores prácticas. Puede obtener el libro aquí o ver su repositorio aquí.
Aprendizaje profundo : escrito por 3 leyendas del aprendizaje profundo, Ian Goodfellow, Yoshua Bengio y Aaron Courville, este es uno de los grandes libros de aprendizaje profundo que está disponible gratuitamente. Puedes conseguirlo aquí.
Aprendizaje profundo con Python : escrito por Francois Chollet, el diseñador de Keras, este es un libro de aprendizaje profundo muy completo. Puede obtener el libro aquí y el repositorio del libro aquí.
Sumérgete en el aprendizaje profundo : este también es un excelente libro sobre aprendizaje profundo que está disponible gratuitamente. El libro utiliza PyTorch y TensorFlow. Puedes leer el libro completo aquí.
Redes neuronales y aprendizaje profundo : este es también otro gran libro en línea sobre aprendizaje profundo de Michael Nielsen. Puedes leer el libro completo aquí.
Si está interesado en más recursos de aprendizaje automático y aprendizaje profundo, puede encontrarlos aquí, aquí y aquí.
@article{Nyandwi2021MLPackage,
title = "Complete Machine Learning Package",
author = "Nyandwi, Jean de Dieu",
journal = "GitHub",
year = "2021",
url = "https://nyandwi.com/machine_learning_complete",
}
Este repositorio fue creado por Jean de Dieu Nyandwi. Puedes encontrarlo en Twitter, LinkedIn, Medium e Instagram.