Impresionante IA centrada en datos
La IA centrada en datos es el enfoque para el desarrollo de la IA que considera el conjunto de datos de entrenamiento como la pieza central de la solución en lugar del modelo.
Este repositorio contiene una lista seleccionada de recursos increíbles, como bibliotecas de código abierto, tutoriales y artículos que lo ayudarán a comprender los conceptos y comenzar su viaje hacia el desarrollo de IA centrada en datos.
Valoramos la colaboración abierta y el intercambio de conocimientos, por lo que recomendamos no limitarse solo a este repositorio y consultar otros proyectos sorprendentes, como el Centro de recursos de Andrew Ng.
Perfil de datos
- YData Profiling: YData Profiling es compatible con Pandas y Spark DataFrames, lo que proporciona una comprensión visual de los datos rápida y sencilla.
- SweetViz: SweetViz es una biblioteca Python de código abierto que genera hermosas visualizaciones de alta densidad para iniciar EDA (Análisis de datos exploratorios) con solo dos líneas de código.
- DataPrep.EDA: DataPrep.EDA es una herramienta EDA (Análisis de datos exploratorios) en Python que le permite comprender un DataFrame de Pandas/Dask con unas pocas líneas de código en segundos.
- AutoViz: visualiza automáticamente cualquier conjunto de datos, de cualquier tamaño, con una sola línea de código.
- Lux: Lux es una biblioteca de Python que facilita la exploración de datos de forma rápida y sencilla al automatizar el proceso de visualización y análisis de datos.
- Great Expectations: Great Expectations ayuda a los equipos de datos a eliminar la deuda en proceso, mediante pruebas, documentación y elaboración de perfiles de datos.
- D-Tale: es una biblioteca de visualización automática de Python de código abierto que le brinda una manera fácil de ver y analizar las estructuras de datos de Pandas. Se integra perfectamente con portátiles ipython y terminales python/ipython.
- Data Profiler: DataProfiler es una biblioteca de Python diseñada para facilitar el análisis, la supervisión y la detección de datos confidenciales.
- Whylogs: Whylogs es el estándar de código abierto para el registro de datos. Utiliza técnicas de creación de perfiles de datos para crear perfiles de Whylogs , que se pueden utilizar como registros para permitir el seguimiento y la observabilidad de canalizaciones de datos y modelos de aprendizaje automático.
? Datos sintéticos
- YData Synthetic: generadores de datos sintéticos estructurados que utilizan redes generativas adversas específicamente para datos tabulares y de series temporales.
- Synthpop: una herramienta para producir versiones sintéticas de microdatos que contienen información confidencial para que sea seguro entregarlos a los usuarios para su análisis exploratorio.
- DataSynthesizer: DataSynthesizer genera datos sintéticos que simulan un conjunto de datos determinado. Aplica técnicas de Privacidad Diferencial para lograr una sólida garantía de privacidad.
- SDV: Synthetic Data Vault (SDV) es un ecosistema de bibliotecas de generación de datos sintéticos que permite a los usuarios aprender fácilmente conjuntos de datos de una sola tabla, de varias tablas y de series de tiempo para, más adelante, generar nuevos datos sintéticos que tengan el mismo formato. y propiedades estadísticas como el conjunto de datos original.
- Pomegranate: Pomegranate es un paquete para construir modelos probabilísticos en Python que se implementa en Cython para mayor velocidad. La mayoría de estos modelos pueden muestrear datos.
- Gretel Synthetics: el paquete Gretel Synthetics permite a los desarrolladores sumergirse rápidamente en la generación de datos sintéticos mediante el uso de redes neuronales.
- Time-Series-Generator: Time-Series-Generator permite a los desarrolladores crear conjuntos de datos de series temporales sintéticos de una manera genérica que sigue diferentes tendencias. El objetivo aquí es tener datos no confidenciales disponibles para demostrar soluciones y probar la efectividad de esas soluciones. o algoritmos.
- Zpy: Zpy resuelve el problema de la falta de conjuntos de datos empresariales específicos para aplicaciones basadas en visión por computadora. Zpy utiliza Python y Blender (un conjunto de herramientas de gráficos 3D de código abierto) para crear conjuntos de datos sintéticos adecuados para casos comerciales únicos.
? Etiquetado de datos
- LabelImg: LabelImg es una herramienta de anotación de imágenes gráficas. Está escrito en Python y utiliza Qt para su interfaz gráfica.
- LabelMe: LabelMe es una herramienta de anotación poligonal de imágenes que utiliza Python y Qt.
- TagAnamoly: herramienta de etiquetado de detección de anomalías, específicamente para múltiples series temporales (una serie temporal por categoría).
- EchoML: reproduce, visualiza y anota tus archivos de audio
- LabelStudio: Label Studio es una herramienta de etiquetado de datos de código abierto. Le permite etiquetar tipos de datos como audio, texto, imágenes, videos y series temporales con una interfaz de usuario simple y directa y exportarlos a varios formatos de modelo.
- Impresionantes herramientas de etiquetado y anotación de datos de código abierto: una lista de las herramientas de código abierto disponibles (ordenadas por tipo de tarea) para cualquiera que quiera etiquetar datos. Sólo se enumeran las herramientas mantenidas activamente.
Preparación de datos
- DataFix: DataFix es una herramienta de Python para detectar y corregir cambios de distribución entre un conjunto de datos de referencia y de consulta. Detecta cambios, localiza las características específicas responsables del cambio y las corrige eficientemente.
Tutoriales y recursos
Aquí puede encontrar una lista de tutoriales prácticos y otros materiales que utilizamos en nuestro sitio web y blogs de Medium aquí: Tutoriales y recursos.
- Inteligencia artificial centrada en datos: una encuesta: esta encuesta tiene como objetivo ayudar a los lectores a comprender de manera eficiente una imagen amplia de la IA centrada en datos. Cubre varios aspectos, como las necesidades, definiciones y desafíos de la IA centrada en datos, así como técnicas para el desarrollo de datos de entrenamiento, el desarrollo de datos de inferencia y el mantenimiento de datos. Además, la encuesta organiza la literatura existente desde las perspectivas de la automatización y la colaboración, tabulando y analizando puntos de referencia para lograr la excelencia de los datos. También hay una versión corta.
? Cursos
- Introducción del MIT a la IA centrada en datos: esta clase cubre algoritmos para encontrar y solucionar problemas comunes en los datos de ML y construir mejores conjuntos de datos, concentrándose en los datos utilizados en tareas de aprendizaje supervisadas como la clasificación. Todo el material que se imparte en este curso es altamente práctico y se centra en aspectos impactantes de las aplicaciones de ML del mundo real, en lugar de detalles matemáticos de cómo funcionan modelos particulares. Puede realizar este curso para aprender técnicas prácticas que no se tratan en la mayoría de las clases de ML, lo que ayudará a mitigar el problema de “entrada y salida de basura” que afecta a muchas aplicaciones de ML del mundo real. Sitio web | Vídeos de conferencias | Asignaciones de laboratorio
? Una invitación abierta
¡Estamos abiertos a la colaboración! Si desea comenzar a contribuir, solo necesita crear una solicitud de extracción con recursos relevantes. Revisaríamos todas y cada una de las solicitudes de extracción.
Si estos recursos le resultaron útiles, no dude en consultar nuestra comunidad de IA centrada en datos o haga clic aquí para unirse a nuestro servidor de Discord. ¡Esperamos saludarte del otro lado!