IA incrível centrada em dados
IA centrada em dados é a abordagem para o desenvolvimento de IA que considera o conjunto de dados de treinamento como a peça central da solução, em vez do modelo.
Este repositório contém uma lista selecionada de recursos incríveis, como bibliotecas de código aberto, tutoriais e artigos que ajudarão você a entender os conceitos e iniciar sua jornada no desenvolvimento de IA centrada em dados.
Valorizamos a colaboração aberta e o compartilhamento de conhecimento, por isso recomendamos não se limitar apenas a este repositório e verificar outros projetos incríveis, como o Resources Hub de Andrew Ng.
Perfil de dados
- YData Profiling - YData Profiling suporta Pandas e Spark DataFrames, fornecendo uma compreensão visual rápida e direta dos dados.
- SweetViz - SweetViz é uma biblioteca Python de código aberto que gera belas visualizações de alta densidade para iniciar EDA (Análise Exploratória de Dados) com apenas duas linhas de código.
- DataPrep.EDA - DataPrep.EDA é uma ferramenta EDA (Exploratory Data Analysis) em Python que permite entender um DataFrame Pandas/Dask com algumas linhas de código em segundos.
- AutoViz - Visualize automaticamente qualquer conjunto de dados, de qualquer tamanho, com uma única linha de código.
- Lux - Lux é uma biblioteca Python que facilita a exploração rápida e fácil de dados, automatizando o processo de visualização e análise de dados.
- Grandes Expectativas - Grandes Expectativas ajuda as equipes de dados a eliminar dívidas de pipeline, por meio de testes de dados, documentação e criação de perfis.
- D-Tale - É uma biblioteca de visualização automática python de código aberto que oferece uma maneira fácil de visualizar e analisar estruturas de dados do Pandas. Ele se integra perfeitamente com notebooks ipython e terminais python/ipython.
- Data Profiler - O DataProfiler é uma biblioteca Python projetada para facilitar a análise de dados, o monitoramento e a detecção de dados confidenciais.
- Whylogs - Whylogs é o padrão de código aberto para registro de dados. Ele usa técnicas de criação de perfil de dados para criar perfis de porquêlogs , que podem ser usados como logs para permitir o monitoramento e a observabilidade de pipelines de dados e modelos de ML
? Dados Sintéticos
- YData Synthetic - Geradores de dados sintéticos estruturados usando redes adversárias generativas especificamente para dados tabulares e de série temporal.
- Synthpop - Uma ferramenta para produzir versões sintéticas de microdados contendo informações confidenciais para que possam ser liberados com segurança aos usuários para análise exploratória.
- DataSynthesizer - DataSynthesizer gera dados sintéticos que simulam um determinado conjunto de dados. Aplica técnicas de privacidade diferencial para obter uma forte garantia de privacidade.
- SDV - O Synthetic Data Vault (SDV) é um ecossistema de bibliotecas de geração de dados sintéticos que permite aos usuários aprender facilmente conjuntos de dados de tabela única, múltiplas tabelas e séries temporais para, posteriormente, gerar novos dados sintéticos com o mesmo formato e propriedades estatísticas como o conjunto de dados original.
- Pomegranate - Pomegranate é um pacote para construção de modelos probabilísticos em Python que é implementado em Cython para maior velocidade. A maioria desses modelos pode amostrar dados.
- Gretel Synthetics - O pacote Gretel Synthetics permite que os desenvolvedores mergulhem rapidamente na geração de dados sintéticos por meio do uso de redes neurais.
- Time-Series-Generator - O Time-Series-Generator permite que os desenvolvedores criem conjuntos de dados de séries temporais sintéticas de uma forma genérica que segue diferentes tendências. O objetivo aqui é ter dados não confidenciais disponíveis para soluções de demonstração e testar a eficácia dessas soluções e/ ou algoritmos.
- Zpy - Zpy resolve o problema de falta de conjuntos de dados específicos de negócios para aplicativos baseados em visão computacional. Zpy usa Python e Blender (um conjunto de ferramentas gráficas 3D de código aberto) para criar conjuntos de dados sintéticos adequados para casos de negócios exclusivos.
? Rotulagem de dados
- LabelImg - LabelImg é uma ferramenta gráfica de anotação de imagens. Ele é escrito em Python e usa Qt como interface gráfica.
- LabelMe - LabelMe é uma ferramenta de anotação poligonal de imagem que usa Python e Qt.
- TagAnamoly - Ferramenta de rotulagem de detecção de anomalias, especificamente para múltiplas séries temporais (uma série temporal por categoria).
- EchoML - Reproduza, visualize e anote seus arquivos de áudio
- LabelStudio - Label Studio é uma ferramenta de rotulagem de dados de código aberto. Ele permite rotular tipos de dados como áudio, texto, imagens, vídeos e séries temporais com uma interface de usuário simples e direta e exportar para vários formatos de modelo.
- Incríveis ferramentas de anotação e rotulagem de dados de código aberto - Uma lista de ferramentas de código aberto disponíveis (classificadas por tipo de tarefa) para quem deseja rotular dados. Somente ferramentas mantidas ativamente são listadas.
Preparação de Dados
- DataFix - DataFix é uma ferramenta Python para detectar e corrigir mudanças de distribuição entre uma referência e um conjunto de dados de consulta. Ele detecta mudanças, localiza os recursos específicos responsáveis pela mudança e as corrige de forma eficiente.
Tutoriais e recursos
Aqui você pode encontrar uma lista de tutoriais práticos e outros materiais que usamos em nosso site e blogs do Medium aqui: Tutoriais e Recursos.
- Inteligência Artificial Centrada em Dados: Uma Pesquisa - Esta pesquisa tem como objetivo ajudar os leitores a compreender com eficiência um quadro amplo da IA centrada em dados. Abrange vários aspectos, como necessidades, definições e desafios da IA centrada em dados, bem como técnicas para treinar o desenvolvimento de dados, desenvolvimento de dados de inferência e manutenção de dados. Além disso, a pesquisa organiza a literatura existente sob as perspectivas de automação e colaboração, tabulando e analisando benchmarks para alcançar a excelência de dados. Há também uma versão curta.
? Cursos
- Introdução à IA centrada em dados do MIT - Esta aula cobre algoritmos para encontrar e corrigir problemas comuns em dados de ML e para construir conjuntos de dados melhores, concentrando-se em dados usados em tarefas de aprendizagem supervisionada, como classificação. Todo o material ensinado neste curso é altamente prático, focado em aspectos impactantes de aplicações de ML do mundo real, em vez de detalhes matemáticos de como modelos específicos funcionam. Você pode fazer este curso para aprender técnicas práticas não abordadas na maioria das aulas de ML, o que ajudará a mitigar o problema de “entra lixo, sai lixo” que assola muitos aplicativos de ML do mundo real. Site | Vídeos de palestras | Tarefas de laboratório
? Um convite aberto
Estamos abertos à colaboração! Se você quiser começar a contribuir você só precisa criar uma solicitação pull com recursos relevantes. Iríamos revisar cada solicitação pull.
Se você achou esses recursos úteis, sinta-se à vontade para conferir nossa comunidade de IA centrada em dados ou clique aqui para ingressar em nosso servidor Discord. Esperamos dizer oi do outro lado!