imputação
Imputação em Cran
A falta de imputação de dados (também conhecida como conclusão da matriz) é uma ciência extremamente difícil que tenta preencher os valores ausentes de um conjunto de dados com o melhor palpite. Recentemente, foi popularizado pelo Netflix Challenge, onde uma matriz de usuários da Netflix e suas classificações de filmes foram apresentados à comunidade científica de dados para ver se os algoritmos poderiam ser desenvolvidos para prever como um usuário classificaria um determinado filme que o usuário ainda não o fez visto.
Referências:
- Métodos de estimativa de valor ausentes para microarranjos de DNA. Troyanskaya, et al.
- Um algoritmo de limiar de valor singular para conclusão da matriz. Cai, candes, Shen.
## Algoritmos de imputação apresentados
- Imputação média
- Vizinhos mais antigos
- SVD Imputação
- Imputação de SVT
- Imputação de árvores aumentada
- Mínimos quadrados ponderados localmente
##Destaques
- MeanImpute é uma boa maneira de iniciar qualquer problema de dados ausentes. É a técnica de imputação mais rápida e se sai razoavelmente bem
- Às vezes, queremos identificar valores ausentes e imputá -los ajustando uma linha através de seus vizinhos. Isso pode ser feito pegando um conjunto de pontos {y_t, x_t} e regredindo y_t no índice t. Além disso, podemos usar uma linha de regressão de mínimos quadrados com ponderação localmente para Taylor os pesos dos pontos de dados que são observados perto dos ausentes. Isso é feito em lmimpute
- O GBMimpute é uma técnica para imputar dados ausentes quando os dados categóricos e numéricos estão disponíveis. Ele usa árvores de decisão impulsionadas, o que requer muitos dados para funcionar bem. Tem a vantagem de particionar dados e depois ajustar diferentes meios para as partições
- Tsimpute é uma técnica para imputar dados de séries temporais. Existem três componentes significativos para qualquer problema de série temporal: tempo, dimensões e métricas. As dimensões são variáveis categóricas que descrevem os pontos de dados e as métricas são os dados reais da série temporal. O Tsimpute projeta a variável de tempo usando projeção de tempo e, em seguida, imputa as métricas usando árvores impulsionadas novamente. As projeções de tempo ajudam a segmentar ainda mais os pontos de dados, por exemplo, identificando segmentos de dia vs noturno, segmentos de dia da semana x fim de semana, etc.
- KNN e SVD Imputa são métodos clássicos de imputação descritos em Troyanskaya. O SVD encontra uma aproximação de baixa classificação K aos dados, que podem ser adequados para dados ruidosos. KNN só é bom quando o número de recursos é pequeno
- A SVT é um algoritmo de imputação recentemente popularizado que se sai muito bem com dados numéricos. No entanto, é o algoritmo mais lento apresentado aqui, exigindo o cálculo de muitos SVDs. O SVTAPROXIMPUTE pode ser usado como uma estimativa, simplesmente calculando o SVD uma vez, limitando os valores singulares em Lambda, depois multiplicando a decomposição novamente para obter a imputação
## Design de algoritmo
Cada função neste pacote inclui o algoritmo de imputação, bem como um algoritmo cruzado de validação. O algoritmo CV elimina artificialmente 1/3 dos dados em um conjunto de dados e executa a função de imputação. Usando os dados preenchidos, o RMSE é calculado apenas na parte dos dados que foram removidos artificialmente. Diferentes algoritmos de imputação terão um desempenho diferente em diferentes conjuntos de dados, por isso é importante ter essas funções para comparação.