Download imputation - Download do código fonte imputation

imputation

Outro código-fonte

1.0.0

Baixar

imputação

Imputação em Cran

A falta de imputação de dados (também conhecida como conclusão da matriz) é uma ciência extremamente difícil que tenta preencher os valores ausentes de um conjunto de dados com o melhor palpite. Recentemente, foi popularizado pelo Netflix Challenge, onde uma matriz de usuários da Netflix e suas classificações de filmes foram apresentados à comunidade científica de dados para ver se os algoritmos poderiam ser desenvolvidos para prever como um usuário classificaria um determinado filme que o usuário ainda não o fez visto.

Referências:

Métodos de estimativa de valor ausentes para microarranjos de DNA. Troyanskaya, et al.
Um algoritmo de limiar de valor singular para conclusão da matriz. Cai, candes, Shen.

## Algoritmos de imputação apresentados

Imputação média
Vizinhos mais antigos
SVD Imputação
Imputação de SVT
Imputação de árvores aumentada
Mínimos quadrados ponderados localmente

##Destaques

MeanImpute é uma boa maneira de iniciar qualquer problema de dados ausentes. É a técnica de imputação mais rápida e se sai razoavelmente bem
Às vezes, queremos identificar valores ausentes e imputá -los ajustando uma linha através de seus vizinhos. Isso pode ser feito pegando um conjunto de pontos {y_t, x_t} e regredindo y_t no índice t. Além disso, podemos usar uma linha de regressão de mínimos quadrados com ponderação localmente para Taylor os pesos dos pontos de dados que são observados perto dos ausentes. Isso é feito em lmimpute
O GBMimpute é uma técnica para imputar dados ausentes quando os dados categóricos e numéricos estão disponíveis. Ele usa árvores de decisão impulsionadas, o que requer muitos dados para funcionar bem. Tem a vantagem de particionar dados e depois ajustar diferentes meios para as partições
Tsimpute é uma técnica para imputar dados de séries temporais. Existem três componentes significativos para qualquer problema de série temporal: tempo, dimensões e métricas. As dimensões são variáveis categóricas que descrevem os pontos de dados e as métricas são os dados reais da série temporal. O Tsimpute projeta a variável de tempo usando projeção de tempo e, em seguida, imputa as métricas usando árvores impulsionadas novamente. As projeções de tempo ajudam a segmentar ainda mais os pontos de dados, por exemplo, identificando segmentos de dia vs noturno, segmentos de dia da semana x fim de semana, etc.
KNN e SVD Imputa são métodos clássicos de imputação descritos em Troyanskaya. O SVD encontra uma aproximação de baixa classificação K aos dados, que podem ser adequados para dados ruidosos. KNN só é bom quando o número de recursos é pequeno
A SVT é um algoritmo de imputação recentemente popularizado que se sai muito bem com dados numéricos. No entanto, é o algoritmo mais lento apresentado aqui, exigindo o cálculo de muitos SVDs. O SVTAPROXIMPUTE pode ser usado como uma estimativa, simplesmente calculando o SVD uma vez, limitando os valores singulares em Lambda, depois multiplicando a decomposição novamente para obter a imputação

## Design de algoritmo

Cada função neste pacote inclui o algoritmo de imputação, bem como um algoritmo cruzado de validação. O algoritmo CV elimina artificialmente 1/3 dos dados em um conjunto de dados e executa a função de imputação. Usando os dados preenchidos, o RMSE é calculado apenas na parte dos dados que foram removidos artificialmente. Diferentes algoritmos de imputação terão um desempenho diferente em diferentes conjuntos de dados, por isso é importante ter essas funções para comparação.

Expandir

Informações adicionais

Versão 1.0.0
Tipo Outro código-fonte
Data da Última Atualização 2025-02-08
tamanho 27.22KB
Vindo de Github

Aplicativos Relacionados

waymo open dataset

2024-11-18
Sunamu

2024-12-14
MySchedule.py

2024-12-15
chat.petals.dev

2024-11-30
SmartTube

2024-12-14
viptools for eslam

2024-12-15

Recomendado para você

chat.petals.dev

Outro código-fonte

1.0.0
GPT Prompt Templates

Outro código-fonte

1.0.0
GPTyped

Outro código-fonte

GPTyped 1.0.5
waymo open dataset

Outro código-fonte

December 2023 Update
Sunamu

Outro código-fonte

Release 2.2.0
MySchedule.py

Outro código-fonte

Updates to the fetching of week codes
waymo open dataset

Outro código-fonte

December 2023 Update
termwind

Outras categorias

v2.3.0
wp functions

Outras categorias

1.0.0

Informações Relacionadas Todos