Download de HES_pipeline - HES_pipeline Código do código do código

HES_pipeline

Outro código-fonte

1.0.0

Baixar

Ele está pipeline

O oleoduto R de código aberto para limpar e processar estatísticas de episódios hospitalares no nível do paciente (HES) e vincular dados de mortalidade no ONS, com o objetivo de produzir conjuntos de dados prontos para análise para um programa definido de análises.

Status do projeto: em andamento

Descrição do projeto

As estatísticas do episódio do hospital (HES) são um banco de dados que contém detalhes de todas as admissões hospitalares, atendimentos de A&E e consultas ambulatoriais nos hospitais do NHS na Inglaterra.

Antes de poder ser usado para análise, os dados HES requer limpeza, controle de qualidade e processamento para derivar variáveis adicionais. A complexa estrutura de registros do HES, o grande número de variáveis e o tamanho dos conjuntos de dados fazem desta uma tarefa desafiadora, tanto do ponto de vista analítico quanto da computação.

O fluxo de trabalho semi-automatizado que estamos desenvolvendo nesse repositório processos de dados HES de forma consistente e reprodutível, que todas as etapas de processamento são documentadas, projetadas para garantir que cada projeto de análise aprovado seja baseado nos mesmos dados limpos.

Fonte de dados

Usando dados HES vinculados aos dados de mortalidade da ONS de 2008/09 até o lançamento trimestral mais recente. Nosso aplicativo de dados foi aprovado pelo NHS Digital [Serviço de Acesso ao Serviço de Acesso ao Dados (DATS Acesso ao Serviço de Acesso a Dados).

Os dados serão acessados no ambiente de dados seguro da Health Foundation; Um recurso seguro de análise de dados (credenciado com o padrão de segurança da informação ISO27001 e reconhecido pelo NHS Digital Data Security and Protection Toolkit). Nenhuma informação que possa identificar diretamente um paciente ou outro indivíduo será usado.

Documentação

A pasta Doc contém informações sobre:

HES Protocolo de limpeza e processamento de dados [a ser adicionado]
Toras que são criadas durante a corrida
Definições de variáveis derivadas
Definições de mesas derivadas

Além disso, seções abaixo descrevem

Escolhas de design de pipeline
Como executar o oleoduto para preparar um extrato de Hes para análise
Como consultar o banco de dados SQLite resultante
O que evitar ao consultar o banco de dados

Como funciona?

Como os dados HES preparados neste pipeline não estão disponíveis ao público, o código não pode ser usado para replicar os mesmos dados e banco de dados limpos. No entanto, o código pode ser usado em extratos de HES no nível do paciente semelhantes para preparar os conjuntos de dados para análise. Para obter informações mais detalhadas sobre como o pipeline funciona, consulte abaixo ou consulte o documento do processo.

Design e recursos do pipeline

O documento do processo descreve o design geral do pipeline, lista as entradas necessárias e uma descrição de alto nível das etapas no fluxo de trabalho.

O fluxograma mostra como a entrada do usuário e os dados se movem através das diferentes funções de pipeline.

O oleoduto pode ser executado em dois modos:

O modo de construção cria um novo banco de dados HES do zero (este é o padrão).
O modo de atualização incorpora atualizações de dados em um banco de dados HES existente (se update = TRUE ). As atualizações de dados HES no mesmo ano estão sobrepostas; portanto, alguns dos dados antigos serão descartados e substituídos pela nova atualização. Os dados de mortalidade no ONS são completamente atualizados com cada atualização de dados.

No modo de construção , o pipeline

Cria um banco de dados SQLite
lê os arquivos de mortalidade e ponte de Hes, mescla e os adiciona como uma nova tabela ao banco de dados
Por conjunto de dados de Hes, lê arquivos de dados brutos de Hes em pedaços e o adiciona à respectiva tabela no banco de dados após
- Verificando se todas as colunas esperadas estiverem presentes
- coagir Tipos de dados (opcional)
- variáveis de limpeza
- derivando novas variáveis (para variáveis com base em registros individuais ou linhas)
- Combinando com dados públicos sobre o índice de nível LSOA de privação múltipla e CCGS (opcional)
- sinalizando comorbidades e calculando o Charlson, Elixhause e um índice de fragilidade personalizado (opcional)
sinalizadores duplicados no banco de dados (opcional)
Cria feitiços hospitalares
Cria feitiços de internação contínuos
Cria tabelas de resumo para o conjunto de dados limpo e as salva no banco de dados e como arquivos CSV.

No modo de atualização , o pipeline

detecta qual ano de dados a atualização do nome do arquivo dos arquivos brutos a serem processados
Exclui o subconjunto de registros que serão substituídos para cada conjunto de dados HES, bem como para a tabela ONS
move os dados existentes em tabelas de backup temporárias
Processa os novos dados (como acima, até a etapa de sinalização duplicada)
Junta -se aos registros existentes com a nova atualização de dados
cria feitiços de internação nos dados combinados
cria feitiços de pacientes contínuos nos dados combinados
Cria tabelas de resumo para o conjunto de dados limpo e as salva no banco de dados e como arquivos CSV.

Registro de decisão de arquitetura/análise

O registro de decisão de arquitetura (ADR) captura as opções de decisão e design arquitetônicas, juntamente com seu contexto, lógica e consequências. Além disso, registramos algumas decisões analíticas.

Até agora, registramos decisões sobre

onde e como os dados brutos são armazenados e, se necessário, atualizado
Como os dados são lidos em pedaços e como determinar o número de pedaços necessários por arquivo
Como as datas serão armazenadas no banco de dados SQLite
O método escolhido para comparar o tempo de chegada de A&E de dois registros, enquanto identifica registros duplicados
Como a data de admissão será imputada se estiver ausente
codificação de alguns nomes de colunas
A metodologia usada para criar feitiços de internação
A metodologia usada para criar feitiços de pacientes contínuos
A definição do índice de fragilidade personalizado calculado usando dados de atendimento ao paciente admitido.

Requisitos

Pacotes de software e R

O oleoduto Hes foi construído sob a versão R.6.2 (2019-12-12)-"Night Dark and Stormy Night".

Os pacotes R a seguir, disponíveis em Cran, devem executar o oleoduto HES:

data.table (1.12.2)
DBI (1.0.0)
Tidyverse (1.2.1)
Tidylog (0.2.0)
Readxl (1.3.3)
Furrr (0,1.0)
Logger (0,1)
Plyr (1.8.4)
Rlang (0.4.0)
Comorbidade (0.5.3)

Capacidade de armazenamento

O local onde o banco de dados é criado precisa ter espaço de armazenamento suficiente disponível, aproximadamente equivalente ao tamanho combinado do arquivo do extrato de dados Raw HES mais 2 x tamanho do arquivo do conjunto de dados APC (como as tabelas para feitiços de pacientes internados e feitiços contínuos de pacientes serão ser adicionado).

Armazenamento temporário

Algumas das etapas de processamento não são executadas na memória, mas como consultas de sqlite. Isso inclui o algoritmo de sinalização duplicado, a criação de feitiços e a criação das tabelas de estatísticas de resumo nos dados limpos. Dependendo do tamanho do conjunto de dados, essas etapas criam grandes bancos de dados temporários do SQLite (arquivos .etiqls), que são excluídos automaticamente depois que a consulta for executada. Por padrão, eles são criados no diretório inicial do R, que geralmente está localizado em uma unidade com capacidade de armazenamento restrito.

Descobrimos que a execução do Pieline falha quando não há armazenamento temporário suficiente (Mensagem de erro 'Banco de dados ou disco está cheio'). Isso pode ser corrigido alterando o local onde os bancos de dados temporários do SQLite são criados. No Windows, o local de armazenamento temporário é controlado pela variável ambiental "TMP". Recomendamos criar um arquivo .renviron no nível do projeto para definir o TMP como um local com capacidade de armazenamento suficiente.

Executando o pipeline

Argumentos necessários

data_path Path para o extrato de dados HES.
O oleoduto pode processar qualquer um dos seguintes conjuntos de dados no nível do paciente: ele admitiu atendimento ao paciente, ele acidentes e emergências, seu atendimento ouptatiente, seus cuidados intensivos e registros de mortalidade no ONS (incluindo o arquivo de ponte que o vincula a Hes). Requer pelo menos um deles. Os arquivos de dados brutos devem estar localizados na mesma pasta.
database_path Path para uma pasta em que o banco de dados SQLite será criado.
data_set_codes Os conjuntos de dados HES esperados na pasta data_path .
Este deve ser um ou vários "APC", "AE", "CC" e "OP". Esses identificadores são correspondidos aos nomes dos arquivos brutos, o que deve ser o caso dos arquivos Raw Hes recebidos do NHS Digital. Os registros de mortalidade no ONS e os arquivos da ponte ONS-HES são processados por padrão, se presente. Os nomes dos arquivos para registros de mortalidade e arquivos de ponte devem conter "ONS" e "BF", respectivamente.
PATH expected_headers_file para um arquivo CSV com nomes de colunas esperados para cada conjunto de dados.
Este arquivo CSV possui pelo menos duas colunas, denominadas colnames e dataset , semelhante a este modelo. Os cabeçalhos da coluna nos dados são capitalizados automaticamente enquanto os dados são lidos, portanto, os nomes das colunas no arquivo CSV devem ser todos os Caps. Essas informações serão usadas para verificar se cada arquivo de dados bruto contém todas as colunas esperadas.

Argumentos opcionais

Os argumentos a seguir têm uma configuração padrão:

chunk_sizes Número de linhas por pedaço para cada conjunto de dados.
Cada arquivo de dados é lido e processado em pedaços de desafiar várias linhas. O tamanho padrão é de 1 milhão de linhas por pedaço, mas isso pode ser modificado pelo usuário. Tamanhos de bloco maiores, resultando em um número menor de pedaços por arquivo, diminuindo o tempo geral de processamento. Provavelmente, é porque, para cada pedaço em um determinado arquivo, fread() precisa progressivamente para passar para o número da linha especificado para começar a ler os dados. No entanto, grandes tamanhos de pedaços também aumentam o tempo que leva para processar cada pedaço na memória. O tamanho ideal do tamanho do pedaço equilibra o tempo de processamento do tempo de leitura e depende do sistema e do conjunto de dados, pois cada conjunto de dados pode ter um número diferente de variáveis e, portanto, requer diferentes quantidades de memória por linha. Recomenda -se executar testes em um subconjunto menor de dados primeiro, pois os tamanhos de pedaços muito grandes podem fazer com que o RSTUDIO caia.
coerce coagir Tipos de dados.
Por padrão, a função fread() usada para ler nos dados detectará automaticamente os tipos de coluna.
Como alternativa, os tipos de dados podem ser coagidos a tipos definidos pelo usuário, definindo esse argumento como TRUE . Os tipos de colunas são fornecidos na terceira coluna, chamada type , no arquivo CSV com os nomes esperados de colunas, consulte este modelo. Observe que o SQLite não possui um tipo de dados de data. As variáveis de data precisam ser armazenadas como caracteres e, portanto, devem ser listadas como caracteres no arquivo CSV.
IMD_2014_csv , IMD_2019_csv e CCG_xlsx CATOS PARA ARQUIVOS CONTENDO os dados de referência a serem mesclados.
Os dados de referência adicionais que podem ser mesclados a cada registro atualmente incluem o índice de versões de privação múltipla (IMD), 2015 e/ou 2019 e identificadores de CCG. Os caminhos dos arquivos para os arquivos de referência devem ser fornecidos como argumentos e serão unidos no paciente LSOA11. Os arquivos CSV contendo mapeamentos LSOA11-T-IMD precisam ter um nome de coluna que começa com "Código LSOA", um nome de coluna que contém "Índice de Privação Múltipla (IMD)" e um nome de coluna que contém "índice de privação múltipla de privação (IMD) decil ". Os arquivos de pesquisa para o IMD 2015 e o IMD 2019 podem ser baixados do Gov.uk (Arquivo 7: todas as classificações, deciles e pontuações para os índices de privação e denominadores populacionais). O arquivo de pesquisa para identificadores de CCG pode ser baixado do NHS Digital (Arquivo: X-Alterações nos mapeamentos CCG-DCO-STP ao longo do tempo).
update o modo de tubulação do interruptor.
O modo de pipeline é alterado do modo Build to Atualize, definindo esse argumento como TRUE .
duplicate registros duplicados de sinalização.
Colunas adicionais serão criadas no conjunto de dados APC, A&E e OP que indicam se um registro provavelmente será um duplicado se esse argumet estiver definido como TRUE . As regras de definição e derivação podem ser encontradas em (Derived_variables.md). Aviso: isso aumentará significativamente o tempo de execução do pipeline.
comorbiditees sinalizando comorbidades.
Colunas adicionais serão criadas no conjunto de dados da APC, incluindo sinalizadores para condições individuais e pontuações ponderadas e não ponderadas de Charlson e Elixhauser se esse argumento for definido como TRUE (consulte também a documentação da comorbidade do pacote R). Além disso, os sinalizadores de pipeline estão relacionados à fragilidade e calcula um índice de fragilidade personalizado (veja?). Aviso: isso aumentará significativamente o tempo de execução do pipeline.

Uso

Atualmente, o pipeline foi projetado para ser executado em uma sessão RStudio. Do console R compilar o código:

> source("pipeline.R")

Em seguida, ligue para pipeline() , fornecendo como argumentos um caminho para o diretório de dados, um caminho para um diretório para um banco de dados sqlite, um vetor de códigos de dados, um caminho para um CSV com colunas esperadas, incluindo códigos de dados e tipos de dados, um opcional vetor do número de linhas a serem lidas no momento por conjunto de dados e, se necessário, e um booleano para permitir a coerção. Os dados serão processados e gravados no banco de dados. NB Este é um processo lento e ocupa uma boa quantidade de memória para ser executada.

Exemplo de execução:

> pipeline(data_path = "/home/user/raw-data/", database_path = "/home/user/database-dir/", data_set_codes = c("APC", "AE", "CC", "OP"), chunk_sizes = c(2000000, 5000000, 2000000, 3000000), expected_headers_file = "/home/user/expected_columns.csv", IMD_15_csv = "IMD_2015_LSOA.csv", IMD_19_csv = "IMD_2019_LSOA.csv", CCG_xlsx = "xchanges-to-ccg-dco-stp-mappings-over-time.xlsx", coerce = TRUE, update = FALSE, duplicates = FALSE, comorbidities = FALSE)

Consultando o banco de dados HES

Para guias sobre como consultar bancos de dados SQLite de R, por exemplo, consulte os bancos de dados tutoriais do RSTUDIO usando R.

O banco de dados pode ser consultado:

Escrevendo a sintaxe sqlite e executando essas consultas em r usando o pacote DBI
Escrevendo a sintaxe r dpyr e usando o back -end do SQL fornecido pelo DBPLYR para traduzir esse código em sqlite.
mais a ser adicionado.

Exemplo de consultas usando DBI e DBPLYR

library( tidyverse )
library( dbplyr )
library ( DBI )

con <- dbConnect( RSQLite :: SQLite(), paste0( database_path , " HES_db.sqlite " ))

# List available tables
dbListTables( con )

# List available variables in the A&E table
dbListFields( con , " AE " )

# Option 1: Query using dbplyr
# Select table
AE <- tbl( con , ' AE ' )

# Look at the first 5 rows
AE % > % 
  head() % > % 
  collect()

# Option 2: Query using SQL
dbGetQuery( con , ' SELECT * FROM AE LIMIT 5 ' )

dbDisconnect( con )

O que evitar ao consultar o banco de dados

Se você estiver usando o DBI, use a função dbGetQuery() . Evite usar funções que possam modificar o banco de dados subjacente, como dbExecute() , dbSendQuery() ou dbSendStatement() .