HES_pipeline下載HES_pipeline源代碼下載

HES_pipeline

其他源碼

1.0.0

下載

他的管道

開源R管道清潔和處理患者級醫院發作統計（HES）並鏈接了ONS死亡率數據，目的是生成準備分析的數據集，以進行定義的分析程序。

項目狀態：正在進行

項目描述

醫院情節統計（HES）是一個數據庫，其中包含在英格蘭NHS醫院的所有招待會，急診室和門診任命的詳細信息。

在將其用於分析之前，HES數據需要清潔，質量控制和處理才能得出其他變量。從分析和計算的角度來看，HES的複雜記錄結構，大量變量和數據集的大小使這是一個具有挑戰性的任務。

我們在此存儲庫過程中開發的半自動化工作流程始終且可重複地將所有處理步驟記錄在HES數據中，旨在確保每個批准的分析項目基於相同的清潔數據。

數據源

從2008/09到最近發布的季度發布，我們使用與ONS死亡率數據鏈接的HES數據。我們的數據應用程序已由NHS Digital [數據訪問請求服務訪問請求服務（DARS）批准。

數據將在衛生基金會的安全數據環境中訪問；安全的數據分析設施（已獲得ISO27001信息安全標準的認可，並以NHS數字數據安全和保護工具包認可）。不會使用直接識別患者或其他人的信息。

文件

DOC文件夾包含有關：

HES數據清潔和處理協議[要添加]
運行期間創建的日誌
派生變量的定義
派生表的定義

此外，下面的部分描述了

管道設計選擇
如何運行管道以準備HES提取物進行分析
如何查詢所得的SQLITE數據庫
查詢數據庫時要避免什麼

它如何工作？

由於本管道中準備的HES數據尚未公開，因此代碼不能用於復制相同的清潔數據和數據庫。但是，該代碼可以在類似的患者級HES提取物上使用，以準備數據集進行分析。有關管道如何工作的更多詳細信息，請參見下面或參考過程文檔。

管道設計和功能

該過程文檔描述了管道的整體設計，列出了工作流程中的步驟的必要輸入和高級描述。

流程圖顯示了用戶輸入和數據如何通過不同管道功能移動。

管道可以通過兩種模式運行：

構建模式從頭開始創建一個新的HES數據庫（這是默認值）。
更新模式將數據更新包含到現有的HES數據庫中（如果update = TRUE ）。 HES數據更新在同一年重疊，因此一些舊數據將被刪除並替換為新更新。每個數據更新都會完全刷新ONS死亡率數據。

在構建模式下，管道

創建一個SQLITE數據庫
讀取ONS死亡率和HES橋接文件，將它們合併並將其添加為數據庫的新表格
根據數據集，在塊中讀取HES原始數據文件，然後將其添加到數據庫中的相應表中
- 檢查是否存在所有預期列
- 脅迫數據類型（可選）
- 清潔變量
- 得出新變量（用於基於單個記錄或行的變量）
- 結合有關多剝奪和CCG的LSOA級索引的公共數據（可選）
- 標記合併症併計算Charlson，Elixhause和自定義脆弱指數（可選）
標誌在數據庫中重複（可選）
創建住院法術
創建連續的住院法術
為乾淨的數據集創建摘要表，並將其保存到數據庫和CSV文件中。

在更新模式下，管道

檢測哪個數據年度從要處理的原始文件的文件名更新
刪除將替換為每個HES數據集的記錄子集以及ONS表
將現有數據移至臨時備份表中
處理新數據（如上所述，直到重複的標記步驟）
通過新數據更新加入現有記錄
在組合數據上創建住院法術
在組合數據上創建連續的住院法術
為乾淨的數據集創建摘要表，並將其保存到數據庫和CSV文件中。

體系結構/分析決策記錄

體系結構決策記錄（ADR）捕獲了建築決策和設計選擇，以及他們的背景，理由和後果。此外，我們記錄了一些分析決策。

到目前為止，我們已經記錄了有關的決定

原始數據的存儲位置以及如何存儲，如有必要
如何在塊中讀取數據以及如何確定每個文件所需塊的數量
日期將如何存儲在SQLITE數據庫中
在識別重複記錄時，選擇了兩個記錄的A＆E到達時間的選擇方法
如果缺少
一些列名稱的硬編碼
用於創建住院法術的方法
用於創建連續住院法術的方法
使用錄取的患者護理數據計算的自定義脆弱指數的定義。

要求

軟件和R軟件包

HES管道是根據R 3.6.2版（2019-12-12）建造的 - “黑暗而暴風雨的夜晚”。

運行hES管道需要以下r套件：

data.table（1.12.2）
DBI（1.0.0）
整形（1.2.1）
花花公子（0.2.0）
readxl（1.3.3）
Furrr（0.1.0）
記錄器（0.1）
Plyr（1.8.4）
rlang（0.4.0）
合併症（0.5.3）

存儲容量

創建數據庫的位置需要具有足夠的存儲空間，大致相當於RAW HES數據提取物的組合文件大小以及APC數據集的2 x文件大小（作為住院法術的表和連續的住院咒語的表格添加）。

臨時存儲

某些處理步驟不是在內存中執行的，而是作為SQLite查詢。這包括重複的標記算法，咒語創建和清潔數據上的摘要統計表的創建。根據數據集的大小，這些步驟會創建大型臨時SQLITE數據庫（.ETIQLS文件），一旦執行查詢，它們就會自動刪除。默認情況下，這些是在R主目錄中創建的，該目錄通常位於具有限制存儲容量的驅動器上。

我們發現，當沒有足夠的臨時存儲可用時，Pieline的執行失敗（錯誤消息“數據庫或磁盤已滿”）。可以通過更改創建臨時SQLite數據庫的位置來解決這。在Windows上，臨時存儲位置由環境變量“ TMP”控制。我們建議創建一個項目級別的.renviron文件，以將TMP設置為具有足夠存儲容量的位置。

運行管道

必需的參數

data_path路徑到HES數據提取。
該管道可以處理以下任何患者級數據集：HE承認患者護理，事故和緊急情況，HES OUPTATITER CARA，HES CARIVE CARE和ONS死亡率記錄（包括將其鏈接到HES的橋樑文件）。它需要其中至少一個。原始數據文件必須位於同一文件夾中。
database_path路徑通往將構建SQLite數據庫的文件夾。
data_set_codes預期hes hes數據data_path數據集中的數據集。
這應該是“ APC”，“ AE”，“ CC”和“ OP”的一個或幾個。這些標識符與原始文件的名稱匹配，這對於從NHS Digital收到的RAW HES文件應該是這種情況。默認情況下，默認情況下處理了ONS死亡率記錄和ONS-HES橋樑文件。死亡率記錄和橋樑文件的文件名應分別包含“ ONS”和“ BF”。
CSV文件的expected_headers_file路徑，每個數據集都有預期列名。
該CSV文件至少有兩個列，名為colnames和dataset ，類似於此模板。讀取數據時，數據中的列標題會自動化，因此CSV文件中的列名應為所有CAPS。此信息將用於檢查每個原始數據文件是否包含所有預期列。

可選的論點

以下參數具有默認設置：

chunk_sizes為每個數據集的每個塊的行數。
每個數據文件都會在許多行的碎片中讀取和處理。默認尺寸為每塊的100萬行，但用戶可以修改。較大的塊尺寸，每個文件的塊數量較少，減少了整體處理時間。這可能是因為對於給定文件中的每個塊， fread()需要逐漸更長的時間才能移動到指定的行號才能開始讀取數據。但是，大塊尺寸也增加了處理記憶中每個塊的時間。最佳塊大小平衡處理時間與閱讀時間的處理時間，並且取決於系統和數據集，因為每個數據集都可以具有不同數量的變量，因此每行需要不同量的內存。建議首先在較小的數據子集上進行測試，因為很大的塊尺寸可能會導致Rstudio崩潰。
coerce脅迫數據類型。
默認情況下，用於在數據中讀取的fread()函數將自動檢測列類型。
另外，可以通過將此參數設置為TRUE將數據類型脅迫到用戶定義的類型。在CSV文件中提供了帶有預期列名稱的CSV文件中的第三列，稱為type ，請參見此模板。請注意，SQLite沒有日期數據類型。日期變量需要存儲為字符，因此應將其列為CSV文件中的字符。
IMD_2014_csv ， IMD_2019_csv和CCG_xlsx通路通向包含要合併的參考數據的文件。
當前可以合併到每個記錄的其他參考數據包括多重剝奪的索引（IMD），2015年和/或2019年版本以及CCG標識符。應提供參考文件的文件路徑作為參數，並將在患者LSOA11上連接。包含LSOA11至IMD映射的CSV文件需要具有一個以“ LSOA代碼”開頭的列名，該名稱包含“多剝奪（IMD）等級的索引”和包含“多剝奪索引”的列名稱的列名。（IMD ）十分列。可以從gov.uk下載IMD 2015和IMD 2019的查找文件（文件7：剝奪指數的所有等級，十分位和分數以及人口分母）。可以從NHS Digital下載CCG標識符的查找文件（File：X-隨著時間的推移更改為CCG-DCO-STP映射）。
update開關管道模式。
通過將此參數設置為TRUE ，將管道模式從構建模式切換到更新模式。
duplicate標記重複記錄。
將在APC，A＆E和OP數據集中創建其他列，該數據集指示是否將此argumet設置為TRUE ，是否有可能重複記錄。可以在（derived_variables.md）中找到定義和派生規則。警告：這將大大增加管道的運行時間。
comorbiditees的合併症。
如果將此參數設置為TRUE ，則將在APC數據集中創建其他列，包括針對單個條件的標誌，並加權和未加權的Charlson和Elixhauser分數（另請參見R package colorbity的文檔）。此外，管道標誌條件與脆弱的條件併計算自定義脆弱指數（請參閱？）。警告：這將大大增加管道的運行時間。

用法

目前，該管道旨在在RSTUDIO會話中運行。從r控制台編譯代碼：

> source("pipeline.R")

然後呼叫pipeline() ，作為參數提供數據目錄的路徑，通往SQLITE數據庫目錄的路徑，數據集代碼的向量，通往帶有預期列的CSV的路徑，嵌入數據集代碼和數據類型，可選的每個數據集的時間讀取的行數的向量，如有需要，以及一個布爾值以啟用脅迫。數據將被處理並寫入數據庫。 NB這是一個緩慢的過程，並且需要大量的內存來運行。

示例運行：

> pipeline(data_path = "/home/user/raw-data/", database_path = "/home/user/database-dir/", data_set_codes = c("APC", "AE", "CC", "OP"), chunk_sizes = c(2000000, 5000000, 2000000, 3000000), expected_headers_file = "/home/user/expected_columns.csv", IMD_15_csv = "IMD_2015_LSOA.csv", IMD_19_csv = "IMD_2019_LSOA.csv", CCG_xlsx = "xchanges-to-ccg-dco-stp-mappings-over-time.xlsx", coerce = TRUE, update = FALSE, duplicates = FALSE, comorbidities = FALSE)

查詢HES數據庫

對於如何從R查詢SQLITE數據庫的指南，例如，請參見使用R的RSTUDIO教程數據庫。

可以查詢數據庫：

通過編寫SQLite語法並使用DBI軟件包在R中執行這些查詢
通過編寫R DPYR語法並使用DBPlyR提供的SQL後端將此代碼轉換為SQLite。
還有更多要添加。

示例使用DBI和DBPLYR查詢

library( tidyverse )
library( dbplyr )
library ( DBI )

con <- dbConnect( RSQLite :: SQLite(), paste0( database_path , " HES_db.sqlite " ))

# List available tables
dbListTables( con )

# List available variables in the A&E table
dbListFields( con , " AE " )

# Option 1: Query using dbplyr
# Select table
AE <- tbl( con , ' AE ' )

# Look at the first 5 rows
AE % > % 
  head() % > % 
  collect()

# Option 2: Query using SQL
dbGetQuery( con , ' SELECT * FROM AE LIMIT 5 ' )

dbDisconnect( con )