allelefrequencies下載 - allelefrequencies原始碼下載

allelefrequencies

其他源碼

下載

製表符分隔格式的 HLA 等位基因頻率

卡米爾·斯洛維科夫斯基

2024-04-22

製表符分隔格式的 HLA 等位基因頻率
- 介紹
- 範例
- 引文
- 相關工作
- 致謝

介紹

在這裡，我們共享一個製表符分隔格式的afnd.tsv 文件(5.99MB)，其中包含來自等位基因頻率網絡數據庫(AFND) 的8 個HLA 基因、18 個KIR 基因、2 個MIC 基因和29個細胞激素基因的所有等位基因頻率。

腳本 allelefrequencies.py 自動從網站下載等位基因頻率。

什麼是等位基因頻率網路資料庫？

等位基因頻率網資料庫(AFND) 是一個公共資料庫，包含多種免疫基因的頻率訊息，例如人類白血球抗原(HLA)、殺傷細胞免疫球蛋白樣受體(KIR)、主要組織相容性複合物I 類鏈相關(MIC) ）基因，以及一些細胞激素基因多態性。

afnd.tsv 文件如下所示：

 d <- fread( " afnd.tsv " )
head( d )

 ##    group gene  allele                              population indivs_over_n alleles_over_2n   n
## 1:   hla    A A*01:01                  Argentina Rosario Toba          15.1          0.0760  86
## 2:   hla    A A*01:01                Armenia combined Regions                        0.1250 100
## 3:   hla    A A*01:01 Australia Cape York Peninsula Aborigine                        0.0530 103
## 4:   hla    A A*01:01      Australia Groote Eylandt Aborigine                        0.0270  75
## 5:   hla    A A*01:01     Australia New South Wales Caucasian                        0.1870 134
## 6:   hla    A A*01:01            Australia Yuendumu Aborigine                        0.0080 191

定義：

alleles_over_2n (等位基因 / 2n) 等位基因頻率：群體樣本中等位基因的拷貝總數，採用三位小數格式。
indivs_over_n (100 * 個體 / n) 具有等位基因或基因的個體的百分比。
n （個體）從總體中抽樣的個體數。

範例

以下是我們如何使用 R 分析這些數據的一些範例。

查看數據中可用的最大和最小種群：

 d % > %
  mutate( n = parse_number( n )) % > %
  select( population , n ) % > %
  unique() % > %
  arrange( - n )

 ##                                     population       n
##    1:             Germany DKMS - German donors 3456066
##    2:              USA NMDP European Caucasian 1242890
##    3:          USA NMDP African American pop 2  416581
##    4:              USA NMDP Mexican or Chicano  261235
##    5:              USA NMDP South Asian Indian  185391
##   ---                                                 
## 1489:                            Cameroon Sawa      13
## 1490:    Paraguay/Argentina Ache NA-DHS_24 (G)      13
## 1491:            Malaysia Orang Kanaq Cytokine      11
## 1492:                      Cameroon Baka Pygmy      10
## 1493: Paraguay/Argentina Guarani NA-DHS_23 (G)      10

計算每個基因的等位基因數量：

 d % > %
  count( group , gene , allele ) % > %
  count( group , gene ) % > %
  arrange( - n ) % > %
  head( 15 )

 ##     group  gene    n
##  1:   hla     B 1979
##  2:   hla     A 1394
##  3:   hla     C 1209
##  4:   hla  DRB1  954
##  5:   hla  DPB1  384
##  6:   hla  DQB1  351
##  7:   kir  3DL1   90
##  8:   mic  MICA   69
##  9:   kir  3DL3   67
## 10:   kir  2DL1   52
## 11:   kir  2DL4   35
## 12:   mic  MICB   34
## 13:   hla  DQA1   30
## 14:   kir  3DL2   30
## 15:   kir 2DL5B   24

將每個群體中每個基因的等位基因頻率相加。這使我們能夠看到哪些人群擁有一組加起來為 100% 的等位基因頻率：

 d % > %
  mutate( alleles_over_2n = parse_number( alleles_over_2n )) % > %
  filter( alleles_over_2n > 0 ) % > %
  group_by( group , gene , population ) % > %
  summarize( sum = sum( alleles_over_2n )) % > %
  count( sum == 1 )

 ## `summarise()` has grouped output by 'group', 'gene'. You can override using the `.groups` argument.

## # A tibble: 44 × 4
## # Groups:   group, gene [28]
##    group gene  `sum == 1`     n
##    <chr> <chr> <lgl>      <int>
##  1 hla   A     FALSE        420
##  2 hla   A     TRUE          18
##  3 hla   B     FALSE        513
##  4 hla   B     TRUE          19
##  5 hla   C     FALSE        323
##  6 hla   C     TRUE          19
##  7 hla   DPA1  FALSE         54
##  8 hla   DPA1  TRUE           6
##  9 hla   DPB1  FALSE        207
## 10 hla   DPB1  TRUE          39
## # ℹ 34 more rows

繪製超過 1000 個樣本個體的群體中特定等位基因的頻率：

 my_allele <- " DQB1*02:01 "
my_d <- d % > % filter( allele == my_allele ) % > %
  mutate(
    n = parse_number( n ),
    alleles_over_2n = parse_number( alleles_over_2n )
  ) % > %
  filter( n > 1000 ) % > %
  arrange( - alleles_over_2n )

ggplot( my_d ) +
  aes( x = alleles_over_2n , y = reorder( population , alleles_over_2n )) +
  scale_y_discrete( position = " right " ) +
  geom_colh() +
  labs(
    x = " Allele Frequency (Alleles / 2N) " ,
    y = NULL ,
    title =  glue( " Frequency of {my_allele} across populations " ),
    caption = " Data from AFND http://allelefrequencies.net "
  )

引文

如果您使用此數據，請引用有關等位基因頻率網路資料庫的最新手稿：

Gonzalez-Galarza FF、McCabe A、Santos EJMD、Jones J、Takeshita L、Ortega-Rivera ND 等。等位基因頻率網資料庫 (AFND) 2020 更新：黃金標準資料分類、開放取用基因型資料和新的查詢工具。核酸研究。 2020；48：D783–D788。 doi:10.1093/nar/gkz1029

 @ARTICLE{Gonzalez-Galarza2020,
  title    = "{Allele frequency net database (AFND) 2020 update: gold-standard
              data classification, open access genotype data and new query
              tools}",
  author   = "Gonzalez-Galarza, Faviel F and McCabe, Antony and Santos, Eduardo
              J Melo Dos and Jones, James and Takeshita, Louise and
              Ortega-Rivera, Nestor D and Cid-Pavon, Glenda M Del and
              Ramsbottom, Kerry and Ghattaoraya, Gurpreet and Alfirevic, Ana
              and Middleton, Derek and Jones, Andrew R",
  journal  = "Nucleic acids research",
  volume   =  48,
  number   = "D1",
  pages    = "D783--D788",
  month    =  jan,
  year     =  2020,
  language = "en",
  issn     = "0305-1048, 1362-4962",
  pmid     = "31722398",
  doi      = "10.1093/nar/gkz1029",
  pmc      = "PMC7145554"
}