คามิล สโลวิโคฟสกี้
22-04-2024
สารบัญ
ที่นี่ เราแชร์ไฟล์เดียว afnd.tsv (5.99MB) ในรูปแบบที่คั่นด้วยแท็บพร้อมความถี่อัลลีลทั้งหมดสำหรับยีน HLA 8 ยีน, ยีน KIR 18 ยีน, ยีน MIC 2 ยีน และยีนไซโตไคน์ 29 ยีนจากฐานข้อมูล Allele Frequency Net (AFND)
สคริปต์ allelefrequencies.py จะดาวน์โหลดความถี่อัลลีลจากเว็บไซต์โดยอัตโนมัติ
ฐานข้อมูลสุทธิความถี่อัลลีลคืออะไร
ฐานข้อมูล Allele Frequency Net (AFND) เป็นฐานข้อมูลสาธารณะซึ่งประกอบด้วยข้อมูลความถี่ของยีนภูมิคุ้มกันหลายชนิด เช่น Human Leukocyte Antigens (HLA), Killer-cell Immunoglobulin-like Receptors (KIR), Major histocompatibility complex class I chain- related (MIC ) ยีน และความหลากหลายของยีนไซโตไคน์จำนวนหนึ่ง
ไฟล์ afnd.tsv มีลักษณะดังนี้:
d <- fread( " afnd.tsv " )
head( d )
## group gene allele population indivs_over_n alleles_over_2n n
## 1: hla A A*01:01 Argentina Rosario Toba 15.1 0.0760 86
## 2: hla A A*01:01 Armenia combined Regions 0.1250 100
## 3: hla A A*01:01 Australia Cape York Peninsula Aborigine 0.0530 103
## 4: hla A A*01:01 Australia Groote Eylandt Aborigine 0.0270 75
## 5: hla A A*01:01 Australia New South Wales Caucasian 0.1870 134
## 6: hla A A*01:01 Australia Yuendumu Aborigine 0.0080 191
คำจำกัดความ:
alleles_over_2n
(Alleles / 2n) ความถี่อัลลีล: จำนวนสำเนาทั้งหมดของอัลลีลในกลุ่มตัวอย่างในรูปแบบทศนิยมสามตัว
indivs_over_n
(100 * Individuals / n) เปอร์เซ็นต์ของบุคคลที่มีอัลลีลหรือยีน
n
(บุคคล) จำนวนบุคคลที่สุ่มตัวอย่างจากประชากร
ต่อไปนี้คือตัวอย่างบางส่วนของวิธีที่เราสามารถใช้ R เพื่อวิเคราะห์ข้อมูลเหล่านี้
ดูประชากรที่ใหญ่ที่สุดและเล็กที่สุดในข้อมูล:
d % > %
mutate( n = parse_number( n )) % > %
select( population , n ) % > %
unique() % > %
arrange( - n )
## population n
## 1: Germany DKMS - German donors 3456066
## 2: USA NMDP European Caucasian 1242890
## 3: USA NMDP African American pop 2 416581
## 4: USA NMDP Mexican or Chicano 261235
## 5: USA NMDP South Asian Indian 185391
## ---
## 1489: Cameroon Sawa 13
## 1490: Paraguay/Argentina Ache NA-DHS_24 (G) 13
## 1491: Malaysia Orang Kanaq Cytokine 11
## 1492: Cameroon Baka Pygmy 10
## 1493: Paraguay/Argentina Guarani NA-DHS_23 (G) 10
นับจำนวนอัลลีลของแต่ละยีน:
d % > %
count( group , gene , allele ) % > %
count( group , gene ) % > %
arrange( - n ) % > %
head( 15 )
## group gene n
## 1: hla B 1979
## 2: hla A 1394
## 3: hla C 1209
## 4: hla DRB1 954
## 5: hla DPB1 384
## 6: hla DQB1 351
## 7: kir 3DL1 90
## 8: mic MICA 69
## 9: kir 3DL3 67
## 10: kir 2DL1 52
## 11: kir 2DL4 35
## 12: mic MICB 34
## 13: hla DQA1 30
## 14: kir 3DL2 30
## 15: kir 2DL5B 24
รวมความถี่อัลลีลของแต่ละยีนในแต่ละประชากร สิ่งนี้ช่วยให้เราเห็นว่าประชากรกลุ่มใดมีชุดความถี่อัลลีลที่รวมกันได้มากถึง 100 เปอร์เซ็นต์:
d % > %
mutate( alleles_over_2n = parse_number( alleles_over_2n )) % > %
filter( alleles_over_2n > 0 ) % > %
group_by( group , gene , population ) % > %
summarize( sum = sum( alleles_over_2n )) % > %
count( sum == 1 )
## `summarise()` has grouped output by 'group', 'gene'. You can override using the `.groups` argument.
## # A tibble: 44 × 4
## # Groups: group, gene [28]
## group gene `sum == 1` n
##
## 1 hla A FALSE 420
## 2 hla A TRUE 18
## 3 hla B FALSE 513
## 4 hla B TRUE 19
## 5 hla C FALSE 323
## 6 hla C TRUE 19
## 7 hla DPA1 FALSE 54
## 8 hla DPA1 TRUE 6
## 9 hla DPB1 FALSE 207
## 10 hla DPB1 TRUE 39
## # ℹ 34 more rows
พล็อตความถี่ของอัลลีลเฉพาะในประชากรที่มีกลุ่มตัวอย่างมากกว่า 1,000 ราย:
my_allele <- " DQB1*02:01 "
my_d <- d % > % filter( allele == my_allele ) % > %
mutate(
n = parse_number( n ),
alleles_over_2n = parse_number( alleles_over_2n )
) % > %
filter( n > 1000 ) % > %
arrange( - alleles_over_2n )
ggplot( my_d ) +
aes( x = alleles_over_2n , y = reorder( population , alleles_over_2n )) +
scale_y_discrete( position = " right " ) +
geom_colh() +
labs(
x = " Allele Frequency (Alleles / 2N) " ,
y = NULL ,
title = glue( " Frequency of {my_allele} across populations " ),
caption = " Data from AFND http://allelefrequencies.net "
)
หากคุณใช้ข้อมูลนี้ โปรดอ้างอิงต้นฉบับล่าสุดเกี่ยวกับ ฐานข้อมูล Allele Frequency Net :
@ARTICLE{Gonzalez-Galarza2020,
title = "{Allele frequency net database (AFND) 2020 update: gold-standard
data classification, open access genotype data and new query
tools}",
author = "Gonzalez-Galarza, Faviel F and McCabe, Antony and Santos, Eduardo
J Melo Dos and Jones, James and Takeshita, Louise and
Ortega-Rivera, Nestor D and Cid-Pavon, Glenda M Del and
Ramsbottom, Kerry and Ghattaoraya, Gurpreet and Alfirevic, Ana
and Middleton, Derek and Jones, Andrew R",
journal = "Nucleic acids research",
volume = 48,
number = "D1",
pages = "D783--D788",
month = jan,
year = 2020,
language = "en",
issn = "0305-1048, 1362-4962",
pmid = "31722398",
doi = "10.1093/nar/gkz1029",
pmc = "PMC7145554"
}
นี่คือแหล่งข้อมูลทั้งหมดที่ฉันพบซึ่งมีข้อมูลเกี่ยวกับความถี่อัลลีลของ HLA ในประชากรต่างๆ
https://github.com/Vaccitech/HLAfreq/
ผู้เขียนจัดเตรียมไฟล์ xlsx ไว้บนเว็บไซต์นี้:
แต่ข้อมูลความถี่จะถูกแบ่งออกเป็นหมวดหมู่:
มีเครื่องมือที่เรียกว่า HLA-Net ที่ให้การแสดงภาพข้อมูล CIWD
http://tools.iedb.org/population/download
ที่หน้าเครื่องมือ IEDB เราจะพบเครื่องมือที่เรียกว่า Population Coverage ผู้เขียนได้ดาวน์โหลดข้อมูลความถี่ HLA จาก AFND และบันทึกไว้ในไฟล์ Python Pickle
https://www.ncbi.nlm.nih.gov/gv/mhc
ดูเหมือนว่าฐานข้อมูลและเว็บไซต์ dbMHC จะถูกยกเลิก แต่ไฟล์เก็บถาวรของไฟล์เก่ายังคงมีอยู่ผ่านทาง FTP
https://bioinformatics.bethematchclinical.org/hla-resources/haplotype-frequencies/high-solution-hla-alleles-and-haplotypes-in-the-us-population/
ขอขอบคุณ David A. Wells สำหรับการแบ่งปัน scrapeAF ซึ่งเป็นแรงบันดาลใจให้ฉันทำงานในโครงการนี้