โครงการความร่วมมือ Telomere-to-Telomere CHM13
เราได้จัดลำดับกลุ่มเซลล์มนุษย์ CHM13hTERT ด้วยเทคโนโลยีจำนวนหนึ่ง DNA จีโนมของมนุษย์ถูกสกัดจากเซลล์เพาะเลี้ยง เนื่องจาก DNA เป็น DNA ดั้งเดิม เบสที่ถูกดัดแปลงจึงจะถูกเก็บรักษาไว้ ข้อมูลดังกล่าวประกอบด้วย PacBio HiFi 30x, ครอบคลุม 120x ของ Oxford Nanopore, 70x PacBio CLR, 50x 10X Genomics รวมถึง BioNano DLS และ Arima Genomics HiC ข้อมูลดิบส่วนใหญ่หาได้จากไซต์นี้ ยกเว้นข้อมูล PacBio ที่สร้างโดย University of Washington/PacBio และหาได้จาก NCBI SRA
ฮับเบราว์เซอร์ UCSC พร้อมใช้งานสำหรับ CHM13 และ T2T-Primates การอัปเดตการติดตามจะกระทำกับฮับนี้จนกว่าจะรวมเข้ากับเบราว์เซอร์ UCSC Genome สำหรับ hs1 เบราว์เซอร์ UCSC รุ่นเก่าพร้อมใช้งานสำหรับเวอร์ชัน v2.0, v1.0 และ v1.1
การแสดงภาพ dotplot แบบโต้ตอบของการทำซ้ำจีโนมทั้งหมดยังมีอยู่ใน resgen.io ปัญหาที่ทราบที่ระบุในแอสเซมบลีจะถูกติดตามที่ปัญหา CHM13
การเปิดตัวชุดประกอบล่าสุด
T2T-CHM13v2.0 (T2T-CHM13+Y)
การสร้างจีโนมมนุษย์ขึ้นใหม่ด้วย T2T โดยสมบูรณ์ด้วย Y การเปลี่ยนแปลงจากเวอร์ชัน 1.1 คือการเติมโครโมโซม Y ที่เสร็จแล้วจากตัวอย่าง GIAB HG002/NA24385 ซึ่งจัดลำดับทั้งโดย GIAB และ HPRC จีโนมนี้มีให้ที่ NCBI (GCA_009914755.4) และที่ UCSC โปรดทราบว่าแม้ว่าเบราว์เซอร์ UCSC จะแสดงการเข้าถึง Genbank เป็นชื่อลำดับบนเบราว์เซอร์เอง แต่ก็สามารถโหลดคำอธิบายประกอบใน BED/bigBed/BAM/CRAM/bigWig และรูปแบบอื่นๆ หรือค้นหาโดยใช้ชื่อ "chr1/2/etc"
รุ่นแอสเซมบลีก่อนหน้านี้มีอยู่ด้านล่าง:
- T2T-CHM13: v0.7-v1.1
- T2T-HG002XY: v0.7-2.7
ดาวน์โหลด
ข้อมูลลำดับ
ชุดข้อมูลลำดับที่สร้างขึ้นสำหรับ CHM13 มีอยู่ในหน้านี้
ชุดการวิเคราะห์
ชุดการวิเคราะห์สำหรับการใช้ T2T-CHM13v2.0 (T2T-CHM13+Y) เป็นข้อมูลอ้างอิงสำหรับการวิจัยตามการทำแผนที่มีให้บริการที่ aws พร้อมด้วย README
- chm13v2.0.fa.gz: ชุดประกอบ T2T-CHM13v2.0 พร้อมลำดับแบบ soft-mask โดยใช้แบบจำลองซ้ำที่ค้นพบโดยทีมงาน T2T หมายเลขภาคยานุวัติของลำดับดั้งเดิมจะแสดงอยู่ในส่วนหัวของ FASTA
- chm13v2.0_noY.fa.gz: ไม่รวมโครโมโซม Y ไฟล์นี้มีเฉพาะลำดับที่ได้มาจากบรรทัดเซลล์ CHM13 และเหมือนกันกับ T2T-CHM13v1.1 ใช้ไฟล์นี้สำหรับการวัดประสิทธิภาพชุดประกอบของ CHM13
- chm13v2.0_PAR.bed: ภูมิภาคเทียมอัตโนมัติ (PAR)
- chm13v2.0_maskedY.fa.gz: PARs บน chrY ฮาร์ดมาสก์เป็น "N"
- chm13v2.0_maskedY.rCRS.fa.gz: PARs บน chrY ฮาร์ดมาสก์เป็น "N" และไมโตคอนเดรียแทนที่ด้วย rCRS (AC:NC_012920.1)
อัปเดตวันที่ 28 กันยายน 2022: ไฟล์ fa.gz ที่ชุดการวิเคราะห์ทั้งหมดได้รับการบีบอัดใหม่ด้วย bgzip ไฟล์ดัชนีมีให้ใช้งานที่ aws พร้อม md5s ที่อัปเดตใน README
คำอธิบายประกอบของยีน
- JHU RefSeqv110 + Liftoff v5.2: ประกอบด้วยคำอธิบาย ประกอบที่ได้รับการดูแลจัดการ ของยีน ampliconic บนโครโมโซม Y ซึ่งแก้ไขข้อผิดพลาดคำอธิบายประกอบในคำอธิบายประกอบ GENCODEv35 CAT/Liftoff และ RefSeqv110 สำเนาเพิ่มเติมที่พบใน T2T-Y ได้รับการใส่คำอธิบายประกอบให้กับยีนที่มีอยู่ใน RefSeq ที่ใกล้เคียงที่สุด ทำให้ยีนหลายตัวมีชื่อสามัญเหมือนกัน ไฟล์นี้ได้รับการแก้ไขเพื่อแก้ไขปัญหาอักขระพิเศษจากไฟล์ต้นฉบับ คำอธิบายเพิ่มเติมมีอยู่ที่นี่ บันทึกการอัปเดตจาก v5 เป็น v5.1 มีอยู่ที่นี่
- UCSC GENCODEv35 CAT/Liftoff v2
- คำอธิบายประกอบ CAT/Liftoff v1 สำหรับ VEP ในดัชนี Sorted GFF และ TABIX
- การเข้ารหัสโปรตีนที่แปลจากคำอธิบายประกอบ CAT/Liftoff v1 โปรดทราบว่าสิ่งเหล่านี้ไม่ใช่ยีนและสามารถค้นหาได้ด้วย ID การถอดเสียงเท่านั้น (ID เช่น LOFF_T ไม่ใช่ LOFF_G)
- NCBI RefSeqv110 จาก FTP
- EBI GENCODEv38 r2 จากโครงการ HPRC
คำอธิบายประกอบซ้ำ
- ไซโตแบนด์
- การทำสำเนาแบบแบ่งส่วน v2022-03-11 ในรูปแบบเรียบง่ายและเต็มเตียง
- Cen/Sat v2.1: คำอธิบายประกอบซ้ำเซนโทรเมียร์/ดาวเทียมที่ครอบคลุมมากขึ้น (เปลี่ยนสีใหม่เพื่อให้สอดคล้องกับแทร็กไพรเมต Cen/Sat)
- RepeatMasker v4.1.2p1.2022เม.ย.14 บนเตียงหรือเนทิฟเอาท์ นี่เป็นแหล่งข้อมูลที่ยอดเยี่ยมสำหรับการสร้างไลบรารี RepeatMasker แบบกำหนดเองด้วยโมเดลทำซ้ำใหม่จากจีโนม T2T และคำแนะนำสำหรับการรัน RepeatMasker
- คอมโพสิตซ้ำ 2022DEC
- ดาวเทียมใหม่ ปี 2022ธ.ค
- คลาสลำดับ chrXY v1
- เทโลเมียร์
- Y คำอธิบายประกอบเฉพาะ
- Palindromes และการทำซ้ำแบบกลับด้าน v1
- แอมพลิฟายเออร์ v1
- AZFa, AZFb, AZFc และ DYZ v1
โปรไฟล์ Epigenetic
- ENCODE เรียกคืนใน T2T-CHM13v2.0
- HG002 และ CHM13 5mC CpG และเมทิลเลชั่นอื่น ๆ จาก ONT และ HiFi
การโทรแบบต่างๆ
- โครงการ 1,000 จีโนม เรียกคืนใน T2T-CHM13v2.0 มีจำหน่ายแล้วสำหรับโครโมโซมทั้งหมด สำหรับตัวอย่างทั้งหมด 3,202 ตัวอย่าง หรือตัวอย่าง 2504 ที่ไม่เกี่ยวข้องกัน ไฟล์ชุดอ้างอิง bam และ vcf มีอยู่ใน AnVIL_T2T_CHRY เช่นกัน
- โครงการ 1,000 จีโนม - ความถี่อัลลีลโดยประชากร ของกลุ่มตัวอย่างที่ไม่เกี่ยวข้อง ไม่รวมบุคคลอีก 14 คนที่ค้นพบว่าเป็นญาติระดับที่หนึ่งและสอง (รายละเอียดเพิ่มเติมที่นี่)
- โครงการ 1,000 จีโนม - สิ้นสุดด้วย SHAPEIT5 โดยใช้การเรียกตัวแปรข้างต้น
- โครงการ Simons Genome Diversity เรียกคืนใน T2T-CHM13v2.0 ไฟล์ชุดอ้างอิง bam และ vcf มีอยู่ใน AnVIL_T2T_CHRY เช่นกัน
- gnomAD v3.1.2 จาก FTP: นี่คือเวอร์ชันที่ยกมาจาก GRCh38 โดยมีหมายเหตุประกอบด้วยผลที่ตามมาของโมเลกุลที่คาดการณ์ไว้และคะแนนความเป็นอันตรายของตัวแปรเฉพาะการถอดเสียงจาก PolyPhen-2 และ SIFT โดยใช้ Ensembl Variant Effect Predictor
- มาสก์การเข้าถึงแบบอ่านสั้น ซึ่งมีมาสก์ 3 แบบที่ใช้สร้าง integrated_mask มีอยู่ที่นี่ ดูคำอธิบาย
- ClinVar 20220313 ยกมาจาก GRCh38 ดูคำอธิบาย
- GWAS v1.0 ยกมาจาก GRCh38 ดูคำอธิบาย
- dbSNP build 155 ยกมาจาก GRCh38 ดูคำอธิบาย
- ตัวแปรหายไปในพิกัด GRCh38-Y, v0.005 เมื่อใช้ T2T-Y เป็นข้อมูลอ้างอิง รายละเอียดเพิ่มเติมอยู่ที่นี่
ทรัพยากรการยก
- 1:1 Liftover GRCh38 <-> T2T-CHM13v2.0 ดูคำอธิบาย
- GRCh38/hg38 -> T2T-CHM13v2.0: grch38-chm13v2.chain
- GRCh38/hg38 <- T2T-CHM13v2.0: chm13v2-grch38.chain
- การจัดตำแหน่ง grch38-chm13v2.paf
- ลิฟโอเวอร์ 1:1 hg19 <-> T2T-CHM13v2.0
- GRCh37/hg19 -> T2T-CHM13v2.0: hg19-chm13v2.chain
- GRCh37/hg19 <- T2T-CHM13v2.0: chm13v2-hg19.chain
- การจัดตำแหน่ง hg19-chm13v2.paf
ภูมิภาคที่ไม่สังเคราะห์
- ภูมิภาคที่ไม่สังเคราะห์ (ไม่ซ้ำกัน) เมื่อเปรียบเทียบกับ GRCh38 และ GRCh37 จากเชนด้านบน
- GRCh38/hg38: chm13v2-unique_to_hg38.bed
- GRCh37/hg19: chm13v2-unique_to_hg19.bed
- ภูมิภาคที่ไม่สังเคราะห์จาก T2T-CHM13v1.0 และ T2T-CHM13v1.1 บวก hg38Y โดย Aganezov และคณะ วิทยาศาสตร์, 2022
- T2T-CHM13v1.0: chm13.draft_v1.0_plus38Y.no_snyteny_1Mbp.เตียง
- T2T-CHM13v1.1: chm13_v1.1_plus38Y.no_snyteny_1Mbp.เตียง
หมายเหตุเกี่ยวกับการดาวน์โหลดไฟล์
ไฟล์ได้รับการโฮสต์อย่างไม่เห็นแก่ตัวโดย Amazon Web Services ภายใต้ s3://human-pangenomics/T2T/CHM13 และผ่านทางอินเทอร์เฟซเว็บนี้
แม้ว่าจะใช้งานได้ในรูปแบบลิงก์ HTTP แบบตรงไปตรงมา แต่ประสิทธิภาพการดาวน์โหลดก็ได้รับการปรับปรุงโดยใช้อินเทอร์เฟซบรรทัดคำสั่งของ Amazon Web Services ควรแก้ไขข้อมูลอ้างอิงเพื่อใช้รูปแบบการกำหนดที่อยู่ s3://
เช่น แทนที่ https://s3-us-west-2.amazonaws.com/human-pangenomics/T2T/
ด้วย s3://human-pangenomics/T2T
เพื่อดาวน์โหลด . ตัวอย่างเช่น หากต้องการดาวน์โหลด CHM13_prep5_S13_L002_I1_001.fastq.gz
ไปยังไดเร็กทอรีการทำงานปัจจุบัน ให้ใช้คำสั่งต่อไปนี้
aws s3 --no-sign-request cp s3://human-pangenomics/T2T/CHM13/10x/CHM13_prep5_S13_L002_I1_001.fastq.gz .
หรือหากต้องการดาวน์โหลดชุดข้อมูลทั้งหมดให้ใช้คำสั่งต่อไปนี้
aws s3 --no-sign-request sync s3://human-pangenomics/T2T/CHM13/ .
คำสั่ง s3 ยังสามารถใช้เพื่อรับข้อมูลเกี่ยวกับชุดข้อมูลได้ เช่น การรายงานขนาดของทุกไฟล์ในรูปแบบที่มนุษย์สามารถอ่านได้
aws s3 --no-sign-request ls --recursive --human-readable --summarize s3://human-pangenomics/T2T/CHM13/
หรือเพื่อให้ได้ขนาดเฉพาะทางเทคโนโลยี
aws s3 --no-sign-request ls --recursive --human-readable --summarize s3://human-pangenomics/T2T/CHM13/nanopore/fast5
aws s3 --no-sign-request ls --recursive --human-readable --summarize s3://human-pangenomics/T2T/CHM13/nanopore/rel2
aws s3 --no-sign-request ls --recursive --human-readable --summarize s3://human-pangenomics/T2T/CHM13/assemblies
การแก้ไขการตั้งค่า max_concurrent_requests
ฯลฯ ตามคู่มือนี้จะช่วยปรับปรุงประสิทธิภาพการดาวน์โหลดให้ดียิ่งขึ้น
ติดต่อ
โปรดแจ้งปัญหาในพื้นที่เก็บข้อมูล Github นี้เกี่ยวกับชุดข้อมูลนี้
การใช้ข้อมูลซ้ำและการอนุญาต
ข้อมูลทั้งหมดถูกเผยแพร่สู่สาธารณสมบัติ (CC0) และเราสนับสนุนให้นำข้อมูลดังกล่าวกลับมาใช้ใหม่ เราจะยินดีเป็นอย่างยิ่งหากคุณรับทราบและอ้างอิงถึงสมาคม "Telomere-to-Telomere" (T2T) สำหรับการสร้างข้อมูลนี้ ข้อมูลเพิ่มเติมเกี่ยวกับกลุ่มความร่วมมือของเราสามารถพบได้ที่หน้าแรกของ T2T และรายการการอ้างอิงที่เกี่ยวข้องมีอยู่ด้านล่าง:
T2T-CHM13v2.0 ชุดข้อมูลที่เผยแพร่ตาม v2.0 และโครโมโซม T2T-Y
- Rhie A, Nurk S, Cechova M, Hoyt SJ, Taylor DJ และคณะ ลำดับที่สมบูรณ์ของโครโมโซม Y ของมนุษย์ ไบโอRxiv, 2022.
ลำดับที่สมบูรณ์ของเอกสารจีโนมมนุษย์และสหาย (T2T-CHM13v0.9-v1.1):
- Nurk S, Koren S, Rhie A, Rautiainen M, และคณะ ลำดับที่สมบูรณ์ของจีโนมมนุษย์ วิทยาศาสตร์, 2022.
- โวลเจอร์ MR และคณะ การทำซ้ำแบบแบ่งส่วนและการแปรผันในจีโนมมนุษย์ที่สมบูรณ์ วิทยาศาสตร์, 2022.
- เกิร์ชแมน เอ และคณะ รูปแบบอีพีเจเนติกส์ในจีโนมมนุษย์ที่สมบูรณ์ วิทยาศาสตร์, 2022.
- Aganezov S, Yan SM, Soto DC, Kirsche M, Zarate S, และคณะ จีโนมอ้างอิงที่สมบูรณ์ช่วยปรับปรุงการวิเคราะห์ความแปรปรวนทางพันธุกรรมของมนุษย์ วิทยาศาสตร์, 2022.
- ฮอยต์ เอสเจ และคณะ จากเทโลเมียร์ไปจนถึงเทโลเมียร์: สถานะการถอดเสียงและอีพีเจเนติกส์ขององค์ประกอบการทำซ้ำของมนุษย์ วิทยาศาสตร์, 2022.
- อัลเทโมส เอ็น และคณะ ทำแผนที่จีโนมและอีพิเจเนติกของเซนโทรเมียร์ของมนุษย์ให้สมบูรณ์ วิทยาศาสตร์, 2022.
- วากเนอร์ เจ และคณะ เกณฑ์มาตรฐานความแปรปรวนที่คัดสรรมาเพื่อท้าทายยีนออโตโซมที่เกี่ยวข้องกับการแพทย์ แนท ไบโอเทคโนล, 2565.
- McCartney AM, Shafin K, พร้อม M และคณะ การไล่ตามความสมบูรณ์แบบ: กลยุทธ์การตรวจสอบความถูกต้องและการขัดเกลาสำหรับการประกอบจีโนมของเทโลเมียร์ถึงเทโลเมียร์ วิธีการของแนท, 2022.
- Formenti G, Rhie A และคณะ Merfin: ปรับปรุงการกรองตัวแปร การประเมินการประกอบ และการขัดเงาผ่านการตรวจสอบ k-mer วิธีการของแนท, 2022.
- เจน ซี และคณะ การแมปแบบอ่านยาวกับลำดับการอ้างอิงซ้ำโดยใช้ Winnowmap2 วิธีการของแนท, 2022.
- Altemose N, Maslan A, Smith OK และคณะ DiMeLo-seq: วิธีการโมเลกุลเดี่ยวที่อ่านมานานสำหรับการทำแผนที่ปฏิสัมพันธ์ระหว่างโปรตีน–ดีเอ็นเอของจีโนมในวงกว้าง วิธีการของแนท, 2022.
การอ้างอิงก่อนหน้านี้:
- โวลเจอร์ MR และคณะ ปรับปรุงการตรวจจับการประกอบและตัวแปรของจีโนมมนุษย์เดี่ยวโดยใช้การอ่านแบบโมเลกุลเดี่ยวที่มีความเที่ยงตรงสูง พงศาวดารพันธุศาสตร์มนุษย์, 2019.
- มิกา KH, โคเรน เอส และคณะ การประกอบเทโลเมียร์ถึงเทโลเมียร์ของโครโมโซม X ของมนุษย์ที่สมบูรณ์ ธรรมชาติ 2020.
- Nurk S, Walenz BP และคณะ HiCanu: การประกอบการทำซ้ำแบบแบ่งส่วน ดาวเทียม และตัวแปรอัลลีลที่แม่นยำจากการอ่านระยะยาวที่มีความเที่ยงตรงสูง การวิจัยจีโนม, 2020.
- ล็อกสดอน GA และคณะ โครงสร้าง การทำงาน และวิวัฒนาการของโครโมโซมของมนุษย์ที่สมบูรณ์ 8 ธรรมชาติ 2021
ประวัติศาสตร์
* rel1 and 2: 2nd March 2019. Initial release.
* asm v0.6 and canu rel2 assembly: 28th May 2019. Assembly update.
* Hi-C data added: 25th July 2019. Data update.
* asm v0.6 alignments of rel2 added: 30th Aug 2019. Data Update
* rel3: 16th Sept 2019. Data update.
* chrX v0.7, canu 1.9 and flye 2.5 rel3 assembly: 24th Oct 2019. Assembly update.
* shasta rel3 assembly: 20th Dec 2019. Assembly update.
* chr8 v3, rel4 data: 21 Feb 2020. Data and assembly update.
* update rel3 partition names since some tars included more than a single partition. 16 Apr 2020.
* add CLR/HiFi mappings to chrX v0.7. 8 May 2020.
* update partitions 23,28,30,53,55 and add 227-231 (data was missing from upload). 13 May 2020. Data update.
* add rel5 guppy 3.6.0 data: 4 Jun 2020. Data update.
* add chr8 v9. Aug 26 2020. Assembly update.
* add v0.9/v1.0 genome releases. Sept 22 2020. Assembly update.
* add v0.9/v1.0 alignment files. Sept 29 2020. Assembly update.
* add new UW data. Oct 6 2020. Data update.
* add rna-seq data. Dec 4 2020. Data update.
* add repeat and telomere annotations for v1.0. Dec 17 2020. Assembly annotation update.
* v1.1 assembly and related files. May 7 2021. Assembly update.
* v2.0 assembly and related files. Dec 2 2022. Assembly and annotation update.
* 1KGP variant calls for all chromosomes. Jan. 3 2023. Annotation update.
* 1KGP and SGDP bam / vcf released publicly on [AnVIL_T2T_CHRY](https://anvil.terra.bio/#workspaces/anvil-datastorage/AnVIL_T2T_CHRY). May 23, 2023. Data Update.
* 1KGP AF release. Jul 6 2023. Annotation update.
* Curated RefSeq/Liftoff v5.1 release. Jul 6 2023. Annotation update.
* Curated RefSeq/Liftoff v5.2 release. Aug 23 2024. Protein coding gene annotation update.
* Link page for custom RepeatMasker library with T2T repeats. Nov 19 2024.