Proyek CHM13 konsorsium Telomer-ke-telomer
Kami telah mengurutkan lini sel manusia CHM13hTERT dengan sejumlah teknologi. DNA genom manusia diekstraksi dari garis sel yang dikultur. Karena DNA adalah DNA asli, basa yang dimodifikasi akan dipertahankan. Data tersebut meliputi 30x PacBio HiFi, 120x cakupan Oxford Nanopore, 70x PacBio CLR, 50x 10X Genomics, serta BioNano DLS dan Arima Genomics HiC. Sebagian besar data mentah tersedia dari situs ini, kecuali data PacBio yang dihasilkan oleh Universitas Washington/PacBio dan tersedia dari NCBI SRA.
Hub browser UCSC tersedia untuk CHM13 dan T2T-Primata. Pembaruan jalur akan dilakukan pada hub ini hingga diintegrasikan ke dalam UCSC Genome Browser untuk hs1. Browser UCSC lama tersedia untuk versi v2.0, v1.0 dan v1.1.
Visualisasi dotplot interaktif dari semua pengulangan genom juga tersedia dari resgen.io. Masalah yang diketahui yang diidentifikasi dalam majelis dilacak pada masalah CHM13.
Rilis perakitan terbaru
T2T-CHM13v2.0 (T2T-CHM13+Y)
Rekonstruksi T2T lengkap genom manusia dengan Y. Perubahan dari v1.1 adalah penambahan kromosom Y yang sudah jadi dari sampel GIAB HG002/NA24385, yang diurutkan oleh GIAB dan HPRC. Genom ini juga tersedia di NCBI (GCA_009914755.4) dan di UCSC. Perhatikan bahwa meskipun browser UCSC menampilkan aksesi Genbank sebagai nama urutan pada browser itu sendiri, browser UCSC dapat memuat anotasi dalam BED/bigBed/BAM/CRAM/bigWig dan format lain atau mencari menggunakan nama "chr1/2/etc".
Rilis perakitan sebelumnya tersedia di bawah:
- T2T-CHM13: v0.7-v1.1
- T2T-HG002XY: v0.7-2.7
Unduhan
Mengurutkan data
Kumpulan data pengurutan yang dihasilkan untuk CHM13 tersedia di halaman ini.
Kumpulan analisis
Kumpulan analisis untuk menggunakan T2T-CHM13v2.0 (T2T-CHM13+Y) sebagai referensi untuk penelitian berbasis pemetaan tersedia di aws dengan README.
- chm13v2.0.fa.gz: Perakitan T2T-CHM13v2.0 dengan urutan soft-masked menggunakan model berulang yang ditemukan oleh tim T2T. Nomor aksesi urutan asli ditampilkan di header FASTA.
- chm13v2.0_noY.fa.gz: tidak termasuk kromosom Y. File ini hanya berisi urutan yang berasal dari baris sel CHM13 dan identik dengan T2T-CHM13v1.1. Gunakan file ini untuk membuat benchmark rakitan CHM13.
- chm13v2.0_PAR.bed: wilayah pseudoautosomal (PAR)
- chm13v2.0_maskedY.fa.gz: PAR pada chrY disamarkan dengan "N"
- chm13v2.0_maskedY.rCRS.fa.gz: PAR pada chrY ditutup dengan keras menjadi "N" dan mitokondria diganti dengan rCRS (AC:NC_012920.1)
Pembaruan 28 September 2022: semua file fa.gz kumpulan analisis telah dikompres ulang dengan bgzip. File indeks tersedia di aws dengan md5 yang diperbarui di README.
Anotasi gen
- JHU RefSeqv110 + Liftoff v5.2: Ini berisi anotasi kurasi dari gen amplikonik pada kromosom Y, mengoreksi kesalahan anotasi dalam anotasi GENCODEv35 CAT/Liftoff dan RefSeqv110. Salinan tambahan yang ditemukan di T2T-Y dianotasi ke gen terdekat yang tersedia di RefSeq, memungkinkan banyak gen memiliki nama umum yang sama. File ini telah dimodifikasi untuk memperbaiki masalah karakter khusus dari file aslinya. Penjelasan lebih lanjut tersedia di sini. Pembaruan log dari v5 ke v5.1 tersedia di sini.
- UCSC GENCODEv35 CAT/Liftoff v2
- Anotasi CAT/Liftoff v1 untuk VEP dalam indeks GFF dan TABIX yang Diurutkan
- Transkrip terjemahan kode protein dari anotasi CAT/Liftoff v1. Perhatikan, ini adalah transkrip bukan gen dan hanya dapat dicari berdasarkan ID transkrip (ID seperti LOFF_T bukan LOFF_G).
- NCBI RefSeqv110 dari FTP
- EBI GENCODEv38 r2 dari Proyek HPRC
Ulangi anotasi
- Sitoband
- Duplikasi Segmental, v2022-03-11 dalam format tempat tidur sederhana dan penuh
- Cen/Sat v2.1: Anotasi pengulangan sentromer/satelit yang lebih komprehensif. (Diwarnai ulang agar konsisten dengan jejak Cen/Sat primata)
- RepeatMasker v4.1.2p1.2022Apr14 di tempat tidur atau di luar asli. Berikut adalah sumber daya yang bagus untuk membangun perpustakaan RepeatMasker khusus dengan model pengulangan baru dari genom T2T dan panduan untuk menjalankan RepeatMasker.
- Pengulangan Komposit, 2022DEC
- Satelit Baru, 2022DEC
- kelas urutan chrXY, v1
- Telomer
- Anotasi spesifik Y
- Palindrom dan Pengulangan Terbalik, v1
- Amplikon v1
- AZFa, AZFb, AZFc dan DYZ v1
Profil epigenetik
- ENCODE, ditarik kembali pada T2T-CHM13v2.0
- HG002 dan CHM13 5mC CpG dan metilasi lainnya dari ONT dan HiFi
Panggilan varian
- Proyek 1000 Genom, ditarik kembali di T2T-CHM13v2.0. Kini tersedia untuk semua kromosom, untuk keseluruhan 3.202 sampel atau 2.504 sampel yang tidak terkait. Kumpulan referensi, file bam, dan vcf juga tersedia di AnVIL_T2T_CHRY.
- Proyek 1000 Genom - Frekuensi Alel berdasarkan Populasi, dari sampel yang tidak berkerabat, selanjutnya tidak termasuk 14 individu yang ditemukan sebagai kerabat tingkat pertama dan kedua (detail lebih lanjut di sini).
- Proyek 1000 Genom - Bertahap dengan SHAPEIT5, menggunakan panggilan varian di atas.
- Proyek Keanekaragaman Genom Simons, ditarik kembali pada T2T-CHM13v2.0. Kumpulan referensi, file bam, dan vcf juga tersedia di AnVIL_T2T_CHRY.
- gnomAD v3.1.2 dari FTP: Ini adalah versi lanjutan dari GRCh38, dianotasi dengan prediksi konsekuensi molekuler dan skor kerusakan varian spesifik transkrip dari PolyPhen-2 dan SIFT menggunakan Ensembl Variant Effect Predictor.
- Masker Aksesibilitas Baca Singkat, dengan tiga masker yang digunakan untuk membuat masker_gabungan tersedia di sini. Lihat deskripsi
- ClinVar 20220313, diambil dari GRCh38. Lihat deskripsi
- GWAS v1.0, diambil dari GRCh38. Lihat deskripsi
- dbSNP build 155, diambil dari GRCh38. Lihat deskripsi
- Varian menghilang pada koordinat GRCh38-Y, v0.005 jika menggunakan referensi T2T-Y, lebih detail ada di sini.
Sumber daya pengangkat
- 1:1 Liftover GRCh38 <-> T2T-CHM13v2.0, lihat deskripsi
- GRCh38/hg38 -> T2T-CHM13v2.0: grch38-chm13v2.chain
- GRCh38/hg38 <- T2T-CHM13v2.0: chm13v2-grch38.chain
- Penyelarasan grch38-chm13v2.paf
- Pengangkatan 1:1 hg19 <-> T2T-CHM13v2.0
- GRCh37/hg19 -> T2T-CHM13v2.0: hg19-chm13v2.chain
- GRCh37/hg19 <- T2T-CHM13v2.0: chm13v2-hg19.chain
- Penyelarasan hg19-chm13v2.paf
Wilayah non-sintenik
- Daerah non-sintenik (unik) dibandingkan dengan GRCh38 dan GRCh37 dari rantai di atas
- GRCh38/hg38: chm13v2-unique_to_hg38.bed
- GRCh37/hg19: chm13v2-unique_to_hg19.bed
- Wilayah non-sintenik dari T2T-CHM13v1.0 dan T2T-CHM13v1.1 plus hg38Y oleh Aganezov et al. Sains, 2022
- T2T-CHM13v1.0: chm13.draft_v1.0_plus38Y.no_snyteny_1Mbp.bed
- T2T-CHM13v1.1: chm13_v1.1_plus38Y.no_snyteny_1Mbp.bed
Catatan tentang mengunduh file
File dihosting dengan murah hati oleh Amazon Web Services di bawah s3://human-pangenomics/T2T/CHM13 dan melalui antarmuka web ini.
Meskipun tersedia sebagai tautan HTTP langsung, kinerja pengunduhan ditingkatkan dengan menggunakan antarmuka baris perintah Amazon Web Services. Referensi harus diubah untuk menggunakan skema pengalamatan s3://
, yaitu ganti https://s3-us-west-2.amazonaws.com/human-pangenomics/T2T/
dengan s3://human-pangenomics/T2T
untuk mengunduh . Misalnya, untuk mengunduh CHM13_prep5_S13_L002_I1_001.fastq.gz
ke direktori kerja saat ini gunakan perintah berikut.
aws s3 --no-sign-request cp s3://human-pangenomics/T2T/CHM13/10x/CHM13_prep5_S13_L002_I1_001.fastq.gz .
atau untuk mendownload dataset lengkap gunakan perintah berikut.
aws s3 --no-sign-request sync s3://human-pangenomics/T2T/CHM13/ .
Perintah s3 juga dapat digunakan untuk mendapatkan informasi pada dataset, misalnya melaporkan ukuran setiap file dalam format yang dapat dibaca manusia.
aws s3 --no-sign-request ls --recursive --human-readable --summarize s3://human-pangenomics/T2T/CHM13/
atau untuk mendapatkan ukuran khusus teknologi.
aws s3 --no-sign-request ls --recursive --human-readable --summarize s3://human-pangenomics/T2T/CHM13/nanopore/fast5
aws s3 --no-sign-request ls --recursive --human-readable --summarize s3://human-pangenomics/T2T/CHM13/nanopore/rel2
aws s3 --no-sign-request ls --recursive --human-readable --summarize s3://human-pangenomics/T2T/CHM13/assemblies
Mengubah pengaturan max_concurrent_requests
dll. sesuai panduan ini akan lebih meningkatkan kinerja pengunduhan.
Kontak
Silakan ajukan masalah di repositori Github mengenai kumpulan data ini.
Penggunaan kembali data dan lisensi
Semua data dilepaskan ke domain publik (CC0) dan kami mendorong penggunaannya kembali. Kami akan sangat menghargai jika Anda mengakui dan mengutip Konsorsium "Telomere-to-Telomere" (T2T) atas pembuatan data ini. Informasi lebih lanjut tentang konsorsium kami dapat ditemukan di beranda T2T dan daftar kutipan terkait tersedia di bawah:
T2T-CHM13v2.0, kumpulan data dirilis sepanjang v2.0 dan kromosom T2T-Y
- Rhie A, Nurk S, Cechova M, Hoyt SJ, Taylor DJ, dkk. Urutan lengkap kromosom Y manusia. bioRxiv, 2022.
Urutan lengkap genom manusia dan makalah pendamping (T2T-CHM13v0.9-v1.1):
- Nurk S, Koren S, Rhie A, Rautiainen M, dkk. Urutan lengkap genom manusia. Sains, 2022.
- Vollger MR, dkk. Duplikasi segmental dan variasinya dalam genom manusia yang lengkap. Sains, 2022.
- Gershman A, dkk. Pola Epigenetik dalam Genom Manusia Lengkap. Sains, 2022.
- Aganezov S, Yan SM, Soto DC, Kirsche M, Zarate S, dkk. Genom referensi yang lengkap meningkatkan analisis variasi genetik manusia. Sains, 2022.
- Hoyt SJ, dkk. Dari telomer ke telomer: keadaan transkripsional dan epigenetik dari elemen berulang manusia. Sains, 2022.
- Altemose N, dkk. Peta genomik dan epigenetik lengkap dari sentromer manusia. Sains, 2022.
- Wagner J, dkk. Tolok ukur variasi yang dikurasi untuk menantang gen autosomal yang relevan secara medis. Nat Bioteknologi, 2022.
- McCartney AM, Shafin K, Seiringe M, dkk. Mengejar kesempurnaan: strategi validasi dan pemolesan untuk kumpulan genom telomer ke telomer. Metode Nat, 2022.
- Formenti G, Rhie A, dkk. Merfin: pemfilteran varian yang ditingkatkan, evaluasi perakitan, dan pemolesan melalui validasi k-mer. Metode Nat, 2022.
- Jain C, dkk. Pemetaan yang sudah lama dibaca ke urutan referensi berulang menggunakan Winnowmap2. Metode Nat, 2022.
- Altemose N, Maslan A, Smith OK dkk. DiMeLo-seq: metode molekul tunggal yang telah lama dibaca untuk memetakan interaksi protein-DNA secara luas. Metode Nat, 2022.
Kutipan sebelumnya:
- Vollger MR, dkk. Peningkatan perakitan dan deteksi varian genom manusia haploid menggunakan pembacaan panjang molekul tunggal dengan ketelitian tinggi. Sejarah Genetika Manusia, 2019.
- Miga KH, Koren S, dkk. Perakitan telomer-ke-telomer dari kromosom X manusia yang lengkap. Alam, 2020.
- Nurk S, Walenz BP, dkk. HiCanu: perakitan akurat duplikasi segmental, satelit, dan varian alelik dari pembacaan panjang dengan ketelitian tinggi. Penelitian Genom, 2020.
- Logsdon GA, dkk. Struktur, Fungsi, dan Evolusi Kromosom Manusia Lengkap 8. Alam, 2021.
Sejarah
* rel1 and 2: 2nd March 2019. Initial release.
* asm v0.6 and canu rel2 assembly: 28th May 2019. Assembly update.
* Hi-C data added: 25th July 2019. Data update.
* asm v0.6 alignments of rel2 added: 30th Aug 2019. Data Update
* rel3: 16th Sept 2019. Data update.
* chrX v0.7, canu 1.9 and flye 2.5 rel3 assembly: 24th Oct 2019. Assembly update.
* shasta rel3 assembly: 20th Dec 2019. Assembly update.
* chr8 v3, rel4 data: 21 Feb 2020. Data and assembly update.
* update rel3 partition names since some tars included more than a single partition. 16 Apr 2020.
* add CLR/HiFi mappings to chrX v0.7. 8 May 2020.
* update partitions 23,28,30,53,55 and add 227-231 (data was missing from upload). 13 May 2020. Data update.
* add rel5 guppy 3.6.0 data: 4 Jun 2020. Data update.
* add chr8 v9. Aug 26 2020. Assembly update.
* add v0.9/v1.0 genome releases. Sept 22 2020. Assembly update.
* add v0.9/v1.0 alignment files. Sept 29 2020. Assembly update.
* add new UW data. Oct 6 2020. Data update.
* add rna-seq data. Dec 4 2020. Data update.
* add repeat and telomere annotations for v1.0. Dec 17 2020. Assembly annotation update.
* v1.1 assembly and related files. May 7 2021. Assembly update.
* v2.0 assembly and related files. Dec 2 2022. Assembly and annotation update.
* 1KGP variant calls for all chromosomes. Jan. 3 2023. Annotation update.
* 1KGP and SGDP bam / vcf released publicly on [AnVIL_T2T_CHRY](https://anvil.terra.bio/#workspaces/anvil-datastorage/AnVIL_T2T_CHRY). May 23, 2023. Data Update.
* 1KGP AF release. Jul 6 2023. Annotation update.
* Curated RefSeq/Liftoff v5.1 release. Jul 6 2023. Annotation update.
* Curated RefSeq/Liftoff v5.2 release. Aug 23 2024. Protein coding gene annotation update.
* Link page for custom RepeatMasker library with T2T repeats. Nov 19 2024.