CHM13-Projekt des Telomer-zu-Telomer-Konsortiums
Wir haben die menschliche Zelllinie CHM13hTERT mit einer Reihe von Technologien sequenziert. Aus der kultivierten Zelllinie wurde menschliche genomische DNA extrahiert. Da die DNA nativ ist, bleiben modifizierte Basen erhalten. Die Daten umfassen 30x PacBio HiFi, 120x Abdeckung von Oxford Nanopore, 70x PacBio CLR, 50x 10X Genomics sowie BioNano DLS und Arima Genomics HiC. Die meisten Rohdaten sind auf dieser Website verfügbar, mit Ausnahme der PacBio-Daten, die von der University of Washington/PacBio generiert wurden und bei NCBI SRA erhältlich sind.
Für CHM13- und T2T-Primaten ist ein UCSC-Browser-Hub verfügbar. An diesem Hub werden Track-Updates vorgenommen, bis er in den UCSC-Genombrowser für hs1 integriert wird. Ältere UCSC-Browser sind für die Versionen v2.0, v1.0 und v1.1 verfügbar.
Eine interaktive Dotplot-Visualisierung aller genomischen Wiederholungen ist auch auf resgen.io verfügbar. Bekannte Probleme, die in der Baugruppe identifiziert wurden, werden unter CHM13-Probleme verfolgt.
Neueste Assembly-Version
T2T-CHM13v2.0 (T2T-CHM13+Y)
Vollständige T2T-Rekonstruktion eines menschlichen Genoms mit Y. Änderungen gegenüber Version 1.1 bestehen in der Hinzufügung eines fertigen Chromosoms Y aus der GIAB HG002/NA24385-Probe, das sowohl von GIAB als auch von HPRC sequenziert wurde. Dieses Genom ist auch bei NCBI (GCA_009914755.4) und bei UCSC verfügbar. Beachten Sie, dass der UCSC-Browser zwar die Genbank-Zugriffe als Sequenznamen im Browser selbst anzeigt, aber Anmerkungen in BED/bigBed/BAM/CRAM/bigWig und anderen Formaten laden oder mit den Namen „chr1/2/etc“ suchen kann.
Frühere Baugruppenversionen sind unten verfügbar:
- T2T-CHM13: v0.7-v1.1
- T2T-HG002XY: v0.7-2.7
Downloads
Sequenzierungsdaten
Der für CHM13 generierte Sequenzierungsdatensatz ist auf dieser Seite verfügbar.
Analyseset
Der Analysesatz für die Verwendung von T2T-CHM13v2.0 (T2T-CHM13+Y) als Referenz für kartierungsbasierte Forschung ist bei aws mit einer README-Datei verfügbar.
- chm13v2.0.fa.gz: T2T-CHM13v2.0-Assembly mit Sequenzen, die mithilfe der vom T2T-Team entdeckten Wiederholungsmodelle weich maskiert wurden. Die ursprünglichen Sequenzzugangsnummern werden im FASTA-Header angezeigt.
- chm13v2.0_noY.fa.gz: ohne Y-Chromosom. Diese Datei enthält nur von der CHM13-Zelllinie abgeleitete Sequenzen und ist identisch mit T2T-CHM13v1.1. Verwenden Sie diese Datei zum Benchmarking von CHM13-Baugruppen.
- chm13v2.0_PAR.bed: pseudoautosomale Regionen (PARs)
- chm13v2.0_maskedY.fa.gz: PARs auf chrY hart maskiert auf „N“
- chm13v2.0_maskedY.rCRS.fa.gz: PARs auf chrY hart maskiert auf „N“ und Mitochondrion durch rCRS ersetzt (AC:NC_012920.1)
Aktualisierung vom 28. September 2022: Alle fa.gz-Dateien des Analysesatzes wurden mit bgzip neu komprimiert. Indexdateien sind bei aws mit aktualisierten MD5s in der README-Datei verfügbar.
Genanmerkung
- JHU RefSeqv110 + Liftoff v5.2: Enthält kuratierte Annotationen der amplikonischen Gene auf dem Y-Chromosom und korrigiert Annotationsfehler in GENCODEv35 CAT/Liftoff und RefSeqv110-Annotation. Zusätzliche in T2T-Y gefundene Kopien wurden dem nächstgelegenen verfügbaren Gen in RefSeq annotiert, sodass mehrere Gene denselben gemeinsamen Namen haben konnten. Diese Datei wurde geändert, um Sonderzeichenprobleme aus der Originaldatei zu beheben. Weitere Beschreibungen finden Sie hier. Das Update-Protokoll von v5 auf v5.1 ist hier verfügbar.
- UCSC GENCODEv35 CAT/Liftoff v2
- CAT/Liftoff v1-Anmerkung für VEP im sortierten GFF- und TABIX-Index
- Proteinkodierende übersetzte Transkripte aus der CAT/Liftoff v1-Annotation. Beachten Sie, dass es sich dabei um Transkripte und nicht um Gene handelt und diese nur anhand der Transkript-ID durchsuchbar sind (IDs wie LOFF_T, nicht LOFF_G).
- NCBI RefSeqv110 von FTP
- EBI GENCODEv38 r2 von HPRC Projects
Anmerkung wiederholen
- Zytobänder
- Segmentale Duplikationen, v2022-03-11 im einfachen und vollständigen Bettformat
- Cen/Sat v2.1: Eine umfassendere Zentromer-/Satelliten-Wiederholungsannotation. (Neu eingefärbt, um mit den Cen/Sat-Spuren der Primaten übereinzustimmen)
- RepeatMasker v4.1.2p1.2022Apr14 im Bett oder zuhause. Hier finden Sie eine großartige Ressource zum Aufbau einer benutzerdefinierten RepeatMasker-Bibliothek mit neuen Wiederholungsmodellen aus den T2T-Genomen und eine Anleitung zum Ausführen von RepeatMasker.
- Zusammengesetzte Wiederholungen, 2022DEZ
- Neue Satelliten, 2022DEZ
- chrXY-Sequenzklasse, v1
- Telomer
- Y-spezifische Anmerkung
- Palindrome und umgekehrte Wiederholungen, v1
- Amplicons v1
- AZFa, AZFb, AZFc und DYZ v1
Epigenetisches Profil
- ENCODE, zurückgerufen auf T2T-CHM13v2.0
- HG002 und CHM13 5mC CpG und andere Methylierungen von ONT und HiFi
Variantenaufrufe
- 1000 Genomes Project, zurückgerufen am T2T-CHM13v2.0. Jetzt für alle Chromosomen verfügbar, für die gesamten 3.202 Proben oder die unabhängigen 2504 Proben. Referenzsätze, BAM- und VCF-Dateien sind auch auf AnVIL_T2T_CHRY verfügbar.
- 1000 Genomes Project – Allelhäufigkeit nach Population, der nicht verwandten Proben, unter Ausschluss von 14 Personen, die als Verwandte ersten und zweiten Grades entdeckt wurden (weitere Details hier).
- 1000-Genom-Projekt – schrittweise mit SHAPEIT5 unter Verwendung der oben genannten Variantenaufrufe.
- Simons Genome Diversity Project, zurückgerufen am T2T-CHM13v2.0. Referenzsätze, BAM- und VCF-Dateien sind auch auf AnVIL_T2T_CHRY verfügbar.
- gnomAD v3.1.2 von FTP: Dies ist eine überarbeitete Version von GRCh38, annotiert mit vorhergesagten molekularen Konsequenzen und transkriptspezifischen Schädlichkeitswerten für Varianten von PolyPhen-2 und SIFT unter Verwendung des Ensembl Variant Effect Predictor.
- Die Short-Read-Barrierefreiheitsmaske mit den drei Masken, die zur Erstellung der Combined_Mask verwendet werden, ist hier verfügbar. Siehe Artikelbeschreibung
- ClinVar 20220313, übernommen von GRCh38. Siehe Artikelbeschreibung
- GWAS v1.0, übernommen von GRCh38. Siehe Artikelbeschreibung
- dbSNP Build 155, übernommen von GRCh38. Siehe Artikelbeschreibung
- Varianten verschwinden in GRCh38-Y-Koordinaten, v0.005, wenn T2T-Y als Referenz verwendet wird. Weitere Details finden Sie hier.
Liftover-Ressourcen
- 1:1 Liftover GRCh38 <-> T2T-CHM13v2.0, siehe Beschreibung
- GRCh38/hg38 -> T2T-CHM13v2.0: grch38-chm13v2.chain
- GRCh38/hg38 <- T2T-CHM13v2.0: chm13v2-grch38.chain
- Ausrichtung grch38-chm13v2.paf
- 1:1 Liftover hg19 <-> T2T-CHM13v2.0
- GRCh37/hg19 -> T2T-CHM13v2.0: hg19-chm13v2.chain
- GRCh37/hg19 <- T2T-CHM13v2.0: chm13v2-hg19.chain
- Ausrichtung hg19-chm13v2.paf
Nicht-syntenische Region
- Nicht-syntene Regionen (einzigartig) im Vergleich zu GRCh38 und GRCh37 aus den obigen Ketten
- GRCh38/hg38: chm13v2-unique_to_hg38.bed
- GRCh37/hg19: chm13v2-unique_to_hg19.bed
- Nicht-syntenische Regionen aus T2T-CHM13v1.0 und T2T-CHM13v1.1 plus hg38Y von Aganezov et al. Wissenschaft, 2022
- T2T-CHM13v1.0: chm13.draft_v1.0_plus38Y.no_snyteny_1Mbp.bed
- T2T-CHM13v1.1: chm13_v1.1_plus38Y.no_snyteny_1Mbp.bed
Hinweise zum Herunterladen von Dateien
Dateien werden großzügigerweise von Amazon Web Services unter s3://human-pangenomics/T2T/CHM13 und über diese Webschnittstelle gehostet.
Obwohl sie als direkte HTTP-Links verfügbar sind, wird die Download-Leistung durch die Verwendung der Amazon Web Services-Befehlszeilenschnittstelle verbessert. Referenzen sollten geändert werden, um das Adressierungsschema s3://
zu verwenden, d. h. zum Herunterladen https://s3-us-west-2.amazonaws.com/human-pangenomics/T2T/
durch s3://human-pangenomics/T2T
zu ersetzen . Um beispielsweise CHM13_prep5_S13_L002_I1_001.fastq.gz
in das aktuelle Arbeitsverzeichnis herunterzuladen, verwenden Sie den folgenden Befehl.
aws s3 --no-sign-request cp s3://human-pangenomics/T2T/CHM13/10x/CHM13_prep5_S13_L002_I1_001.fastq.gz .
Oder um den vollständigen Datensatz herunterzuladen, verwenden Sie den folgenden Befehl.
aws s3 --no-sign-request sync s3://human-pangenomics/T2T/CHM13/ .
Der Befehl s3 kann auch verwendet werden, um Informationen zum Datensatz abzurufen, beispielsweise um die Größe jeder Datei in einem für Menschen lesbaren Format anzugeben.
aws s3 --no-sign-request ls --recursive --human-readable --summarize s3://human-pangenomics/T2T/CHM13/
oder um technologiespezifische Größen zu erhalten.
aws s3 --no-sign-request ls --recursive --human-readable --summarize s3://human-pangenomics/T2T/CHM13/nanopore/fast5
aws s3 --no-sign-request ls --recursive --human-readable --summarize s3://human-pangenomics/T2T/CHM13/nanopore/rel2
aws s3 --no-sign-request ls --recursive --human-readable --summarize s3://human-pangenomics/T2T/CHM13/assemblies
Durch die Änderung der max_concurrent_requests
usw.-Einstellungen gemäß dieser Anleitung wird die Download-Leistung weiter verbessert.
Kontakt
Bitte melden Sie in diesem Github-Repository Probleme zu diesem Datensatz.
Datenwiederverwendung und Lizenz
Alle Daten werden öffentlich zugänglich gemacht (CC0) und wir ermutigen zu ihrer Wiederverwendung. Wir würden uns freuen, wenn Sie dem „Telomere-to-Telomere“ (T2T)-Konsortium für die Erstellung dieser Daten danken und es zitieren würden. Weitere Informationen zu unserem Konsortium finden Sie auf der T2T-Homepage. Eine Liste verwandter Zitate finden Sie unten:
T2T-CHM13v2.0, Datensätze, die entlang des v2.0- und des T2T-Y-Chromosoms veröffentlicht wurden
- Rhie A, Nurk S, Cechova M, Hoyt SJ, Taylor DJ, et al. Die vollständige Sequenz eines menschlichen Y-Chromosoms. bioRxiv, 2022.
Die vollständige Sequenz eines menschlichen Genoms und Begleitpapiere (T2T-CHM13v0.9-v1.1):
- Nurk S., Koren S., Rhie A., Rautiainen M. et al. Die vollständige Sequenz eines menschlichen Genoms. Wissenschaft, 2022.
- Vollger MR, et al. Segmentale Duplikationen und ihre Variation in einem vollständigen menschlichen Genom. Wissenschaft, 2022.
- Gershman A, et al. Epigenetische Muster in einem vollständigen menschlichen Genom. Wissenschaft, 2022.
- Aganezov S., Yan SM, Soto DC, Kirsche M., Zarate S. et al. Ein vollständiges Referenzgenom verbessert die Analyse menschlicher genetischer Variationen. Wissenschaft, 2022.
- Hoyt SJ et al. Von Telomer zu Telomer: der transkriptionelle und epigenetische Zustand menschlicher Wiederholungselemente. Wissenschaft, 2022.
- Altemose N, et al. Vollständige genomische und epigenetische Karten menschlicher Zentromere. Wissenschaft, 2022.
- Wagner J, et al. Kuratierte Variations-Benchmarks für anspruchsvolle medizinisch relevante autosomale Gene. Nat Biotechnol, 2022.
- McCartney AM, Shafin K, Alonge M, et al. Auf der Suche nach Perfektion: Validierungs- und Polierstrategien für Telomer-zu-Telomer-Genomassemblierungen. Nat-Methoden, 2022.
- Formenti G, Rhie A, et al. Merfin: verbesserte Variantenfilterung, Baugruppenbewertung und Polieren durch K-Mer-Validierung. Nat-Methoden, 2022.
- Jain C, et al. Long-Read-Mapping auf sich wiederholende Referenzsequenzen mithilfe von Winnowmap2. Nat-Methoden, 2022.
- Altemose N, Maslan A, Smith OK et al. DiMeLo-seq: eine Langzeit-Einzelmolekülmethode zur genomweiten Kartierung von Protein-DNA-Wechselwirkungen. Nat-Methoden, 2022.
Frühere Zitate:
- Vollger MR, et al. Verbesserte Assemblierung und Variantenerkennung eines haploiden menschlichen Genoms mithilfe von Einzelmolekül-Longreads mit hoher Wiedergabetreue. Annalen der Humangenetik, 2019.
- Miga KH, Koren S, et al. Telomer-zu-Telomer-Anordnung eines vollständigen menschlichen X-Chromosoms. Natur, 2020.
- Nurk S., Walenz BP, et al. HiCanu: Präzise Zusammenstellung segmentaler Duplikationen, Satelliten und Allelvarianten aus High-Fidelity-Longreads. Genomforschung, 2020.
- Logsdon GA, et al. Die Struktur, Funktion und Entwicklung eines vollständigen menschlichen Chromosoms 8. Nature, 2021.
Geschichte
* rel1 and 2: 2nd March 2019. Initial release.
* asm v0.6 and canu rel2 assembly: 28th May 2019. Assembly update.
* Hi-C data added: 25th July 2019. Data update.
* asm v0.6 alignments of rel2 added: 30th Aug 2019. Data Update
* rel3: 16th Sept 2019. Data update.
* chrX v0.7, canu 1.9 and flye 2.5 rel3 assembly: 24th Oct 2019. Assembly update.
* shasta rel3 assembly: 20th Dec 2019. Assembly update.
* chr8 v3, rel4 data: 21 Feb 2020. Data and assembly update.
* update rel3 partition names since some tars included more than a single partition. 16 Apr 2020.
* add CLR/HiFi mappings to chrX v0.7. 8 May 2020.
* update partitions 23,28,30,53,55 and add 227-231 (data was missing from upload). 13 May 2020. Data update.
* add rel5 guppy 3.6.0 data: 4 Jun 2020. Data update.
* add chr8 v9. Aug 26 2020. Assembly update.
* add v0.9/v1.0 genome releases. Sept 22 2020. Assembly update.
* add v0.9/v1.0 alignment files. Sept 29 2020. Assembly update.
* add new UW data. Oct 6 2020. Data update.
* add rna-seq data. Dec 4 2020. Data update.
* add repeat and telomere annotations for v1.0. Dec 17 2020. Assembly annotation update.
* v1.1 assembly and related files. May 7 2021. Assembly update.
* v2.0 assembly and related files. Dec 2 2022. Assembly and annotation update.
* 1KGP variant calls for all chromosomes. Jan. 3 2023. Annotation update.
* 1KGP and SGDP bam / vcf released publicly on [AnVIL_T2T_CHRY](https://anvil.terra.bio/#workspaces/anvil-datastorage/AnVIL_T2T_CHRY). May 23, 2023. Data Update.
* 1KGP AF release. Jul 6 2023. Annotation update.
* Curated RefSeq/Liftoff v5.1 release. Jul 6 2023. Annotation update.
* Curated RefSeq/Liftoff v5.2 release. Aug 23 2024. Protein coding gene annotation update.
* Link page for custom RepeatMasker library with T2T repeats. Nov 19 2024.