Projet CHM13 du consortium télomère à télomère
Nous avons séquencé la lignée cellulaire humaine CHM13hTERT avec un certain nombre de technologies. L'ADN génomique humain a été extrait de la lignée cellulaire cultivée. L’ADN étant natif, les bases modifiées seront préservées. Les données comprennent 30x PacBio HiFi, 120x couverture d'Oxford Nanopore, 70x PacBio CLR, 50x 10X Genomics, ainsi que BioNano DLS et Arima Genomics HiC. La plupart des données brutes sont disponibles sur ce site, à l'exception des données PacBio qui ont été générées par l'Université de Washington/PacBio et sont disponibles auprès du NCBI SRA.
Un hub de navigateur UCSC est disponible pour CHM13 et T2T-Primates. Des mises à jour de suivi seront apportées à ce hub jusqu'à son intégration dans le navigateur génomique UCSC pour hs1. Les anciens navigateurs UCSC sont disponibles pour les versions v2.0, v1.0 et v1.1.
Une visualisation interactive par points de toutes les répétitions génomiques est également disponible sur resgen.io. Les problèmes connus identifiés lors de l'assemblage sont suivis dans les numéros CHM13.
Dernière version de l'assembly
T2T-CHM13v2.0 (T2T-CHM13+Y)
Reconstruction T2T complète d'un génome humain avec Y. Les modifications par rapport à la v1.1 sont l'ajout d'un chromosome Y fini de l'échantillon GIAB HG002/NA24385, séquencé à la fois par GIAB et HPRC. Ce génome est également disponible chez NCBI (GCA_009914755.4) et chez UCSC. Notez que même si le navigateur UCSC affiche les accessions Genbank sous forme de noms de séquence sur le navigateur lui-même, il peut charger des annotations dans BED/bigBed/BAM/CRAM/bigWig et d'autres formats ou effectuer une recherche en utilisant les noms "chr1/2/etc".
Les versions précédentes de l'assembly sont disponibles ci-dessous :
- T2T-CHM13 : v0.7-v1.1
- T2T-HG002XY : v0.7-2.7
Téléchargements
Données de séquençage
L'ensemble de données de séquençage généré pour CHM13 est disponible sur cette page.
Ensemble d'analyse
L'ensemble d'analyses permettant d'utiliser T2T-CHM13v2.0 (T2T-CHM13+Y) comme référence pour la recherche basée sur la cartographie est disponible sur AWS avec un fichier README.
- chm13v2.0.fa.gz : assemblage T2T-CHM13v2.0 avec des séquences masquées en utilisant les modèles de répétition découverts par l'équipe T2T. Les numéros d'accès de séquence d'origine sont indiqués dans l'en-tête FASTA.
- chm13v2.0_noY.fa.gz : à l'exclusion du chromosome Y. Ce fichier contient uniquement des séquences dérivées de la lignée cellulaire CHM13 et est identique à T2T-CHM13v1.1. Utilisez ce fichier pour comparer les assemblages de CHM13.
- chm13v2.0_PAR.bed : régions pseudoautosomiques (PAR)
- chm13v2.0_maskedY.fa.gz : PARs sur chrY masqués en dur en "N"
- chm13v2.0_maskedY.rCRS.fa.gz : PARs sur chrY masqués en dur en "N" et mitochondries remplacées par rCRS (AC:NC_012920.1)
Mise à jour du 28 septembre 2022 : tous les fichiers fa.gz de l'ensemble d'analyse ont été recompressés avec bgzip. Les fichiers d'index sont disponibles sur AWS avec les md5 mis à jour dans le README.
Annotation des gènes
- JHU RefSeqv110 + Liftoff v5.2 : contient des annotations organisées des gènes ampliconiques sur le chromosome Y, corrigeant les erreurs d'annotation dans GENCODEv35 CAT/Liftoff et l'annotation RefSeqv110. Des copies supplémentaires trouvées dans T2T-Y ont été annotées par rapport au gène disponible le plus proche dans RefSeq, permettant à plusieurs gènes d'avoir le même nom commun. Ce fichier a été modifié pour corriger les problèmes de caractères spéciaux du fichier d'origine. Plus de description est disponible ici. Le journal de mise à jour de la v5 à la v5.1 est disponible ici.
- UCSC GENCODEv35 CAT/Liftoff v2
- Annotation CAT/Liftoff v1 pour VEP dans l'index GFF trié et TABIX
- Codage protéique traduit des transcriptions de l'annotation CAT/Liftoff v1. Notez qu'il s'agit de transcriptions et non de gènes et qu'elles peuvent être recherchées uniquement par ID de transcription (ID comme LOFF_T et non LOFF_G).
- NCBI RefSeqv110 à partir de FTP
- EBI GENCODEv38 r2 des projets HPRC
Répéter l'annotation
- Cytobandes
- Duplications segmentaires, v2022-03-11 en format lit simple et complet
- Cen/Sat v2.1 : une annotation de répétition centromère/satellite plus complète. (Recoloré pour être cohérent avec les traces Cen/Sat des primates)
- RepeatMasker v4.1.2p1.2022Apr14 au lit ou en sortie native. Voici une excellente ressource pour créer une bibliothèque RepeatMasker personnalisée avec de nouveaux modèles de répétition des génomes T2T et une procédure pas à pas pour exécuter RepeatMasker.
- Répétitions composites, décembre 2022
- Nouveaux satellites, décembre 2022
- classe de séquence chrXY, v1
- Télomère
- Y annotation spécifique
- Palindromes et répétitions inversées, v1
- Amplicons v1
- AZFa, AZFb, AZFc et DYZ v1
Profil épigénétique
- ENCODE, rappelé sur T2T-CHM13v2.0
- HG002 et CHM13 5mC CpG et autres méthylations d'ONT et HiFi
Appels de variantes
- Projet 1000 Genomes, rappelé sur T2T-CHM13v2.0. Désormais disponible pour tous les chromosomes, pour la totalité des 3 202 échantillons ou pour les 2 504 échantillons non apparentés. Les ensembles de références, les fichiers bam et vcf sont également disponibles sur AnVIL_T2T_CHRY.
- Projet 1000 Genomes - Fréquence des allèles par population, des échantillons non apparentés, excluant en outre 14 individus découverts comme parents au premier et au deuxième degré (plus de détails ici).
- Projet 1000 Genomes - En phase avec SHAPEIT5, en utilisant les appels de variantes ci-dessus.
- Simons Genome Diversity Project, rappelé sur T2T-CHM13v2.0. Les ensembles de références, les fichiers bam et vcf sont également disponibles sur AnVIL_T2T_CHRY.
- gnomAD v3.1.2 à partir de FTP : il s'agit d'une version améliorée de GRCh38, annotée avec les conséquences moléculaires prévues et les scores de délétère des variantes spécifiques à la transcription de PolyPhen-2 et SIFT à l'aide du prédicteur d'effet de variante Ensembl.
- Le masque d'accessibilité à lecture courte, avec les trois masques utilisés pour créer le masque_combiné, est disponible ici. Voir descriptif
- ClinVar 20220313, récupéré de GRCh38. Voir descriptif
- GWAS v1.0, repris de GRCh38. Voir descriptif
- dbSNP build 155, repris de GRCh38. Voir descriptif
- Variantes disparaissant dans les coordonnées GRCh38-Y, v0.005 en utilisant T2T-Y comme référence, plus de détails sont ici.
Ressources de relèvement
- 1:1 Liftover GRCh38 <-> T2T-CHM13v2.0, voir description
- GRCh38/hg38 -> T2T-CHM13v2.0 : grch38-chm13v2.chain
- GRCh38/hg38 <- T2T-CHM13v2.0 : chm13v2-grch38.chain
- Alignement grch38-chm13v2.paf
- 1:1 Relèvement hg19 <-> T2T-CHM13v2.0
- GRCh37/hg19 -> T2T-CHM13v2.0 : hg19-chm13v2.chain
- GRCh37/hg19 <- T2T-CHM13v2.0 : chm13v2-hg19.chain
- Alignement hg19-chm13v2.paf
Région non synténique
- Régions non synténiques (uniques) comparées à GRCh38 et GRCh37 des chaînes ci-dessus
- GRCh38/hg38 : chm13v2-unique_to_hg38.bed
- GRCh37/hg19 : chm13v2-unique_to_hg19.bed
- Régions non synténiques de T2T-CHM13v1.0 et T2T-CHM13v1.1 plus hg38Y par Aganezov et al. Sciences, 2022
- T2T-CHM13v1.0 : chm13.draft_v1.0_plus38Y.no_snyteny_1Mbp.bed
- T2T-CHM13v1.1 : chm13_v1.1_plus38Y.no_snyteny_1Mbp.bed
Remarques sur le téléchargement de fichiers
Les fichiers sont généreusement hébergés par Amazon Web Services sous s3://human-pangenomics/T2T/CHM13 et via cette interface Web.
Bien que disponibles sous forme de liens HTTP simples, les performances de téléchargement sont améliorées grâce à l'utilisation de l'interface de ligne de commande Amazon Web Services. Les références doivent être modifiées pour utiliser le schéma d'adressage s3://
, c'est-à-dire remplacer https://s3-us-west-2.amazonaws.com/human-pangenomics/T2T/
par s3://human-pangenomics/T2T
pour télécharger . Par exemple, pour télécharger CHM13_prep5_S13_L002_I1_001.fastq.gz
dans le répertoire de travail actuel, utilisez la commande suivante.
aws s3 --no-sign-request cp s3://human-pangenomics/T2T/CHM13/10x/CHM13_prep5_S13_L002_I1_001.fastq.gz .
ou pour télécharger l'ensemble de données complet, utilisez la commande suivante.
aws s3 --no-sign-request sync s3://human-pangenomics/T2T/CHM13/ .
La commande s3 peut également être utilisée pour obtenir des informations sur l'ensemble de données, par exemple en signalant la taille de chaque fichier dans un format lisible par l'homme.
aws s3 --no-sign-request ls --recursive --human-readable --summarize s3://human-pangenomics/T2T/CHM13/
ou pour obtenir des dimensions spécifiques à la technologie.
aws s3 --no-sign-request ls --recursive --human-readable --summarize s3://human-pangenomics/T2T/CHM13/nanopore/fast5
aws s3 --no-sign-request ls --recursive --human-readable --summarize s3://human-pangenomics/T2T/CHM13/nanopore/rel2
aws s3 --no-sign-request ls --recursive --human-readable --summarize s3://human-pangenomics/T2T/CHM13/assemblies
La modification des paramètres max_concurrent_requests
etc. conformément à ce guide améliorera encore les performances de téléchargement.
Contact
Veuillez soulever des problèmes sur ce référentiel Github concernant cet ensemble de données.
Réutilisation des données et licence
Toutes les données sont rendues publiques (CC0) et nous encourageons leur réutilisation. Nous vous serions reconnaissants de bien vouloir reconnaître et citer le consortium « Telomere-to-Telomere » (T2T) pour la création de ces données. De plus amples informations sur notre consortium sont disponibles sur la page d'accueil de T2T et une liste de citations associées est disponible ci-dessous :
T2T-CHM13v2.0, ensembles de données publiés le long du chromosome v2.0 et T2T-Y
- Rhie A, Nurk S, Cechova M, Hoyt SJ, Taylor DJ et al. La séquence complète d'un chromosome Y humain. bioRxiv, 2022.
La séquence complète d'un génome humain et les articles associés (T2T-CHM13v0.9-v1.1) :
- Nurk S, Koren S, Rhie A, Rautiainen M et al. La séquence complète d'un génome humain. Sciences, 2022.
- Vollger MR, et al. Duplications segmentaires et leur variation dans un génome humain complet. Sciences, 2022.
- Gershman A, et al. Modèles épigénétiques dans un génome humain complet. Sciences, 2022.
- Aganezov S, Yan SM, Soto DC, Kirsche M, Zarate S et al. Un génome de référence complet améliore l’analyse de la variation génétique humaine. Sciences, 2022.
- Hoyt SJ, et coll. De télomère en télomère : l’état transcriptionnel et épigénétique des éléments répétés humains. Sciences, 2022.
- Altemose N, et al. Cartes génomiques et épigénétiques complètes des centromères humains. Sciences, 2022.
- Wagner J, et coll. Des références de variation organisées pour contester les gènes autosomiques médicalement pertinents. Nat Biotechnologie, 2022.
- McCartney AM, Shafin K, Alonge M et al. À la recherche de la perfection : stratégies de validation et de perfectionnement pour les assemblages génomiques de télomère à télomère. Méthodes Nat, 2022.
- Formenti G, Rhie A et al. Merfin : filtrage des variantes amélioré, évaluation et polissage des assemblages via la validation k-mer. Méthodes Nat, 2022.
- Jain C, et al. Mappage à lecture longue vers des séquences de référence répétitives à l'aide de Winnowmap2. Méthodes Nat, 2022.
- Altemose N, Maslan A, Smith OK et al. DiMeLo-seq : une méthode à lecture longue et à molécule unique pour cartographier les interactions protéine-ADN à l'échelle du génome. Méthodes Nat, 2022.
Citations antérieures :
- Vollger MR, et al. Amélioration de l'assemblage et de la détection de variantes d'un génome humain haploïde à l'aide de lectures longues de molécule unique et haute fidélité. Annales de génétique humaine, 2019.
- Miga KH, Koren S et al. Assemblage télomère à télomère d'un chromosome X humain complet. Nature, 2020.
- Nurk S, Walenz BP et al. HiCanu : assemblage précis de duplications segmentaires, de satellites et de variantes alléliques à partir de lectures longues haute fidélité. Recherche sur le génome, 2020.
- Logsdon GA, et coll. La structure, la fonction et l'évolution d'un chromosome humain complet 8. Nature, 2021.
Histoire
* rel1 and 2: 2nd March 2019. Initial release.
* asm v0.6 and canu rel2 assembly: 28th May 2019. Assembly update.
* Hi-C data added: 25th July 2019. Data update.
* asm v0.6 alignments of rel2 added: 30th Aug 2019. Data Update
* rel3: 16th Sept 2019. Data update.
* chrX v0.7, canu 1.9 and flye 2.5 rel3 assembly: 24th Oct 2019. Assembly update.
* shasta rel3 assembly: 20th Dec 2019. Assembly update.
* chr8 v3, rel4 data: 21 Feb 2020. Data and assembly update.
* update rel3 partition names since some tars included more than a single partition. 16 Apr 2020.
* add CLR/HiFi mappings to chrX v0.7. 8 May 2020.
* update partitions 23,28,30,53,55 and add 227-231 (data was missing from upload). 13 May 2020. Data update.
* add rel5 guppy 3.6.0 data: 4 Jun 2020. Data update.
* add chr8 v9. Aug 26 2020. Assembly update.
* add v0.9/v1.0 genome releases. Sept 22 2020. Assembly update.
* add v0.9/v1.0 alignment files. Sept 29 2020. Assembly update.
* add new UW data. Oct 6 2020. Data update.
* add rna-seq data. Dec 4 2020. Data update.
* add repeat and telomere annotations for v1.0. Dec 17 2020. Assembly annotation update.
* v1.1 assembly and related files. May 7 2021. Assembly update.
* v2.0 assembly and related files. Dec 2 2022. Assembly and annotation update.
* 1KGP variant calls for all chromosomes. Jan. 3 2023. Annotation update.
* 1KGP and SGDP bam / vcf released publicly on [AnVIL_T2T_CHRY](https://anvil.terra.bio/#workspaces/anvil-datastorage/AnVIL_T2T_CHRY). May 23, 2023. Data Update.
* 1KGP AF release. Jul 6 2023. Annotation update.
* Curated RefSeq/Liftoff v5.1 release. Jul 6 2023. Annotation update.
* Curated RefSeq/Liftoff v5.2 release. Aug 23 2024. Protein coding gene annotation update.
* Link page for custom RepeatMasker library with T2T repeats. Nov 19 2024.