Proyecto CHM13 del consorcio telómero a telómero
Hemos secuenciado la línea celular humana CHM13hTERT con diversas tecnologías. El ADN genómico humano se extrajo de la línea celular cultivada. Como el ADN es nativo, se conservarán las bases modificadas. Los datos incluyen 30x PacBio HiFi, 120x cobertura de Oxford Nanopore, 70x PacBio CLR, 50x 10X Genomics, así como BioNano DLS y Arima Genomics HiC. La mayoría de los datos sin procesar están disponibles en este sitio, con la excepción de los datos de PacBio que fueron generados por la Universidad de Washington/PacBio y están disponibles en NCBI SRA.
Hay un centro de navegador UCSC disponible para CHM13 y T2T-Primates. Se realizarán actualizaciones de seguimiento en este centro hasta que se integre en UCSC Genome Browser para hs1. Los navegadores UCSC heredados están disponibles para las versiones v2.0, v1.0 y v1.1.
También está disponible en resgen.io una visualización interactiva de diagramas de puntos de todas las repeticiones genómicas. Los problemas conocidos identificados en la asamblea se rastrean en los problemas de CHM13.
Última versión de ensamblaje
T2T-CHM13v2.0 (T2T-CHM13+Y)
Reconstrucción T2T completa de un genoma humano con Y. Los cambios desde v1.1 son la adición de un cromosoma Y terminado de la muestra GIAB HG002/NA24385, secuenciado tanto por GIAB como por HPRC. Este genoma también está disponible en NCBI (GCA_009914755.4) y en UCSC. Tenga en cuenta que aunque el navegador UCSC muestra las accesiones de Genbank como nombres de secuencia en el navegador mismo, puede cargar anotaciones en BED/bigBed/BAM/CRAM/bigWig y otros formatos o buscar usando los nombres "chr1/2/etc".
Las versiones de ensamblaje anteriores están disponibles a continuación:
- T2T-CHM13: v0.7-v1.1
- T2T-HG002XY: v0.7-2.7
Descargas
Datos de secuenciación
El conjunto de datos de secuenciación generado para CHM13 está disponible en esta página.
Conjunto de análisis
El conjunto de análisis para usar T2T-CHM13v2.0 (T2T-CHM13+Y) como referencia para investigaciones basadas en mapas está disponible en aws con un archivo README.
- chm13v2.0.fa.gz: ensamblaje T2T-CHM13v2.0 con secuencias enmascaradas utilizando los modelos repetidos descubiertos por el equipo de T2T. Los números de acceso a la secuencia original se muestran en el encabezado FASTA.
- chm13v2.0_noY.fa.gz: excluyendo el cromosoma Y. Este archivo solo contiene secuencias derivadas de la línea celular CHM13 y es idéntico a T2T-CHM13v1.1. Utilice este archivo para realizar evaluaciones comparativas de ensamblajes de CHM13.
- chm13v2.0_PAR.bed: regiones pseudoautosómicas (PAR)
- chm13v2.0_maskedY.fa.gz: PAR en chrY enmascarados de forma estricta a "N"
- chm13v2.0_maskedY.rCRS.fa.gz: PAR en chrY enmascarados de forma estricta a "N" y mitocondria reemplazada con rCRS (AC:NC_012920.1)
Actualización del 28 de septiembre de 2022: todos los archivos fa.gz del conjunto de análisis se han recomprimido con bgzip. Los archivos de índice están disponibles en aws con md5 actualizados en el archivo README.
Anotación genética
- JHU RefSeqv110 + Liftoff v5.2: contiene anotaciones seleccionadas de los genes amplicónicos en el cromosoma Y, corrigiendo errores de anotación en GENCODEv35 CAT/Liftoff y RefSeqv110. Las copias adicionales encontradas en T2T-Y se anotaron en el gen disponible más cercano en RefSeq, lo que permitió que varios genes tuvieran el mismo nombre común. Este archivo se ha modificado para corregir problemas de caracteres especiales del archivo original. Más descripción está disponible aquí. El registro de actualización de v5 a v5.1 está disponible aquí.
- UCSC GENCODEv35 CAT/Despegue v2
- Anotación CAT/Liftoff v1 para VEP en el índice GFF ordenado y TABIX
- Transcripciones traducidas con codificación de proteínas de la anotación CAT/Liftoff v1. Tenga en cuenta que estas son transcripciones, no genes, y solo se pueden buscar por ID de transcripción (ID como LOFF_T, no LOFF_G).
- NCBI RefSeqv110 desde FTP
- EBI GENCODEv38 r2 de Proyectos HPRC
Repetir anotación
- Citobandas
- Duplicaciones segmentarias, v2022-03-11 en formato de cama simple y completa
- Cen/Sat v2.1: una anotación de repetición de centrómero/satélite más completa. (Recoloreado para ser consistente con las pistas Cen/Sat de primates)
- RepetirMasker v4.1.2p1.2022Apr14 en la cama o fuera de casa. Aquí hay un gran recurso para crear una biblioteca de RepeatMasker personalizada con nuevos modelos de repetición de los genomas T2T y un tutorial para ejecutar RepeatMasker.
- Repeticiones compuestas, 2022DIC
- Nuevos satélites, 2022DIC
- clase de secuencia chrXY, v1
- Telómero
- Anotación específica Y
- Palíndromos y repeticiones invertidas, v1
- Amplicones v1
- AZFa, AZFb, AZFc y DYZ v1
Perfil epigenético
- ENCODE, recuperado en T2T-CHM13v2.0
- HG002 y CHM13 5mC CpG y otras metilaciones de ONT y HiFi
Llamadas variantes
- Proyecto 1000 Genomas, recordado en T2T-CHM13v2.0. Ahora disponible para todos los cromosomas, para las 3202 muestras completas o las 2504 muestras no relacionadas. Los conjuntos de referencia, los archivos bam y vcf también están disponibles en AnVIL_T2T_CHRY.
- Proyecto 1000 Genomas: Frecuencia de alelos por población, de las muestras no relacionadas, excluyendo además a 14 individuos descubiertos como parientes de primer y segundo grado (más detalles aquí).
- Proyecto 1000 Genomas: en fase con SHAPEIT5, utilizando las variantes anteriores.
- Proyecto Simons de Diversidad del Genoma, recordado en T2T-CHM13v2.0. Los conjuntos de referencia, los archivos bam y vcf también están disponibles en AnVIL_T2T_CHRY.
- gnomAD v3.1.2 de FTP: esta es una versión mejorada de GRCh38, anotada con consecuencias moleculares previstas y puntuaciones deletéreas de variantes específicas de la transcripción de PolyPhen-2 y SIFT utilizando Ensembl Variant Effect Predictor.
- Máscara de accesibilidad de lectura corta, con las tres máscaras utilizadas para crear la máscara combinada están disponibles aquí. Ver descripción
- ClinVar 20220313, extraído de GRCh38. Ver descripción
- GWAS v1.0, tomado de GRCh38. Ver descripción
- dbSNP build 155, extraído de GRCh38. Ver descripción
- Variantes que desaparecen en las coordenadas GRCh38-Y, v0.005 al usar T2T-Y como referencia, más detalles aquí.
Recursos de elevación
- 1:1 Liftover GRCh38 <-> T2T-CHM13v2.0, ver descripción
- GRCh38/hg38 -> T2T-CHM13v2.0: grch38-chm13v2.chain
- GRCh38/hg38 <- T2T-CHM13v2.0: chm13v2-grch38.chain
- Alineación grch38-chm13v2.paf
- 1:1 Elevación hg19 <-> T2T-CHM13v2.0
- GRCh37/hg19 -> T2T-CHM13v2.0: hg19-chm13v2.cadena
- GRCh37/hg19 <- T2T-CHM13v2.0: chm13v2-hg19.cadena
- Alineación hg19-chm13v2.paf
Región no sintética
- Regiones no sintéticas (únicas) en comparación con GRCh38 y GRCh37 de las cadenas anteriores
- GRCh38/hg38: chm13v2-unique_to_hg38.bed
- GRCh37/hg19: chm13v2-unique_to_hg19.bed
- Regiones no sintéticas de T2T-CHM13v1.0 y T2T-CHM13v1.1 más hg38Y por Aganezov et al. Ciencia, 2022
- T2T-CHM13v1.0: chm13.draft_v1.0_plus38Y.no_snyteny_1Mbp.bed
- T2T-CHM13v1.1: chm13_v1.1_plus38Y.no_snyteny_1Mbp.bed
Notas sobre la descarga de archivos
Los archivos están generosamente alojados en Amazon Web Services en s3://human-pangenomics/T2T/CHM13 y a través de esta interfaz web.
Aunque está disponible como enlaces HTTP sencillos, el rendimiento de la descarga se mejora mediante el uso de la interfaz de línea de comandos de Amazon Web Services. Las referencias deben modificarse para utilizar el esquema de direccionamiento s3://
, es decir, reemplazar https://s3-us-west-2.amazonaws.com/human-pangenomics/T2T/
con s3://human-pangenomics/T2T
para descargar. . Por ejemplo, para descargar CHM13_prep5_S13_L002_I1_001.fastq.gz
al directorio de trabajo actual, utilice el siguiente comando.
aws s3 --no-sign-request cp s3://human-pangenomics/T2T/CHM13/10x/CHM13_prep5_S13_L002_I1_001.fastq.gz .
o para descargar el conjunto de datos completo, utilice el siguiente comando.
aws s3 --no-sign-request sync s3://human-pangenomics/T2T/CHM13/ .
El comando s3 también se puede utilizar para obtener información sobre el conjunto de datos, por ejemplo, informar el tamaño de cada archivo en formato legible por humanos.
aws s3 --no-sign-request ls --recursive --human-readable --summarize s3://human-pangenomics/T2T/CHM13/
o para obtener tamaños específicos de la tecnología.
aws s3 --no-sign-request ls --recursive --human-readable --summarize s3://human-pangenomics/T2T/CHM13/nanopore/fast5
aws s3 --no-sign-request ls --recursive --human-readable --summarize s3://human-pangenomics/T2T/CHM13/nanopore/rel2
aws s3 --no-sign-request ls --recursive --human-readable --summarize s3://human-pangenomics/T2T/CHM13/assemblies
Modificar la configuración de max_concurrent_requests
etc. según esta guía mejorará aún más el rendimiento de la descarga.
Contacto
Plantee problemas en este repositorio de Github relacionados con este conjunto de datos.
Reutilización de datos y licencia
Todos los datos se liberan al dominio público (CC0) y fomentamos su reutilización. Le agradeceríamos que reconociera y citara al Consorcio "Telomere-to-Telomere" (T2T) por la creación de estos datos. Puede encontrar más información sobre nuestro consorcio en la página de inicio de T2T y una lista de citas relacionadas está disponible a continuación:
T2T-CHM13v2.0, conjuntos de datos publicados a lo largo del cromosoma v2.0 y T2T-Y
- Rhie A, Nurk S, Cechova M, Hoyt SJ, Taylor DJ, et al. La secuencia completa de un cromosoma Y humano. bioRxiv, 2022.
La secuencia completa de un genoma humano y artículos complementarios (T2T-CHM13v0.9-v1.1):
- Nurk S, Koren S, Rhie A, Rautiainen M, et al. La secuencia completa de un genoma humano. Ciencia, 2022.
- Vollger MR, et al. Duplicaciones segmentarias y su variación en un genoma humano completo. Ciencia, 2022.
- Gershman A, et al. Patrones epigenéticos en un genoma humano completo. Ciencia, 2022.
- Aganezov S, Yan SM, Soto DC, Kirsche M, Zarate S, et al. Un genoma de referencia completo mejora el análisis de la variación genética humana. Ciencia, 2022.
- Hoyt SJ, et al. De telómero a telómero: el estado transcripcional y epigenético de los elementos repetidos humanos. Ciencia, 2022.
- Altemose N, et al. Mapas genómicos y epigenéticos completos de centrómeros humanos. Ciencia, 2022.
- Wagner J, et al. Puntos de referencia de variación seleccionados para desafiar genes autosómicos médicamente relevantes. Nat Biotecnología, 2022.
- McCartney AM, Shafin K, Alonge M, et al. Persiguiendo la perfección: estrategias de validación y pulido para ensamblajes del genoma de telómero a telómero. Métodos Nat, 2022.
- Formenti G, Rhie A, et al. Merfin: filtrado de variantes mejorado, evaluación de ensamblaje y pulido mediante validación k-mer. Métodos Nat, 2022.
- Jain C, et al. Mapeo de lectura larga a secuencias de referencia repetitivas usando Winnowmap2. Métodos Nat, 2022.
- Altemose N, Maslan A, Smith OK et al. DiMeLo-seq: un método de lectura larga y de una sola molécula para mapear las interacciones proteína-ADN en todo el genoma. Métodos Nat, 2022.
Citas anteriores:
- Vollger MR, et al. Ensamblaje mejorado y detección de variantes de un genoma humano haploide mediante lecturas largas de alta fidelidad de una sola molécula. Anales de genética humana, 2019.
- Miga KH, Koren S, et al. Ensamblaje telómero a telómero de un cromosoma X humano completo. Naturaleza, 2020.
- Nurk S, Walenz BP, et al. HiCanu: ensamblaje preciso de duplicaciones segmentarias, satélites y variantes alélicas a partir de lecturas largas de alta fidelidad. Investigación del genoma, 2020.
- Logsdon GA, et al. La estructura, función y evolución de un cromosoma 8 humano completo. Nature, 2021.
Historia
* rel1 and 2: 2nd March 2019. Initial release.
* asm v0.6 and canu rel2 assembly: 28th May 2019. Assembly update.
* Hi-C data added: 25th July 2019. Data update.
* asm v0.6 alignments of rel2 added: 30th Aug 2019. Data Update
* rel3: 16th Sept 2019. Data update.
* chrX v0.7, canu 1.9 and flye 2.5 rel3 assembly: 24th Oct 2019. Assembly update.
* shasta rel3 assembly: 20th Dec 2019. Assembly update.
* chr8 v3, rel4 data: 21 Feb 2020. Data and assembly update.
* update rel3 partition names since some tars included more than a single partition. 16 Apr 2020.
* add CLR/HiFi mappings to chrX v0.7. 8 May 2020.
* update partitions 23,28,30,53,55 and add 227-231 (data was missing from upload). 13 May 2020. Data update.
* add rel5 guppy 3.6.0 data: 4 Jun 2020. Data update.
* add chr8 v9. Aug 26 2020. Assembly update.
* add v0.9/v1.0 genome releases. Sept 22 2020. Assembly update.
* add v0.9/v1.0 alignment files. Sept 29 2020. Assembly update.
* add new UW data. Oct 6 2020. Data update.
* add rna-seq data. Dec 4 2020. Data update.
* add repeat and telomere annotations for v1.0. Dec 17 2020. Assembly annotation update.
* v1.1 assembly and related files. May 7 2021. Assembly update.
* v2.0 assembly and related files. Dec 2 2022. Assembly and annotation update.
* 1KGP variant calls for all chromosomes. Jan. 3 2023. Annotation update.
* 1KGP and SGDP bam / vcf released publicly on [AnVIL_T2T_CHRY](https://anvil.terra.bio/#workspaces/anvil-datastorage/AnVIL_T2T_CHRY). May 23, 2023. Data Update.
* 1KGP AF release. Jul 6 2023. Annotation update.
* Curated RefSeq/Liftoff v5.1 release. Jul 6 2023. Annotation update.
* Curated RefSeq/Liftoff v5.2 release. Aug 23 2024. Protein coding gene annotation update.
* Link page for custom RepeatMasker library with T2T repeats. Nov 19 2024.