Projeto CHM13 do consórcio telômero a telômero
Sequenciamos a linha celular humana CHM13hTERT com diversas tecnologias. O DNA genômico humano foi extraído da linha celular cultivada. Como o DNA é nativo, as bases modificadas serão preservadas. Os dados incluem 30x PacBio HiFi, 120x cobertura de Oxford Nanopore, 70x PacBio CLR, 50x 10X Genomics, bem como BioNano DLS e Arima Genomics HiC. A maioria dos dados brutos está disponível neste site, com exceção dos dados PacBio que foram gerados pela Universidade de Washington/PacBio e estão disponíveis no NCBI SRA.
Um hub de navegador UCSC está disponível para CHM13 e T2T-Primates. As atualizações de rastreamento serão feitas neste hub até serem integradas ao UCSC Genome Browser para hs1. Os navegadores UCSC legados estão disponíveis para as versões v2.0, v1.0 e v1.1.
Uma visualização interativa dotplot de todas as repetições genômicas também está disponível em resgen.io. Os problemas conhecidos identificados na montagem são rastreados em problemas do CHM13.
Versão mais recente da montagem
T2T-CHM13v2.0 (T2T-CHM13+Y)
Reconstrução T2T completa de um genoma humano com Y. As alterações da v1.1 são a adição de um cromossomo Y acabado da amostra GIAB HG002/NA24385, sequenciado tanto por GIAB quanto por HPRC. Este genoma também está disponível no NCBI (GCA_009914755.4) e na UCSC. Observe que mesmo que o navegador UCSC mostre os acessos do Genbank como nomes de sequência no próprio navegador, ele pode carregar anotações em BED/bigBed/BAM/CRAM/bigWig e outros formatos ou pesquisar usando os nomes "chr1/2/etc".
Versões de montagem anteriores estão disponíveis abaixo:
- T2T-CHM13: v0.7-v1.1
- T2T-HG002XY: v0.7-2.7
Transferências
Dados de sequenciamento
O conjunto de dados de sequenciamento gerado para CHM13 está disponível nesta página.
Conjunto de análise
O conjunto de análises para usar T2T-CHM13v2.0 (T2T-CHM13+Y) como referência para pesquisas baseadas em mapeamento está disponível em aws com um README.
- chm13v2.0.fa.gz: Montagem T2T-CHM13v2.0 com sequências mascaradas suavemente usando os modelos de repetição descobertos pela equipe T2T. Os números de acesso da sequência original são mostrados no cabeçalho FASTA.
- chm13v2.0_noY.fa.gz: excluindo o cromossomo Y. Este arquivo contém apenas sequências derivadas da linha celular CHM13 e é idêntica a T2T-CHM13v1.1. Use este arquivo para benchmarking de montagens do CHM13.
- chm13v2.0_PAR.bed: regiões pseudoautossômicas (PARs)
- chm13v2.0_maskedY.fa.gz: PARs em chrY mascarados para "N"
- chm13v2.0_maskedY.rCRS.fa.gz: PARs em chrY mascarados para "N" e mitocôndrias substituídas por rCRS (AC:NC_012920.1)
Atualização de 28 de setembro de 2022: todos os arquivos fa.gz do conjunto de análise foram recompactados com bgzip. Os arquivos de índice estão disponíveis em aws com md5s atualizados no README.
Anotação genética
- JHU RefSeqv110 + Liftoff v5.2: contém anotações selecionadas dos genes amplicônicos no cromossomo Y, corrigindo erros de anotação em GENCODEv35 CAT/Liftoff e anotação RefSeqv110. Cópias adicionais encontradas em T2T-Y foram anotadas para o gene disponível mais próximo no RefSeq, permitindo que vários genes tivessem o mesmo nome comum. Este arquivo foi modificado para corrigir problemas de caracteres especiais do arquivo original. Mais descrição está disponível aqui. O log de atualização da v5 para a v5.1 está disponível aqui.
- UCSC GENCODEv35 CAT/decolagem v2
- Anotação CAT/Liftoff v1 para VEP no índice Sorted GFF e TABIX
- Transcritos traduzidos por codificação de proteínas da anotação CAT/Liftoff v1. Observe que essas são transcrições, não genes, e só podem ser pesquisadas por ID de transcrição (IDs como LOFF_T e não LOFF_G).
- NCBI RefSeqv110 de FTP
- EBI GENCODEv38 r2 de projetos HPRC
Repetir anotação
- Citobandas
- Duplicações Segmentais, v2022-03-11 em formato simples e leito completo
- Cen/Sat v2.1: Uma anotação de repetição de centrômero/satélite mais abrangente. (Recolorido para ser consistente com as faixas Cen/Sat dos primatas)
- RepeatMasker v4.1.2p1.2022Apr14 na cama ou nativo. Aqui está um ótimo recurso para construir uma biblioteca RepeatMasker personalizada com novos modelos de repetição dos genomas T2T e um passo a passo para executar o RepeatMasker.
- Repetições Compostas, 2022DEZ
- Novos Satélites, 2022DEZ
- classe de sequência chrXY, v1
- Telômero
- Anotação específica Y
- Palíndromos e repetições invertidas, v1
- Amplicons v1
- AZFa, AZFb, AZFc e DYZ v1
Perfil epigenético
- ENCODE, recuperado em T2T-CHM13v2.0
- HG002 e CHM13 5mC CpG e outras metilação de ONT e HiFi
Chamadas variantes
- Projeto 1000 Genomas, recuperado em T2T-CHM13v2.0. Agora disponível para todos os cromossomos, para todas as 3.202 amostras ou para as 2.504 amostras não relacionadas. Conjuntos de referência, arquivos bam e vcf também estão disponíveis em AnVIL_T2T_CHRY.
- Projeto 1000 Genomas - Frequência Alelica por População, das amostras não relacionadas, excluindo ainda 14 indivíduos descobertos como parentes de primeiro e segundo grau (mais detalhes aqui).
- Projeto 1000 Genomas - Faseado com SHAPEIT5, usando as chamadas de variantes acima.
- Projeto de Diversidade do Genoma Simons, relembrado em T2T-CHM13v2.0. Conjuntos de referência, arquivos bam e vcf também estão disponíveis em AnVIL_T2T_CHRY.
- gnomAD v3.1.2 de FTP: Esta é uma versão elevada do GRCh38, anotada com consequências moleculares previstas e pontuações de deletéria de variantes específicas de transcrição de PolyPhen-2 e SIFT usando Ensembl Variant Effect Predictor.
- Máscara de acessibilidade de leitura curta, com as três máscaras usadas para fazer a máscara combinada estão disponíveis aqui. Ver descrição
- ClinVar 20220313, retirado do GRCh38. Ver descrição
- GWAS v1.0, retirado do GRCh38. Ver descrição
- dbSNP build 155, retirado do GRCh38. Ver descrição
- Variantes desaparecendo nas coordenadas GRCh38-Y, v0.005 ao usar T2T-Y como referência, mais detalhes estão aqui.
Recursos de elevação
- 1:1 Liftover GRCh38 <-> T2T-CHM13v2.0, veja a descrição
- GRCh38/hg38 -> T2T-CHM13v2.0: grch38-chm13v2.chain
- GRCh38/hg38 <- T2T-CHM13v2.0: chm13v2-grch38.chain
- Alinhamento grch38-chm13v2.paf
- 1:1 Elevação hg19 <-> T2T-CHM13v2.0
- GRCh37/hg19 -> T2T-CHM13v2.0: hg19-chm13v2.chain
- GRCh37/hg19 <- T2T-CHM13v2.0: chm13v2-hg19.chain
- Alinhamento hg19-chm13v2.paf
Região não sintênica
- Regiões não sintênicas (únicas) em comparação com GRCh38 e GRCh37 das cadeias acima
- GRCh38/hg38: chm13v2-unique_to_hg38.bed
- GRCh37/hg19: chm13v2-unique_to_hg19.bed
- Regiões não sintênicas de T2T-CHM13v1.0 e T2T-CHM13v1.1 mais hg38Y por Aganezov et al. Ciência, 2022
- T2T-CHM13v1.0: chm13.draft_v1.0_plus38Y.no_snyteny_1Mbp.bed
- T2T-CHM13v1.1: chm13_v1.1_plus38Y.no_snyteny_1Mbp.bed
Notas sobre download de arquivos
Os arquivos são generosamente hospedados pela Amazon Web Services em s3://human-pangenomics/T2T/CHM13 e por meio desta interface web.
Embora esteja disponível como links HTTP diretos, o desempenho do download é aprimorado com o uso da interface de linha de comando da Amazon Web Services. As referências devem ser alteradas para usar o esquema de endereçamento s3://
, ou seja, substituir https://s3-us-west-2.amazonaws.com/human-pangenomics/T2T/
por s3://human-pangenomics/T2T
para download . Por exemplo, para fazer download CHM13_prep5_S13_L002_I1_001.fastq.gz
para o diretório de trabalho atual, use o seguinte comando.
aws s3 --no-sign-request cp s3://human-pangenomics/T2T/CHM13/10x/CHM13_prep5_S13_L002_I1_001.fastq.gz .
ou para baixar o conjunto de dados completo, use o seguinte comando.
aws s3 --no-sign-request sync s3://human-pangenomics/T2T/CHM13/ .
O comando s3 também pode ser usado para obter informações sobre o conjunto de dados, por exemplo, relatando o tamanho de cada arquivo em formato legível por humanos.
aws s3 --no-sign-request ls --recursive --human-readable --summarize s3://human-pangenomics/T2T/CHM13/
ou para obter tamanhos específicos de tecnologia.
aws s3 --no-sign-request ls --recursive --human-readable --summarize s3://human-pangenomics/T2T/CHM13/nanopore/fast5
aws s3 --no-sign-request ls --recursive --human-readable --summarize s3://human-pangenomics/T2T/CHM13/nanopore/rel2
aws s3 --no-sign-request ls --recursive --human-readable --summarize s3://human-pangenomics/T2T/CHM13/assemblies
Alterar as configurações de max_concurrent_requests
etc. de acordo com este guia melhorará ainda mais o desempenho do download.
Contato
Levante questões neste repositório do Github relacionadas a este conjunto de dados.
Reutilização e licença de dados
Todos os dados são liberados para domínio público (CC0) e incentivamos sua reutilização. Agradeceríamos se você reconhecesse e citasse o Consórcio "Telomere-to-Telomere" (T2T) para a criação desses dados. Mais informações sobre nosso consórcio podem ser encontradas na página inicial do T2T e uma lista de citações relacionadas está disponível abaixo:
T2T-CHM13v2.0, conjuntos de dados lançados junto com a v2.0 e o cromossomo T2T-Y
- Rhie A, Nurk S, Cechova M, Hoyt SJ, Taylor DJ, et al. A sequência completa de um cromossomo Y humano. bioRxiv, 2022.
A sequência completa de um genoma humano e documentos complementares (T2T-CHM13v0.9-v1.1):
- Nurk S, Koren S, Rhie A, Rautiainen M, et al. A sequência completa de um genoma humano. Ciência, 2022.
- Vollger MR, et al. Duplicações segmentares e sua variação em um genoma humano completo. Ciência, 2022.
- Gershman A, et al. Padrões epigenéticos em um genoma humano completo. Ciência, 2022.
- Aganezov S, Yan SM, Soto DC, Kirsche M, Zarate S, et al. Um genoma de referência completo melhora a análise da variação genética humana. Ciência, 2022.
- Hoyt SJ, et al. De telômero a telômero: o estado transcricional e epigenético dos elementos repetidos humanos. Ciência, 2022.
- Altemose N, et al. Mapas genômicos e epigenéticos completos de centrômeros humanos. Ciência, 2022.
- Wagner J, et al. Benchmarks de variação selecionados para desafiar genes autossômicos clinicamente relevantes. Nat Biotecnologia, 2022.
- McCartney AM, Shafin K, Alonge M, et al. Perseguindo a perfeição: estratégias de validação e polimento para montagens de genoma telômero a telômero. Métodos Nat, 2022.
- Formenti G, Rhie A, et al. Merfin: filtragem de variantes aprimorada, avaliação de montagem e polimento via validação k-mer. Métodos Nat, 2022.
- Jain C, et al. Mapeamento de leitura longa para sequências de referência repetitivas usando Winnowmap2. Métodos Nat, 2022.
- Altemose N, Maslan A, Smith OK et al. DiMeLo-seq: um método de molécula única de leitura longa para mapear todo o genoma das interações proteína-DNA. Métodos Nat, 2022.
Citações anteriores:
- Vollger MR, et al. Montagem aprimorada e detecção de variantes de um genoma humano haplóide usando leituras longas de alta fidelidade e de molécula única. Anais de Genética Humana, 2019.
- Miga KH, Koren S, et al. Montagem telômero a telômero de um cromossomo X humano completo. Natureza, 2020.
- Nurk S, Walenz BP, et al. HiCanu: montagem precisa de duplicações segmentares, satélites e variantes alélicas a partir de leituras longas de alta fidelidade. Pesquisa do Genoma, 2020.
- Logsdon GA, et al. A estrutura, função e evolução de um cromossomo humano completo 8. Natureza, 2021.
História
* rel1 and 2: 2nd March 2019. Initial release.
* asm v0.6 and canu rel2 assembly: 28th May 2019. Assembly update.
* Hi-C data added: 25th July 2019. Data update.
* asm v0.6 alignments of rel2 added: 30th Aug 2019. Data Update
* rel3: 16th Sept 2019. Data update.
* chrX v0.7, canu 1.9 and flye 2.5 rel3 assembly: 24th Oct 2019. Assembly update.
* shasta rel3 assembly: 20th Dec 2019. Assembly update.
* chr8 v3, rel4 data: 21 Feb 2020. Data and assembly update.
* update rel3 partition names since some tars included more than a single partition. 16 Apr 2020.
* add CLR/HiFi mappings to chrX v0.7. 8 May 2020.
* update partitions 23,28,30,53,55 and add 227-231 (data was missing from upload). 13 May 2020. Data update.
* add rel5 guppy 3.6.0 data: 4 Jun 2020. Data update.
* add chr8 v9. Aug 26 2020. Assembly update.
* add v0.9/v1.0 genome releases. Sept 22 2020. Assembly update.
* add v0.9/v1.0 alignment files. Sept 29 2020. Assembly update.
* add new UW data. Oct 6 2020. Data update.
* add rna-seq data. Dec 4 2020. Data update.
* add repeat and telomere annotations for v1.0. Dec 17 2020. Assembly annotation update.
* v1.1 assembly and related files. May 7 2021. Assembly update.
* v2.0 assembly and related files. Dec 2 2022. Assembly and annotation update.
* 1KGP variant calls for all chromosomes. Jan. 3 2023. Annotation update.
* 1KGP and SGDP bam / vcf released publicly on [AnVIL_T2T_CHRY](https://anvil.terra.bio/#workspaces/anvil-datastorage/AnVIL_T2T_CHRY). May 23, 2023. Data Update.
* 1KGP AF release. Jul 6 2023. Annotation update.
* Curated RefSeq/Liftoff v5.1 release. Jul 6 2023. Annotation update.
* Curated RefSeq/Liftoff v5.2 release. Aug 23 2024. Protein coding gene annotation update.
* Link page for custom RepeatMasker library with T2T repeats. Nov 19 2024.