我们利用多种技术对 CHM13hTERT 人类细胞系进行了测序。从培养的细胞系中提取人类基因组DNA。由于 DNA 是天然的,修饰过的碱基将被保留。数据包括 30x PacBio HiFi、120x Oxford Nanopore 覆盖范围、70x PacBio CLR、50x 10X Genomics,以及 BioNano DLS 和 Arima Genomics HiC。大多数原始数据均可从该网站获得,但 PacBio 数据除外,该数据由华盛顿大学/PacBio 生成并可从 NCBI SRA 获得。
UCSC 浏览器中心可用于 CHM13 和 T2T-Primates。在集成到 hs1 的 UCSC 基因组浏览器之前,将对此中心进行跟踪更新。旧版 UCSC 浏览器适用于 v2.0、v1.0 和 v1.1 版本。
resgen.io 还提供所有基因组重复的交互式点图可视化。程序集中发现的已知问题在 CHM13 问题中进行跟踪。
使用 Y 对人类基因组进行完整的 T2T 重建。v1.1 的变化是添加了来自 GIAB HG002/NA24385 样本的成品 Y 染色体,并由 GIAB 和 HPRC 测序。该基因组也可在 NCBI (GCA_009914755.4) 和 UCSC 获取。请注意,即使 UCSC 浏览器在浏览器本身上将 Genbank 种质显示为序列名称,它也可以加载 BED/bigBed/BAM/CRAM/bigWig 和其他格式的注释或使用“chr1/2/etc”名称进行搜索。
以前的组件版本如下:
为 CHM13 生成的测序数据集可在此页面上找到。
使用 T2T-CHM13v2.0 (T2T-CHM13+Y) 作为基于映射的研究参考的分析集可通过 aws 的自述文件获取。
2022 年 9 月 28 日更新:所有分析集 fa.gz 文件均已使用 bgzip 重新压缩。索引文件可在 aws 上获取,并在自述文件中更新 md5。
文件由 Amazon Web Services 在 s3:// human-pangenomics/T2T/CHM13 下并通过此 Web 界面慷慨托管。
尽管可以作为直接的 HTTP 链接使用,但使用 Amazon Web Services 命令行界面可以提高下载性能。应修改参考文献以使用s3://
寻址方案,即将https://s3-us-west-2.amazonaws.com/human-pangenomics/T2T/
-pangenomics/T2T/ 替换为s3://human-pangenomics/T2T
进行下载。例如,要将CHM13_prep5_S13_L002_I1_001.fastq.gz
下载到当前工作目录,请使用以下命令。
aws s3 --no-sign-request cp s3://human-pangenomics/T2T/CHM13/10x/CHM13_prep5_S13_L002_I1_001.fastq.gz .
或使用以下命令下载完整数据集。
aws s3 --no-sign-request sync s3://human-pangenomics/T2T/CHM13/ .
s3 命令还可用于获取有关数据集的信息,例如以人类可读的格式报告每个文件的大小。
aws s3 --no-sign-request ls --recursive --human-readable --summarize s3://human-pangenomics/T2T/CHM13/
或获得特定于技术的尺寸。
aws s3 --no-sign-request ls --recursive --human-readable --summarize s3://human-pangenomics/T2T/CHM13/nanopore/fast5
aws s3 --no-sign-request ls --recursive --human-readable --summarize s3://human-pangenomics/T2T/CHM13/nanopore/rel2
aws s3 --no-sign-request ls --recursive --human-readable --summarize s3://human-pangenomics/T2T/CHM13/assemblies
根据本指南修改max_concurrent_requests
等设置将进一步提高下载性能。
请在此 Github 存储库上提出有关此数据集的问题。
所有数据均发布到公共领域 (CC0),我们鼓励其重复使用。如果您认可并引用“端粒到端粒”(T2T) 联盟创建此数据,我们将不胜感激。有关我们联盟的更多信息,请访问 T2T 主页,相关引用列表如下:
* rel1 and 2: 2nd March 2019. Initial release.
* asm v0.6 and canu rel2 assembly: 28th May 2019. Assembly update.
* Hi-C data added: 25th July 2019. Data update.
* asm v0.6 alignments of rel2 added: 30th Aug 2019. Data Update
* rel3: 16th Sept 2019. Data update.
* chrX v0.7, canu 1.9 and flye 2.5 rel3 assembly: 24th Oct 2019. Assembly update.
* shasta rel3 assembly: 20th Dec 2019. Assembly update.
* chr8 v3, rel4 data: 21 Feb 2020. Data and assembly update.
* update rel3 partition names since some tars included more than a single partition. 16 Apr 2020.
* add CLR/HiFi mappings to chrX v0.7. 8 May 2020.
* update partitions 23,28,30,53,55 and add 227-231 (data was missing from upload). 13 May 2020. Data update.
* add rel5 guppy 3.6.0 data: 4 Jun 2020. Data update.
* add chr8 v9. Aug 26 2020. Assembly update.
* add v0.9/v1.0 genome releases. Sept 22 2020. Assembly update.
* add v0.9/v1.0 alignment files. Sept 29 2020. Assembly update.
* add new UW data. Oct 6 2020. Data update.
* add rna-seq data. Dec 4 2020. Data update.
* add repeat and telomere annotations for v1.0. Dec 17 2020. Assembly annotation update.
* v1.1 assembly and related files. May 7 2021. Assembly update.
* v2.0 assembly and related files. Dec 2 2022. Assembly and annotation update.
* 1KGP variant calls for all chromosomes. Jan. 3 2023. Annotation update.
* 1KGP and SGDP bam / vcf released publicly on [AnVIL_T2T_CHRY](https://anvil.terra.bio/#workspaces/anvil-datastorage/AnVIL_T2T_CHRY). May 23, 2023. Data Update.
* 1KGP AF release. Jul 6 2023. Annotation update.
* Curated RefSeq/Liftoff v5.1 release. Jul 6 2023. Annotation update.
* Curated RefSeq/Liftoff v5.2 release. Aug 23 2024. Protein coding gene annotation update.
* Link page for custom RepeatMasker library with T2T repeats. Nov 19 2024.