我們利用多種技術對 CHM13hTERT 人類細胞系進行了定序。從培養的細胞系中提取人類基因組DNA。由於 DNA 是天然的,修飾過的鹼基將被保留。數據包括 30x PacBio HiFi、120x Oxford Nanopore 覆蓋範圍、70x PacBio CLR、50x 10X Genomics,以及 BioNano DLS 和 Arima Genomics HiC。大多數原始數據均可從該網站獲得,但 PacBio 數據除外,該數據由華盛頓大學/PacBio 生成並可從 NCBI SRA 獲得。
UCSC 瀏覽器中心可用於 CHM13 和 T2T-Primates。在整合到 hs1 的 UCSC 基因組瀏覽器之前,將對此中心進行追蹤更新。舊版 UCSC 瀏覽器適用於 v2.0、v1.0 和 v1.1 版本。
resgen.io 也提供所有基因組重複的互動式點圖視覺化。程序集中發現的已知問題在 CHM13 問題中進行追蹤。
使用 Y 對人類基因組進行完整的 T2T 重建。此基因組也可在 NCBI (GCA_009914755.4) 和 UCSC 取得。請注意,即使UCSC 瀏覽器在瀏覽器本身上將Genbank 種質顯示為序列名稱,它也可以載入BED/bigBed/BAM/CRAM/bigWig 和其他格式的註解或使用「chr1/2/etc」名稱進行搜尋.
先前的元件版本如下:
為 CHM13 產生的定序資料集可在此頁面上找到。
使用 T2T-CHM13v2.0 (T2T-CHM13+Y) 作為基於映射的研究參考的分析集可透過 aws 的自述文件取得。
2022 年 9 月 28 日更新:所有分析集 fa.gz 檔案均已使用 bgzip 重新壓縮。索引文件可在 aws 上獲取,並在自述文件中更新 md5。
文件由 Amazon Web Services 在 s3:// human-pangenomics/T2T/CHM13 下並透過此 Web 介面慷慨託管。
儘管可以作為直接的 HTTP 連結使用,但使用 Amazon Web Services 命令列介面可以提高下載效能。參考文獻應修改以使用s3://
尋址方案,即將https://s3-us-west-2.amazonaws.com/human-pangenomics/T2T/
-pangenomics/T2T/ 替換為s3://human-pangenomics/T2T
進行下載。例如,要將CHM13_prep5_S13_L002_I1_001.fastq.gz
下載到目前工作目錄,請使用下列指令。
aws s3 --no-sign-request cp s3://human-pangenomics/T2T/CHM13/10x/CHM13_prep5_S13_L002_I1_001.fastq.gz .
或使用以下命令下載完整資料集。
aws s3 --no-sign-request sync s3://human-pangenomics/T2T/CHM13/ .
s3 命令也可用於獲取有關資料集的信息,例如以人類可讀的格式報告每個文件的大小。
aws s3 --no-sign-request ls --recursive --human-readable --summarize s3://human-pangenomics/T2T/CHM13/
或獲得特定於技術的尺寸。
aws s3 --no-sign-request ls --recursive --human-readable --summarize s3://human-pangenomics/T2T/CHM13/nanopore/fast5
aws s3 --no-sign-request ls --recursive --human-readable --summarize s3://human-pangenomics/T2T/CHM13/nanopore/rel2
aws s3 --no-sign-request ls --recursive --human-readable --summarize s3://human-pangenomics/T2T/CHM13/assemblies
根據本指南修改max_concurrent_requests
等設定將進一步提升下載效能。
請在此 Github 儲存庫上提出有關此資料集的問題。
所有數據均發佈到公共領域 (CC0),我們鼓勵其重複使用。如果您認可並引用「端粒到端粒」(T2T) 聯盟創建此數據,我們將不勝感激。有關我們聯盟的更多信息,請訪問 T2T 主頁,相關引用列表如下:
* rel1 and 2: 2nd March 2019. Initial release.
* asm v0.6 and canu rel2 assembly: 28th May 2019. Assembly update.
* Hi-C data added: 25th July 2019. Data update.
* asm v0.6 alignments of rel2 added: 30th Aug 2019. Data Update
* rel3: 16th Sept 2019. Data update.
* chrX v0.7, canu 1.9 and flye 2.5 rel3 assembly: 24th Oct 2019. Assembly update.
* shasta rel3 assembly: 20th Dec 2019. Assembly update.
* chr8 v3, rel4 data: 21 Feb 2020. Data and assembly update.
* update rel3 partition names since some tars included more than a single partition. 16 Apr 2020.
* add CLR/HiFi mappings to chrX v0.7. 8 May 2020.
* update partitions 23,28,30,53,55 and add 227-231 (data was missing from upload). 13 May 2020. Data update.
* add rel5 guppy 3.6.0 data: 4 Jun 2020. Data update.
* add chr8 v9. Aug 26 2020. Assembly update.
* add v0.9/v1.0 genome releases. Sept 22 2020. Assembly update.
* add v0.9/v1.0 alignment files. Sept 29 2020. Assembly update.
* add new UW data. Oct 6 2020. Data update.
* add rna-seq data. Dec 4 2020. Data update.
* add repeat and telomere annotations for v1.0. Dec 17 2020. Assembly annotation update.
* v1.1 assembly and related files. May 7 2021. Assembly update.
* v2.0 assembly and related files. Dec 2 2022. Assembly and annotation update.
* 1KGP variant calls for all chromosomes. Jan. 3 2023. Annotation update.
* 1KGP and SGDP bam / vcf released publicly on [AnVIL_T2T_CHRY](https://anvil.terra.bio/#workspaces/anvil-datastorage/AnVIL_T2T_CHRY). May 23, 2023. Data Update.
* 1KGP AF release. Jul 6 2023. Annotation update.
* Curated RefSeq/Liftoff v5.1 release. Jul 6 2023. Annotation update.
* Curated RefSeq/Liftoff v5.2 release. Aug 23 2024. Protein coding gene annotation update.
* Link page for custom RepeatMasker library with T2T repeats. Nov 19 2024.