私たちは、多くの技術を使用して CHM13hTERT ヒト細胞株の配列を決定しました。培養細胞株からヒトゲノム DNA を抽出しました。 DNA はネイティブであるため、修飾された塩基は保存されます。データには、30x PacBio HiFi、120x カバレッジの Oxford Nanopore、70x PacBio CLR、50x 10X Genomics、さらに BioNano DLS および Arima Genomics HiC が含まれます。ワシントン大学/PacBio によって生成され、NCBI SRA から入手できる PacBio データを除き、ほとんどの生データはこのサイトから入手できます。
UCSC ブラウザ ハブは、CHM13 および T2T 霊長類で利用できます。 hs1 の UCSC Genome Browser に統合されるまで、このハブに対して更新が行われます。レガシー UCSC ブラウザは、v2.0、v1.0、および v1.1 バージョンで使用できます。
すべてのゲノムリピートのインタラクティブなドットプロット視覚化も resgen.io から入手できます。アセンブリで特定された既知の問題は、CHM13 の問題で追跡されます。
Y を使用したヒトゲノムの完全な T2T 再構成。v1.1 からの変更点は、GIAB と HPRC の両方によって配列決定された GIAB HG002/NA24385 サンプルからの完成した染色体 Y の追加です。このゲノムは、NCBI (GCA_009914755.4) および UCSC でも入手できます。 UCSC ブラウザーはブラウザー自体に Genbank アクセッションを配列名として表示しますが、BED/bigBed/BAM/CRAM/bigWig およびその他の形式でアノテーションをロードしたり、「chr1/2/etc」名を使用して検索したりできることに注意してください。
以前のアセンブリ リリースは以下から入手できます。
CHM13 用に生成されたシーケンス データセットは、このページで入手できます。
マッピングベースの研究のリファレンスとして T2T-CHM13v2.0 (T2T-CHM13+Y) を使用するための分析セットは、README とともに aws で入手できます。
2022 年 9 月 28 日更新: すべての分析セットの fa.gz ファイルが bgzip で再圧縮されました。インデックス ファイルは、README の更新された md5 とともに aws で入手できます。
ファイルは、アマゾン ウェブ サービスによって s3://human-pangenomics/T2T/CHM13 の下で、およびこの Web インターフェイスを通じて寛大にホストされます。
直接の HTTP リンクとして利用できますが、アマゾン ウェブ サービスのコマンドライン インターフェイスを使用するとダウンロードのパフォーマンスが向上します。参照は、 s3://
アドレス指定スキームを使用するように修正する必要があります。つまり、ダウンロードするにはhttps://s3-us-west-2.amazonaws.com/human-pangenomics/T2T/
をs3://human-pangenomics/T2T
に置き換えます。 。たとえば、 CHM13_prep5_S13_L002_I1_001.fastq.gz
現在の作業ディレクトリにダウンロードするには、次のコマンドを使用します。
aws s3 --no-sign-request cp s3://human-pangenomics/T2T/CHM13/10x/CHM13_prep5_S13_L002_I1_001.fastq.gz .
または、完全なデータセットをダウンロードするには、次のコマンドを使用します。
aws s3 --no-sign-request sync s3://human-pangenomics/T2T/CHM13/ .
s3 コマンドを使用して、データセットに関する情報を取得することもできます。たとえば、人間が判読できる形式ですべてのファイルのサイズを報告します。
aws s3 --no-sign-request ls --recursive --human-readable --summarize s3://human-pangenomics/T2T/CHM13/
またはテクノロジー固有のサイズを取得します。
aws s3 --no-sign-request ls --recursive --human-readable --summarize s3://human-pangenomics/T2T/CHM13/nanopore/fast5
aws s3 --no-sign-request ls --recursive --human-readable --summarize s3://human-pangenomics/T2T/CHM13/nanopore/rel2
aws s3 --no-sign-request ls --recursive --human-readable --summarize s3://human-pangenomics/T2T/CHM13/assemblies
このガイドに従ってmax_concurrent_requests
などの設定を修正すると、ダウンロードのパフォーマンスがさらに向上します。
このデータセットに関する問題は、この Github リポジトリで提起してください。
すべてのデータはパブリック ドメイン (CC0) に公開されており、その再利用が推奨されています。このデータの作成に「Telomere-to-Telomere」(T2T)コンソーシアムを使用していることを認め、引用していただければ幸いです。私たちのコンソーシアムの詳細については、T2T ホームページでご覧いただけます。また、関連する引用のリストは以下でご覧いただけます。
* rel1 and 2: 2nd March 2019. Initial release.
* asm v0.6 and canu rel2 assembly: 28th May 2019. Assembly update.
* Hi-C data added: 25th July 2019. Data update.
* asm v0.6 alignments of rel2 added: 30th Aug 2019. Data Update
* rel3: 16th Sept 2019. Data update.
* chrX v0.7, canu 1.9 and flye 2.5 rel3 assembly: 24th Oct 2019. Assembly update.
* shasta rel3 assembly: 20th Dec 2019. Assembly update.
* chr8 v3, rel4 data: 21 Feb 2020. Data and assembly update.
* update rel3 partition names since some tars included more than a single partition. 16 Apr 2020.
* add CLR/HiFi mappings to chrX v0.7. 8 May 2020.
* update partitions 23,28,30,53,55 and add 227-231 (data was missing from upload). 13 May 2020. Data update.
* add rel5 guppy 3.6.0 data: 4 Jun 2020. Data update.
* add chr8 v9. Aug 26 2020. Assembly update.
* add v0.9/v1.0 genome releases. Sept 22 2020. Assembly update.
* add v0.9/v1.0 alignment files. Sept 29 2020. Assembly update.
* add new UW data. Oct 6 2020. Data update.
* add rna-seq data. Dec 4 2020. Data update.
* add repeat and telomere annotations for v1.0. Dec 17 2020. Assembly annotation update.
* v1.1 assembly and related files. May 7 2021. Assembly update.
* v2.0 assembly and related files. Dec 2 2022. Assembly and annotation update.
* 1KGP variant calls for all chromosomes. Jan. 3 2023. Annotation update.
* 1KGP and SGDP bam / vcf released publicly on [AnVIL_T2T_CHRY](https://anvil.terra.bio/#workspaces/anvil-datastorage/AnVIL_T2T_CHRY). May 23, 2023. Data Update.
* 1KGP AF release. Jul 6 2023. Annotation update.
* Curated RefSeq/Liftoff v5.1 release. Jul 6 2023. Annotation update.
* Curated RefSeq/Liftoff v5.2 release. Aug 23 2024. Protein coding gene annotation update.
* Link page for custom RepeatMasker library with T2T repeats. Nov 19 2024.