مشروع اتحاد التيلومير إلى التيلومير CHM13
لقد قمنا بتسلسل خط الخلايا البشرية CHM13hTERT مع عدد من التقنيات. تم استخراج الحمض النووي الجينومي البشري من خط الخلايا المستنبتة. وبما أن الحمض النووي أصلي، فسيتم الحفاظ على القواعد المعدلة. تتضمن البيانات 30x PacBio HiFi، و120x تغطية لـ Oxford Nanopore، و70x PacBio CLR، و50x 10X Genomics، بالإضافة إلى BioNano DLS وArima Genomics HiC. تتوفر معظم البيانات الأولية من هذا الموقع، باستثناء بيانات PacBio التي تم إنشاؤها بواسطة جامعة واشنطن/PacBio وهي متاحة من NCBI SRA.
يتوفر مركز متصفح UCSC لـ CHM13 وT2T-Primates. سيتم إجراء تحديثات المسار على هذا المحور حتى يتم دمجه في متصفح UCSC Genome لـ hs1. تتوفر متصفحات UCSC القديمة للإصدارات v2.0 وv1.0 وv1.1.
يتوفر أيضًا تصور dotplot تفاعلي لجميع التكرارات الجينية من resgen.io. يتم تعقب المشكلات المعروفة التي تم تحديدها في التجميع في مشكلات CHM13.
أحدث إصدار للجمعية
T2T-CHM13v2.0 (T2T-CHM13+Y)
إعادة بناء T2T كاملة للجينوم البشري باستخدام Y. التغييرات من الإصدار 1.1 هي إضافة كروموسوم Y نهائي من عينة GIAB HG002/NA24385، متسلسل بواسطة كل من GIAB وHPRC. هذا الجينوم متاح أيضًا في NCBI (GCA_009914755.4) وفي UCSC. لاحظ أنه على الرغم من أن متصفح UCSC يعرض ملحقات Genbank كأسماء تسلسلية على المتصفح نفسه، فإنه يمكنه تحميل التعليقات التوضيحية بتنسيق BED/bigBed/BAM/CRAM/bigWig وتنسيقات أخرى أو البحث باستخدام أسماء "chr1/2/etc".
إصدارات التجميع السابقة متوفرة أدناه:
- T2T-CHM13: v0.7-v1.1
- T2T-HG002XY: الإصدار 0.7-2.7
التنزيلات
بيانات التسلسل
مجموعة البيانات التسلسلية التي تم إنشاؤها لـ CHM13 متاحة على هذه الصفحة.
مجموعة التحليل
تتوفر مجموعة التحليلات لاستخدام T2T-CHM13v2.0 (T2T-CHM13+Y) كمرجع للبحث القائم على رسم الخرائط على aws باستخدام ملف README.
- chm13v2.0.fa.gz: مجموعة T2T-CHM13v2.0 مع تسلسلات مقنعة باستخدام النماذج المتكررة التي اكتشفها فريق T2T. تظهر أرقام الوصول التسلسلية الأصلية في رأس FASTA.
- chm13v2.0_noY.fa.gz: باستثناء كروموسوم Y. يحتوي هذا الملف فقط على تسلسلات مشتقة من خط الخلية CHM13 وهو مطابق لـ T2T-CHM13v1.1. استخدم هذا الملف لقياس تجميعات CHM13.
- chm13v2.0_PAR.bed: المناطق الجسدية الزائفة (PARs)
- chm13v2.0_maskedY.fa.gz: PARs على chrY مقنعة بشدة إلى "N"
- chm13v2.0_maskedY.rCRS.fa.gz: PARs الموجودة على chrY مقنعة إلى "N" وتم استبدال الميتوكوندريا بـ rCRS (AC:NC_012920.1)
تحديث 28 سبتمبر 2022: تمت إعادة ضغط جميع ملفات fa.gz الخاصة بمجموعة التحليل باستخدام bgzip. تتوفر ملفات الفهرس على aws مع md5s المحدثة في ملف README.
شرح الجينات
- JHU RefSeqv110 + Liftoff v5.2: يحتوي هذا على تعليقات توضيحية منسقة للجينات الأمبليكونية الموجودة على كروموسوم Y، وتصحيح أخطاء التعليقات التوضيحية في التعليقات التوضيحية لـ GENCODEv35 CAT/Liftoff وRefSeqv110. تم إضافة تعليقات توضيحية للنسخ الإضافية الموجودة في T2T-Y إلى أقرب جين متاح في RefSeq، مما يسمح لجينات متعددة بأن يكون لها نفس الاسم الشائع. تم تعديل هذا الملف لتصحيح مشكلات الأحرف الخاصة من الملف الأصلي. مزيد من الوصف متاح هنا. سجل التحديث من الإصدار 5 إلى الإصدار 5.1 متاح هنا.
- UCSC GENCODEv35 CAT/الإقلاع v2
- تعليق توضيحي لـ CAT/Liftoff v1 لـ VEP في مؤشر GFF المصنف ومؤشر TABIX
- ترجمة ترميز البروتين من الشرح التوضيحي CAT/Liftoff v1. لاحظ أن هذه النصوص ليست جينات ولا يمكن البحث فيها إلا عن طريق معرف النص (معرفات مثل LOFF_T وليس LOFF_G).
- NCBI RefSeqv110 من FTP
- EBI GENCODEv38 r2 من مشاريع HPRC
كرر الشرح
- النطاقات الخلوية
- التكرارات القطاعية، v2022-03-11 بتنسيق سرير بسيط وكامل
- Cen/Sat v2.1: تعليق توضيحي أكثر شمولاً لتكرار السنترومير/القمر الصناعي. (أعيد تلوينها لتتوافق مع مسارات الرئيسيات Cen/Sat)
- RepeatMasker v4.1.2p1.2022Apr14 في السرير أو في الخارج. فيما يلي مورد رائع لإنشاء مكتبة RepeatMasker مخصصة تحتوي على نماذج متكررة جديدة من جينومات T2T وشرح تفصيلي لتشغيل RepeatMasker.
- التكرارات المركبة، 2022 ديسمبر
- الأقمار الصناعية الجديدة، 2022 ديسمبر
- فئة تسلسل chrXY، v1
- التيلومير
- Y تعليق توضيحي محدد
- المتناظرات والتكرارات المقلوبة، v1
- أمبليكونس v1
- AZFa وAZFb وAZFc وDYZ v1
الملف اللاجيني
- ENCODE، تم استدعاؤه في T2T-CHM13v2.0
- HG002 وCHM13 5mC CpG وميثيل آخر من ONT وHiFi
المكالمات المتغيرة
- مشروع 1000 جينوم، تم التذكير به في T2T-CHM13v2.0. متوفر الآن لجميع الكروموسومات، لكامل العينات البالغ عددها 3202 عينة أو 2504 عينة غير مرتبطة. تتوفر أيضًا مجموعات المراجع وملفات bam وvcf على AnVIL_T2T_CHRY.
- مشروع 1000 جينوم - تكرار الأليل حسب عدد السكان، للعينات غير ذات الصلة، باستثناء 14 فردًا تم اكتشافهم كأقارب من الدرجة الأولى والثانية (مزيد من التفاصيل هنا).
- مشروع 1000 جينوم - تم تنفيذه على مراحل باستخدام SHAPEIT5، باستخدام الاستدعاءات المتغيرة أعلاه.
- مشروع سيمونز لتنوع الجينوم، تم استدعاؤه في T2T-CHM13v2.0. تتوفر أيضًا مجموعات المراجع وملفات bam وvcf على AnVIL_T2T_CHRY.
- gnomAD v3.1.2 من FTP: هذه نسخة مرفوعة من GRCh38، مشروحة بالعواقب الجزيئية المتوقعة ودرجات الضرر المتغير الخاصة بالنص من PolyPhen-2 وSIFT باستخدام Ensembl Variant Effect Predictor.
- قناع إمكانية الوصول قصير القراءة، مع الأقنعة الثلاثة المستخدمة لصنع القناع المدمج متاح هنا. انظر الوصف
- ClinVar 20220313، مرفوع من GRCh38. انظر الوصف
- GWAS v1.0، مرفوع من GRCh38. انظر الوصف
- الإصدار 155 من dbSNP، تم رفعه من GRCh38. انظر الوصف
- تختفي المتغيرات في إحداثيات GRCh38-Y، الإصدار 0.005 عند استخدام T2T-Y كمرجع، مزيد من التفاصيل هنا.
موارد الرفع
- 1:1 رافعة GRCh38 <-> T2T-CHM13v2.0، انظر الوصف
- GRCh38/hg38 -> T2T-CHM13v2.0: grch38-chm13v2.chain
- GRCh38/hg38 <- T2T-CHM13v2.0: chm13v2-grch38.chain
- محاذاة grch38-chm13v2.paf
- 1:1 رافعة hg19 <-> T2T-CHM13v2.0
- GRCh37/hg19 -> T2T-CHM13v2.0: hg19-chm13v2.chain
- GRCh37/hg19 <- T2T-CHM13v2.0: chm13v2-hg19.chain
- محاذاة hg19-chm13v2.paf
منطقة غير متزامنة
- المناطق غير التخليقية (الفريدة) مقارنة بـ GRCh38 وGRCh37 من السلاسل المذكورة أعلاه
- GRCh38/hg38: chm13v2-unique_to_hg38.bed
- GRCh37/hg19: chm13v2-unique_to_hg19.bed
- المناطق غير التخليقية من T2T-CHM13v1.0 وT2T-CHM13v1.1 بالإضافة إلى hg38Y بواسطة Aganezov et al. العلوم، 2022
- T2T-CHM13v1.0: chm13.draft_v1.0_plus38Y.no_snyteny_1Mbp.bed
- T2T-CHM13v1.1: chm13_v1.1_plus38Y.no_snyteny_1Mbp.bed
ملاحظات حول تنزيل الملفات
تتم استضافة الملفات بسخاء بواسطة Amazon Web Services ضمن s3://human-pangenomics/T2T/CHM13 ومن خلال واجهة الويب هذه.
على الرغم من توفره كروابط HTTP مباشرة، إلا أنه يتم تحسين أداء التنزيل باستخدام واجهة سطر أوامر Amazon Web Services. ينبغي تعديل المراجع لاستخدام نظام العنونة s3://
، أي استبدال https://s3-us-west-2.amazonaws.com/human-pangenomics/T2T/
بـ s3://human-pangenomics/T2T
للتنزيل . على سبيل المثال، لتنزيل CHM13_prep5_S13_L002_I1_001.fastq.gz
إلى دليل العمل الحالي استخدم الأمر التالي.
aws s3 --no-sign-request cp s3://human-pangenomics/T2T/CHM13/10x/CHM13_prep5_S13_L002_I1_001.fastq.gz .
أو لتنزيل مجموعة البيانات الكاملة استخدم الأمر التالي.
aws s3 --no-sign-request sync s3://human-pangenomics/T2T/CHM13/ .
يمكن أيضًا استخدام الأمر s3 للحصول على معلومات حول مجموعة البيانات، على سبيل المثال، الإبلاغ عن حجم كل ملف بتنسيق يمكن قراءته بواسطة الإنسان.
aws s3 --no-sign-request ls --recursive --human-readable --summarize s3://human-pangenomics/T2T/CHM13/
أو للحصول على أحجام خاصة بالتكنولوجيا.
aws s3 --no-sign-request ls --recursive --human-readable --summarize s3://human-pangenomics/T2T/CHM13/nanopore/fast5
aws s3 --no-sign-request ls --recursive --human-readable --summarize s3://human-pangenomics/T2T/CHM13/nanopore/rel2
aws s3 --no-sign-request ls --recursive --human-readable --summarize s3://human-pangenomics/T2T/CHM13/assemblies
سيؤدي تعديل إعدادات max_concurrent_requests
وما إلى ذلك وفقًا لهذا الدليل إلى تحسين أداء التنزيل بشكل أكبر.
اتصال
يرجى إثارة المشكلات في مستودع Github هذا فيما يتعلق بمجموعة البيانات هذه.
إعادة استخدام البيانات والترخيص
يتم إصدار كافة البيانات إلى الملكية العامة (CC0) ونحن نشجع إعادة استخدامها. سنكون ممتنين لو تفضلتم بإقرار اتحاد "Telomere-to-Telomere" (T2T) والاستشهاد به لإنشاء هذه البيانات. يمكن العثور على مزيد من المعلومات حول اتحادنا على الصفحة الرئيسية لـ T2T وتتوفر قائمة الاستشهادات ذات الصلة أدناه:
T2T-CHM13v2.0، مجموعات البيانات الصادرة على طول v2.0 وكروموسوم T2T-Y
- ري أ، نورك إس، سيتشوفا إم، هويت إس جيه، تايلور دي جي، وآخرون. التسلسل الكامل لكروموسوم Y البشري. بيوركسيف، 2022.
التسلسل الكامل للجينوم البشري والأوراق المصاحبة (T2T-CHM13v0.9-v1.1):
- نورك إس، كورين إس، ري أ، راوتياينن إم، وآخرون. التسلسل الكامل للجينوم البشري. العلوم، 2022.
- فولجر مر، وآخرون. التكرارات القطاعية واختلافها في الجينوم البشري الكامل. العلوم، 2022.
- غيرشمان أ، وآخرون. الأنماط اللاجينية في الجينوم البشري الكامل. العلوم، 2022.
- أغانيزوف إس، يان إس إم، سوتو دي سي، كيرشي إم، زاراتي إس، وآخرون. يعمل الجينوم المرجعي الكامل على تحسين تحليل التنوع الوراثي البشري. العلوم، 2022.
- هويت SJ، وآخرون. من التيلومير إلى التيلومير: الحالة النسخية والجينية للعناصر المتكررة البشرية. العلوم، 2022.
- التيموس ن، وآخرون. خرائط جينومية وجينية كاملة للسينتروميرات البشرية. العلوم، 2022.
- فاغنر J، وآخرون. معايير التباين المنسقة لتحدي الجينات الجسدية ذات الصلة طبيا. نات بيوتكنول، 2022.
- مكارتني آم، شافين ك، ألونج إم، وآخرون. مطاردة الكمال: استراتيجيات التحقق والتلميع لتجمعات الجينوم من التيلومير إلى التيلومير. طرق نات، 2022.
- فورمينتي جي، ري أ، وآخرون. Merfin: تحسين تصفية المتغيرات وتقييم التجميع والتلميع من خلال التحقق من صحة k-mer. طرق نات، 2022.
- جاين سي، وآخرون. تعيين القراءة الطويلة للتسلسلات المرجعية المتكررة باستخدام Winnowmap2. طرق نات، 2022.
- ألتيموس ن، ماسلان أ، سميث أوك وآخرون. DiMeLo-seq: طريقة طويلة القراءة أحادية الجزيء لرسم خرائط تفاعلات البروتين والحمض النووي على نطاق الجينوم. طرق نات، 2022.
اقتباسات سابقة:
- فولجر مر، وآخرون. تحسين التجميع والكشف المتغير للجينوم البشري أحادي الصيغة الصبغية باستخدام قراءات طويلة عالية الدقة لجزيء واحد. حوليات علم الوراثة البشرية، 2019.
- ميجا خ، كورين إس، وآخرون. تجميع التيلومير إلى التيلومير لكروموسوم X البشري الكامل. الطبيعة، 2020.
- نورك إس، والينز بب، وآخرون. HiCanu: تجميع دقيق للتكرارات القطاعية والأقمار الصناعية والمتغيرات الأليلية من القراءات الطويلة عالية الدقة. أبحاث الجينوم، 2020.
- لوجسدون جا، وآخرون. بنية ووظيفة وتطور الكروموسوم البشري الكامل 8. الطبيعة، 2021.
تاريخ
* rel1 and 2: 2nd March 2019. Initial release.
* asm v0.6 and canu rel2 assembly: 28th May 2019. Assembly update.
* Hi-C data added: 25th July 2019. Data update.
* asm v0.6 alignments of rel2 added: 30th Aug 2019. Data Update
* rel3: 16th Sept 2019. Data update.
* chrX v0.7, canu 1.9 and flye 2.5 rel3 assembly: 24th Oct 2019. Assembly update.
* shasta rel3 assembly: 20th Dec 2019. Assembly update.
* chr8 v3, rel4 data: 21 Feb 2020. Data and assembly update.
* update rel3 partition names since some tars included more than a single partition. 16 Apr 2020.
* add CLR/HiFi mappings to chrX v0.7. 8 May 2020.
* update partitions 23,28,30,53,55 and add 227-231 (data was missing from upload). 13 May 2020. Data update.
* add rel5 guppy 3.6.0 data: 4 Jun 2020. Data update.
* add chr8 v9. Aug 26 2020. Assembly update.
* add v0.9/v1.0 genome releases. Sept 22 2020. Assembly update.
* add v0.9/v1.0 alignment files. Sept 29 2020. Assembly update.
* add new UW data. Oct 6 2020. Data update.
* add rna-seq data. Dec 4 2020. Data update.
* add repeat and telomere annotations for v1.0. Dec 17 2020. Assembly annotation update.
* v1.1 assembly and related files. May 7 2021. Assembly update.
* v2.0 assembly and related files. Dec 2 2022. Assembly and annotation update.
* 1KGP variant calls for all chromosomes. Jan. 3 2023. Annotation update.
* 1KGP and SGDP bam / vcf released publicly on [AnVIL_T2T_CHRY](https://anvil.terra.bio/#workspaces/anvil-datastorage/AnVIL_T2T_CHRY). May 23, 2023. Data Update.
* 1KGP AF release. Jul 6 2023. Annotation update.
* Curated RefSeq/Liftoff v5.1 release. Jul 6 2023. Annotation update.
* Curated RefSeq/Liftoff v5.2 release. Aug 23 2024. Protein coding gene annotation update.
* Link page for custom RepeatMasker library with T2T repeats. Nov 19 2024.