Проект CHM13 консорциума теломер-теломер
Мы секвенировали линию клеток человека CHM13hTERT с помощью ряда технологий. Геномную ДНК человека экстрагировали из культивируемой клеточной линии. Поскольку ДНК является нативной, модифицированные основания сохранятся. Данные включают 30-кратное покрытие PacBio HiFi, 120-кратное покрытие Oxford Nanopore, 70-кратное покрытие PacBio CLR, 50-кратное 10-кратное покрытие Genomics, а также BioNano DLS и Arima Genomics HiC. Большая часть необработанных данных доступна на этом сайте, за исключением данных PacBio, которые были созданы Вашингтонским университетом/PacBio и доступны в NCBI SRA.
Браузерный центр UCSC доступен для CHM13 и T2T-Primates. Обновления треков будут вноситься в этот хаб до тех пор, пока они не будут интегрированы в браузер генома UCSC для hs1. Устаревшие браузеры UCSC доступны в версиях v2.0, v1.0 и v1.1.
Интерактивная точечная визуализация всех геномных повторов также доступна на resgen.io. Известные проблемы, выявленные в сборке, отслеживаются в разделе «Проблемы CHM13».
Последняя версия сборки
T2T-CHM13v2.0 (T2T-CHM13+Y)
Полная T2T-реконструкция генома человека с Y. Изменения по сравнению с версией 1.1 заключаются в добавлении готовой хромосомы Y из образца GIAB HG002/NA24385, секвенированной как GIAB, так и HPRC. Этот геном также доступен в NCBI (GCA_009914755.4) и UCSC. Обратите внимание, что хотя браузер UCSC отображает образцы Genbank как имена последовательностей в самом браузере, он может загружать аннотации в BED/bigBed/BAM/CRAM/bigWig и других форматах или выполнять поиск, используя имена «chr1/2/etc».
Предыдущие выпуски сборки доступны ниже:
- T2T-CHM13: v0.7-v1.1
- T2T-HG002XY: v0.7-2.7
Загрузки
Данные секвенирования
Набор данных секвенирования, созданный для CHM13, доступен на этой странице.
Набор для анализа
Набор анализа для использования T2T-CHM13v2.0 (T2T-CHM13+Y) в качестве эталона для исследований, основанных на сопоставлении, доступен на aws с README.
- chm13v2.0.fa.gz: сборка T2T-CHM13v2.0 с последовательностями, мягко замаскированными с использованием моделей повторов, обнаруженных командой T2T. Исходные номера последовательности показаны в заголовке FASTA.
- chm13v2.0_noY.fa.gz: исключая Y-хромосому. Этот файл содержит только последовательности, полученные из клеточной линии CHM13, и идентичен T2T-CHM13v1.1. Используйте этот файл для тестирования сборок CHM13.
- chm13v2.0_PAR.bed: псевдоаутосомные регионы (PAR)
- chm13v2.0_maskedY.fa.gz: PAR на chrY жестко замаскирован до «N».
- chm13v2.0_maskedY.rCRS.fa.gz: PAR на chrY жестко замаскированы до «N», а митохондрии заменены на rCRS (AC:NC_012920.1)
Обновление от 28 сентября 2022 г.: все файлы fa.gz из набора анализа были повторно сжаты с помощью bgzip. Индексные файлы доступны на aws с обновленными md5 в README.
Генная аннотация
- JHU RefSeqv110 + Liftoff v5.2: содержит тщательно подобранные аннотации ампликоновых генов Y-хромосомы, исправляющие ошибки аннотаций в аннотациях GENCODEv35 CAT/Liftoff и RefSeqv110. Дополнительные копии, обнаруженные в T2T-Y, были аннотированы к ближайшему доступному гену в RefSeq, что позволило нескольким генам иметь одно и то же общее имя. Этот файл был изменен для исправления проблем со специальными символами в исходном файле. Подробное описание доступно здесь. Журнал обновлений с версии 5 до версии 5.1 доступен здесь.
- UCSC GENCODEv35 CAT/Liftoff v2
- Аннотация CAT/Liftoff v1 для VEP в индексе Sorted GFF и TABIX
- Транскрипты, кодирующие белок, из аннотации CAT/Liftoff v1. Обратите внимание: это транскрипты, а не гены, и их можно искать только по идентификатору транскрипта (идентификаторы типа LOFF_T, а не LOFF_G).
- NCBI RefSeqv110 с FTP
- EBI GENCODEv38 r2 из проектов HPRC
Повторить аннотацию
- Цитобанды
- Сегментарные дупликации, 11 марта 2022 г. в простом и полноценном формате.
- Cen/Sat v2.1: более полная аннотация центромерных/сателлитных повторов. (Цвет изменен, чтобы соответствовать трекам Cen/Sat приматов)
- RepeatMasker v4.1.2p1.2022Apr14 в постели или в исходном виде. Вот отличный ресурс для создания собственной библиотеки RepeatMasker с новыми моделями повторов из геномов T2T и пошаговым руководством по запуску RepeatMasker.
- Композитные повторы, декабрь 2022 г.
- Новые спутники, декабрь 2022 г.
- класс последовательности chrXY, v1
- Теломера
- Специальная аннотация Y
- Палиндромы и инвертированные повторы, v1
- Ампликоны v1
- AZFa, AZFb, AZFc и DYZ v1
Эпигенетический профиль
- ENCODE, отзывается на T2T-CHM13v2.0.
- HG002 и CHM13 5mC CpG и другое метилирование от ONT и HiFi
Варианты звонков
- Проект «1000 геномов», отзывается на T2T-CHM13v2.0. Теперь доступно для всех хромосом, для всех 3202 образцов или для несвязанных 2504 образцов. Наборы ссылок, файлы bam и vcf также доступны на AnVIL_T2T_CHRY.
- Проект «1000 геномов» — частота аллелей по популяциям из неродственных образцов, исключая 14 человек, обнаруженных как родственники первой и второй степени (подробнее здесь).
- Проект «1000 геномов» — поэтапный запуск SHAPEIT5 с использованием приведенных выше вызовов вариантов.
- Проект Саймонса по разнообразию геномов, отзыв о T2T-CHM13v2.0. Наборы ссылок, файлы bam и vcf также доступны на AnVIL_T2T_CHRY.
- gnomAD v3.1.2 с FTP: это улучшенная версия GRCh38, снабженная предсказанными молекулярными последствиями и оценками вредоносности специфичных для транскриптов вариантов из PolyPhen-2 и SIFT с использованием Ensembl Variant Effect Predictor.
- Маска доступности Short-Read с тремя масками, используемыми для создания комбинированной_маски, доступна здесь. См. описание
- ClinVar 20220313, перенесен из ГРЧ38. См. описание
- GWAS v1.0, перенесен из ГРЧ38. См. описание
- dbSNP build 155, заимствован из ГРЧ38. См. описание
- Варианты, исчезающие в координатах GRCh38-Y, v0.005 при использовании T2T-Y в качестве эталона, подробнее здесь.
Ресурсы для подъема
- 1:1 Лифтовер ГРЧ38<->Т2Т-ЧМ13v2.0, см. описание
- GRCh38/hg38 -> T2T-CHM13v2.0: grch38-chm13v2.chain
- GRCh38/hg38 <- T2T-CHM13v2.0: chm13v2-grch38.chain
- Выравнивание grch38-chm13v2.paf
- 1:1 Лифтовер hg19 <-> T2T-CHM13v2.0
- GRCh37/hg19 -> T2T-CHM13v2.0: hg19-chm13v2.chain
- GRCh37/hg19 <- T2T-CHM13v2.0: chm13v2-hg19.chain
- Выравнивание hg19-chm13v2.paf
Несинтенный регион
- Несинтенные (уникальные) участки по сравнению с GRCh38 и GRCh37 из вышеуказанных цепей.
- GRCh38/hg38: chm13v2-unique_to_hg38.bed
- GRCh37/hg19: chm13v2-unique_to_hg19.bed
- Несинтенные регионы из T2T-CHM13v1.0 и T2T-CHM13v1.1 плюс hg38Y по Aganezov et al. Наука, 2022
- T2T-CHM13v1.0: chm13.draft_v1.0_plus38Y.no_snyteny_1Mbp.bed
- T2T-CHM13v1.1: chm13_v1.1_plus38Y.no_snyteny_1Mbp.bed
Примечания по загрузке файлов
Файлы размещаются на веб-службах Amazon по адресу s3://human-pangenomics/T2T/CHM13 и через этот веб-интерфейс.
Хотя они доступны в виде прямых HTTP-ссылок, производительность загрузки повышается за счет использования интерфейса командной строки Amazon Web Services. В ссылки следует внести изменения, чтобы использовать схему адресации s3://
, т.е. заменить https://s3-us-west-2.amazonaws.com/human-pangenomics/T2T/
на s3://human-pangenomics/T2T
для загрузки. . Например, чтобы загрузить CHM13_prep5_S13_L002_I1_001.fastq.gz
в текущий рабочий каталог, используйте следующую команду.
aws s3 --no-sign-request cp s3://human-pangenomics/T2T/CHM13/10x/CHM13_prep5_S13_L002_I1_001.fastq.gz .
или чтобы загрузить полный набор данных, используйте следующую команду.
aws s3 --no-sign-request sync s3://human-pangenomics/T2T/CHM13/ .
Команду s3 также можно использовать для получения информации о наборе данных, например, о размере каждого файла в удобочитаемом формате.
aws s3 --no-sign-request ls --recursive --human-readable --summarize s3://human-pangenomics/T2T/CHM13/
или для получения технологических размеров.
aws s3 --no-sign-request ls --recursive --human-readable --summarize s3://human-pangenomics/T2T/CHM13/nanopore/fast5
aws s3 --no-sign-request ls --recursive --human-readable --summarize s3://human-pangenomics/T2T/CHM13/nanopore/rel2
aws s3 --no-sign-request ls --recursive --human-readable --summarize s3://human-pangenomics/T2T/CHM13/assemblies
Изменение настроек max_concurrent_requests
и т. д. согласно этому руководству еще больше улучшит производительность загрузки.
Контакт
Пожалуйста, поднимите вопросы в этом репозитории Github, касающиеся этого набора данных.
Повторное использование данных и лицензия
Все данные передаются в общественное достояние (CC0), и мы поощряем их повторное использование. Мы были бы признательны, если бы вы признали и упомянули Консорциум «Теломер-теломеры» (T2T) за создание этих данных. Более подробную информацию о нашем консорциуме можно найти на домашней странице T2T, а список соответствующих цитат доступен ниже:
T2T-CHM13v2.0, наборы данных выпущены по версии v2.0 и хромосоме T2T-Y.
- Ри А., Нурк С., Чехова М., Хойт С.Дж., Тейлор DJ и др. Полная последовательность Y-хромосомы человека. биоРxiv, 2022.
Полная последовательность генома человека и сопутствующие документы (T2T-CHM13v0.9-v1.1):
- Нурк С., Корен С., Ри А., Раутиайнен М. и др. Полная последовательность генома человека. Наука, 2022.
- Фоллгер М.Р. и др. Сегментные дупликации и их вариации в полном геноме человека. Наука, 2022.
- Гершман А и др. Эпигенетические закономерности в полном геноме человека. Наука, 2022.
- Аганезов С., Ян С.М., Сото Д.С., Кирше М., Сарате С. и др. Полный эталонный геном улучшает анализ генетических вариаций человека. Наука, 2022.
- Хойт С.Дж. и др. От теломеры к теломере: транскрипционное и эпигенетическое состояние повторяющихся элементов человека. Наука, 2022.
- Альтемоз Н. и др. Полные геномные и эпигенетические карты центромер человека. Наука, 2022.
- Вагнер Дж. и др. Кураторские критерии вариаций для сложных с медицинской точки зрения аутосомных генов. Нат Биотехнологий, 2022.
- Маккартни А.М., Шафин К., Алонг М. и др. В погоне за совершенством: стратегии проверки и полировки геномных сборок теломер-теломер. Нат Методс, 2022.
- Форменти Дж., Ри А. и др. Merfin: улучшенная фильтрация вариантов, оценка сборки и доработка посредством проверки k-mer. Нат Методс, 2022.
- Джайн С. и др. Сопоставление длительного чтения с повторяющимися ссылочными последовательностями с использованием Winnowmap2. Нат Методс, 2022.
- Альтемос Н., Маслан А., Смит ОК и др. DiMeLo-seq: давно изученный одномолекулярный метод картирования взаимодействий белок-ДНК по всему геному. Нат Методс, 2022.
Более ранние цитаты:
- Фоллгер М.Р. и др. Улучшенная сборка и обнаружение вариантов гаплоидного генома человека с использованием высокоточного длинного чтения одной молекулы. Анналы генетики человека, 2019.
- Мига К.Х., Корен С. и др. Сборка теломер-теломеры полной Х-хромосомы человека. Природа, 2020.
- Нурк С., Валенц Б.П. и др. HiCanu: точная сборка сегментных дупликаций, сателлитов и аллельных вариантов из высокоточных лонгридов. Геномные исследования, 2020.
- Логсдон Г.А. и др. Структура, функции и эволюция полной хромосомы человека 8. Nature, 2021.
История
* rel1 and 2: 2nd March 2019. Initial release.
* asm v0.6 and canu rel2 assembly: 28th May 2019. Assembly update.
* Hi-C data added: 25th July 2019. Data update.
* asm v0.6 alignments of rel2 added: 30th Aug 2019. Data Update
* rel3: 16th Sept 2019. Data update.
* chrX v0.7, canu 1.9 and flye 2.5 rel3 assembly: 24th Oct 2019. Assembly update.
* shasta rel3 assembly: 20th Dec 2019. Assembly update.
* chr8 v3, rel4 data: 21 Feb 2020. Data and assembly update.
* update rel3 partition names since some tars included more than a single partition. 16 Apr 2020.
* add CLR/HiFi mappings to chrX v0.7. 8 May 2020.
* update partitions 23,28,30,53,55 and add 227-231 (data was missing from upload). 13 May 2020. Data update.
* add rel5 guppy 3.6.0 data: 4 Jun 2020. Data update.
* add chr8 v9. Aug 26 2020. Assembly update.
* add v0.9/v1.0 genome releases. Sept 22 2020. Assembly update.
* add v0.9/v1.0 alignment files. Sept 29 2020. Assembly update.
* add new UW data. Oct 6 2020. Data update.
* add rna-seq data. Dec 4 2020. Data update.
* add repeat and telomere annotations for v1.0. Dec 17 2020. Assembly annotation update.
* v1.1 assembly and related files. May 7 2021. Assembly update.
* v2.0 assembly and related files. Dec 2 2022. Assembly and annotation update.
* 1KGP variant calls for all chromosomes. Jan. 3 2023. Annotation update.
* 1KGP and SGDP bam / vcf released publicly on [AnVIL_T2T_CHRY](https://anvil.terra.bio/#workspaces/anvil-datastorage/AnVIL_T2T_CHRY). May 23, 2023. Data Update.
* 1KGP AF release. Jul 6 2023. Annotation update.
* Curated RefSeq/Liftoff v5.1 release. Jul 6 2023. Annotation update.
* Curated RefSeq/Liftoff v5.2 release. Aug 23 2024. Protein coding gene annotation update.
* Link page for custom RepeatMasker library with T2T repeats. Nov 19 2024.