TRGT является инструментом для целевого генотипирования тандемных повторений из данных Pacbio HiFi. В дополнение к генотипированию основного размера, состав последовательности TRGT, мозаицизм и метилирование CPG каждого проанализированного повторения и визуализация считываний, перекрывающих повторения.
Обратите внимание, что TRGT все еще находится в активном развитии. Мы ожидаем некоторые изменения в форматах входных и выходных файлов TRGT.
TRGT Linux Binary доступен здесь
Повторные файлы определения доступны в этом хранилище Zenodo, и здесь также доступны определения известных патогенных повторений.
TRGT выводит VCF, содержащие повторные аллели из каждой области в повторном каталоге. Чтобы облегчить анализ повторений по нескольким образцам, VCFS можно либо объединить в VCF с несколькими выборками с использованием подкоманда merge
или преобразован в базу данных с использованием инструмента TDB (ранее называемый TRGTDB). TDB предлагает множество преимуществ по сравнению с VCF с несколькими выборками, включая более простое извлечение данных, поддержку запросов и уменьшенные размеры файлов.
Учебные пособия
Вводной учебник: неинтерактивные и интерактивные версии
Интерпретация сюжетов TRGT
Ссылка
Интерфейс командной строки
Повторный файл определения
Файлы VCF, сгенерированные TRGT
Если вы заметили какие -либо недостающие функции, ошибки или необходимость помощи в анализе вывода TRGT, пожалуйста, не стесняйтесь обращаться по электронной почте или откройте проблему GitHub.
TRGT в настоящее время находится в активной разработке и предназначен только для использования в исследованиях, а не для использования в диагностических процедурах. Хотя были предприняты усилия, чтобы обеспечить, чтобы TRGT оправдывал качество, к которому стремится Pacbio, мы не даем гарантии в отношении этого программного обеспечения.
Поскольку TRGT не охватывается каким -либо соглашением об уровне обслуживания или тому подобным, пожалуйста, не связывайтесь с учеными Pacbio Field Applications или Service Customers Pacbio для получения помощи в любом выпуске TRGT. Пожалуйста, сообщите о всех вопросах через GitHub. Мы не даем гарантии, что какой -либо такой вопрос будет решен в любой степени или в любой срок.
Пожалуйста, рассмотрите возможность ссылаться на газету с описанием TRGT:
Dolzhenko E, English A, Dashnow H, De Sena Brandine G, Mokveld T, Rowell WJ, Karniski C, Kronenberg Z, Danzi MC, Cheung W, Bi C, Farrow E, Wenger A, Martínez-Cerdeño V, Bartley Td, Jin П, Нельсон Д., Зухнер С., Паснен Т., Куинлан А.Р., Седлазек Ф.Дж., Эберле М.А. Характеристика и визуализация тандемных повторов в масштабе генома. 2024
0,3,4
Улучшенное расстояние между этикетками на участках TRVZ
0.4.0
Добавлен учебник TRVZ
Добавленный образцы параметра кариотипа ( XX
или XY
)
Переименованные в VCF Genotype Field ALCI
в ALLR
Сделал изменения алгоритма генотипирования для повышения точности
0.5.0
Genotyper теперь использует информацию о SNP, прилегающих к повторению
Файлы BAM теперь содержат назначения считывания в Алле
Добавлена поддержка сжатых повторных файлов GZIP
Улучшенная обработка ошибок и сообщения об ошибках
0,6,0
Добавить сигары выравнивания в Spanning.bam Reads
Увеличить область извлечения чтения
Cluster Genotyper сообщает о доверительном интервале
Улучшенная обработка ошибок недопустимых входных файлов (геном, каталог и чтения)
0,7,0
Читать информацию о фазировании теперь можно использовать во время повторного генотипирования (через теги HP
)
Теперь пользователи могут определить сложные повторения, указав последовательности мотивов в поле «Мотивы» и установив структуру для locus_name
О исходных значениях MAPQ в входных показаниях теперь сообщаются на выходе BAM
Имя образца Bamlet теперь может быть предоставлено с использованием флага --sample-name
; Если он не предоставлен, он извлечен из входного бама или ствола файла (адресация выпуска № 18)
0,8,0
Нарушение изменения : мотив, пролеты и количество (поля MS
и MC
) и оценка чистоты (поле AP
) в настоящее время выполняются с алгоритмом на основе HMM для всех повторений; Ожидайте некоторые различия в результатах относительно предыдущих версий
Чистота аллелей аллелей нулевой длины теперь сообщается как отсутствующие значения в VCFS
Выходной файл spanning.bam теперь переносит значения квалификации и нити отображения из входных считываний
Добавлен расширенный флаг --output-flank-len
, который контролирует количество фланкирующих оснований, сообщаемых в файлах spanning.bam и показано на графиках TRVZ
Авария, которая может произойти на бамах, где было установлено, что метилирование называлось дважды, была зафиксирована
Оптимизация в режиме --genotyper=cluster
, включая гаплоидное генотипирование хромосомы X, когда --karyotype
установлен на XY
0.9.0
Добавить поддержку полиаланиновых повторений (позволяя символам N
в последовательности мотива)
Исправьте ошибку, вызывая TRVZ, чтобы ошибиться в полиаланиновых повторах
1.0.0
Преломление изменения : TRGT и TRVZ теперь объединены в один двоичный файл. Пользователям необходимо запускать подкоманды trgt genotype
и trgt plot
для генотипирования и визуализации соответственно.
Разрушение изменения : база прокладки теперь автоматически добавляется ко всем генотипированным последовательностям аллелей в файле VCF, обеспечивая лучшее соблюдение стандартов VCF и обработку аллелей нулевой длины.
Добавлено новое подкоманду trgt validate
. Эта команда позволяет подтвердить повторный каталог в отношении данного эталонного генома и сообщает о статистике для любых удвоенных записей.
Более низкая площадь памяти: лучшее управление памятью значительно снижает использование памяти с большими повторными каталогами.
Обновленная обработка ошибок: узоловые записи теперь регистрируются как ошибки без завершения программы.
Добавлены опции сокращений CLI, чтобы упростить использование команд.
1.1.0
Добавлен новый подкоманду trgt merge
. Эта команда объединяет файлы VCF, сгенерированные trgt genotype
в совместный файл VCF. Работает с VCF, сгенерированными всеми версиями TRGT (полученный суставочный VCF всегда будет в формате TRGT ≥V1.0.0, который включает в себя основания для прокладки).
Добавлена подменгация областей с сверхвысоким покрытием ( >MAX_DEPTH * 3
, по умолчанию 750); реализовано через выборку водохранилища.
Исправлена ошибка Genotyper кластера, которая произошла, когда только одно чтение покрыло локус.
Добавлена новая логика для фильтрации не HIFI Reads: Удалите до 3% считываний с более низким качеством, которые не соответствуют ожидаемой последовательности повторения.
1.1.1
Hotfix: чтение логики фильтрации больше не удаляет чтения без тегов RQ.
1.1.2
Hotfix: предотвратить генотипирование без чтения.
Добавлен флаг --disable-bam-output
в trgt genotype
, что позволяет пользователям отключить генерацию бамлета. Тем не менее, обратите внимание, что бамлеты по -прежнему необходимы для нисходящих задач, таких как график TRGT.
1.2.0
Решенная проблема с обработкой FGZIP-сжатых файлов кроватей.
Всегда выводит статистику непосредственно в Stdout и Stderr вместо того, чтобы регистрировать их.
Слияние VCF с несколькими образцами: добавленная поддержка для слияния VCF TRGT с любым количеством образцов, что позволяет обновлять крупные наборы данных масштабирования популяции с новыми образцами.
Индексирование синхронизации: внедренная поддержка VCFS с непоследовательными конфигурными положениями. Кроме того, новый флаг --contigs
позволяет объединить, разделяемый запятой список контигов, которые будут объединены.
Справочный геном больше не требуется при слиянии VCF TRGT из версии 1.0.0 или более поздней версии.
Слияние сейчас пропускает и ведет журналы проблемных локусов по умолчанию. Используйте флаг --quit-on-errors
чтобы завершить ошибки. Статистика зарегистрирована после Merge, в том числе количество неудачных и пропущенных TRS.
trgt merge
:
trgt validate
Исправление ошибки:
1.3.0
Код построения кода был рефактор, когда мы готовимся к обновлению повторной визуализации
Максимальное количество считываний на аллель на график теперь может быть указано --max-allele-reads
Bugfix: повторяются идентификаторы, теперь разрешается содержать запятые
1.4.0
Параметры, подходящие для целевого секвенирования, теперь могут быть установлены с вариантом --preset targeted
Участки водопада больше не паникуют, когда в локусе нет чтения
Алгоритмические изменения в --genotyper cluster
позволяют назначать меньше чтений для аллеля; Это может привести к незначительным изменениям в последовательности консенсуса и назначении чтения
Этот веб-сайт и контент и все связанные с сайтами услуги, включая любые данные, предоставляются «как есть» со всеми недостатками, без каких-либо представлений или гарантий, либо явных, либо подразумеваемых, включая, помимо прочего, любые гарантии Торговая способность, удовлетворительное качество, не инфраторство или пригодность для определенной цели. Вы берете на себя полную ответственность и риск для использования вами этого сайта, всех услуг, связанных с сайтом, и любых сторонних веб-сайтов или приложений. Никакая оральная или письменная информация или советы не должны создавать гарантию любого рода. Любые ссылки на конкретные продукты или услуги на веб -сайтах не являются или подразумевают рекомендацию или одобрение Pacific Biosciences.