TRGT是用于从PACBIO HIFI数据中重复串联重复的靶向基因分型的工具。除了基本尺寸的基因分型外,TRGT谱谱序列组成,镶嵌和CpG甲基化的每个分析的重复和可视化和可视化读数重叠。
请注意,TRGT仍在积极发展。我们预计TRGT的输入和输出文件格式会有一些更改。
TRGT Linux二进制可用
重复定义文件在此Zenodo存储库中可用,此处也可以使用已知病原重复的定义。
TRGT输出VCF,其中包含重复目录中每个区域的重复等位基因。为了促进对多个样本的重复分析,可以使用merge
子命令合并为VCF,或使用TDB工具(以前称为TRGTDB)将VCF合并为多样本VCF。 TDB比多样本VCF提供了许多优势,包括更简单的数据提取,对查询的支持和减少文件大小。
教程
入门教程:非相互作用和交互式版本
解释TRGT图
参考
命令行接口
重复定义文件
TRGT生成的VCF文件
如果您注意到任何缺少的功能,错误或需要帮助分析TRGT的输出,请随时通过电子邮件或打开GitHub发行。
TRGT目前正在积极开发中,仅用于研究用途,而不适用于诊断程序。尽管已经努力确保TRGT符合PACBIO努力的质量,但我们对此软件不做任何保证。
由于TRGT不受任何服务水平协议或类似的涵盖,因此请勿联系PACBIO现场应用程序科学家或PACBIO客户服务以提供任何TRGT版本的帮助。请改用GitHub报告所有问题。我们不保证任何此类问题将在任何程度上或在任何时间范围内解决。
请考虑引用描述TRGT的论文:
Dolzhenko E,英语A,Dashnow H,De Sena Brandine G,Mokveld T,Rowell WJ,Karniski C,Kronenberg Z,Danzi MC,Cheung W,Bi C,Bi C,Farrow E,Wenger E,Wenger A,Wenger A,Martínez-CerdeñoV,Bartley TD,Jin,Jin,Jin,Jin,Jin,Jin,Jin,Jin P,Nelson D,Zuchner S,Pastinen T,Quinlan AR,Sedlazeck FJ,Eberle MA。串联重复在基因组尺度上的表征和可视化。 2024
0.3.4
提高TRVZ图的标签间距
0.4.0
添加了TRVZ教程
添加了样品核型参数( XX
或XY
)
重命名为VCF基因型Field ALCI
为ALLR
进行基因分型算法更改以提高准确性
0.5.0
Genotyper现在使用有关重复相邻的SNP的信息
BAM文件现在包含读取对等位基因分配
添加了对GZIP压缩重复文件的支持
改进的错误处理和错误消息
0.6.0
将雪茄添加到跨度。
增加读取区域
集群Genotyper报告置信区间
改善了无效输入文件的错误处理(基因组,目录和读取)
0.7.0
现在可以在重复基因分型(通过HP
标签)期间使用读取相位信息
现在,用户可以通过在主题字段中指定主题序列并将Struc设置为locus_name
来定义复杂重复序列。
现在在BAM输出中报告了输入读取中的原始MAPQ值
现在可以使用--sample-name
标志提供Bamlet样本名称;如果未提供,则将其从输入BAM或文件词干中提取(解决问题#18)
0.8.0
破坏变化:基序跨度( MS
和MC
场)和纯度评估( AP
场)现在使用基于HMM的算法进行所有重复序列;期望相对于以前的版本的结果有所不同
现在报告了零长度等位基因的等位基因纯度,为VCF中的缺失值
现在的跨度输出文件现在遍布输入读取的质量值和映射链
添加了一个高级标志--output-flank-len
,它控制Spanning中报告的侧面基数的数量。BAM文件,并在TRVZ图中显示
在BAMS上可能发生两次甲基化的BAM可能发生崩溃
对--genotyper=cluster
模式的优化,包括X染色体的单倍体基因分型,当将--karyotype
设置为XY
时
0.9.0
增加对多苯胺重复序列的支持(通过允许在主题序列中的字符N
)
修复导致TRVZ在多酰胺重复序列上出错的错误
1.0.0
打破变化:TRGT和TRVZ现在合并为单个二进制文件。用户需要分别运行子命令和trgt plot
,以分别用于基因分trgt genotype
和可视化。
打破变化:现在,填充基库自动添加到VCF文件中的所有基因分型等位基因序列中,以确保更好地遵守VCF标准和处理零长度等位基因。
添加了一个新的子命令trgt validate
。该命令允许验证重复目录针对给定的参考基因组,并报告任何畸形条目的统计信息。
较低的内存足迹:更好的内存管理可大大减少大量重复目录的内存使用情况。
更新的错误处理:现已将错误的条目记录为错误,而无需终止程序。
添加了速记CLI选项以简化命令使用情况。
1.1.0
添加了一个新的子命令trgt merge
。此命令将trgt genotype
生成的VCF文件合并到关节VCF文件中。与所有版本的TRGT生成的VCF一起工作(所得的接头VCF将始终以trgt≥v1.0.0格式,其中包括填充碱基)。
添加了具有超高覆盖范围的区域的子采样( >MAX_DEPTH * 3
,默认情况下为750);通过储层抽样实施。
修复了只有单个读取覆盖轨迹的群集基因诺虫错误。
添加了用于过滤非HIFI读取的新逻辑:删除不匹配预期重复序列的低质量读数的3%。
1.1.1
HotFix:读取过滤逻辑不再没有RQ标签去除读取。
1.1.2
HotFix:防止基因分型,而无需读取。
在trgt genotype
中添加了--disable-bam-output
标志,从而使用户可以禁用BAMLET生成。但是,请注意,诸如TRGT图之类的下游任务仍然需要BAMLET。
1.2.0
解决BGZIP压缩床文件的解决问题。
始终将统计信息直接输出到stdout和stderr,而不是记录它们。
多样本VCF合并:添加了将TRGT VCF与任意数量的样本合并的支持,可以更新到具有新样本的大型人口规模的数据集。
同步重叠索引:引入了对关键订购不一致的VCF的支持。此外,新的--contigs
标志允许指定要合并的逗号分隔列表。
从版本1.0.0或更高版本合并TRGT VCF时,不再需要参考基因组。
默认情况下,合并跳过和日志有问题的基因座。使用--quit-on-errors
标志在错误上终止。统计数据是记录的合并后,包括失败和跳过TR的计数。
trgt merge
:
trgt validate
错误修复:
1.3.0
当我们准备改进重复可视化时,绘图代码已被重构
现在可以通过--max-allele-reads
指定绘图的每个等位基因的最大读数
BugFix:现在允许重复标识符包含逗号
1.4.0
现在可以使用--preset targeted
选项设置适合目标测序的参数
瀑布在一个地方没有读数时不再恐慌
算法更改为--genotyper cluster
允许将读取更少的读取为等位基因;这可能会导致对共识序列的微小变化并读取分配
本网站和内容以及所有与网站相关的服务(包括任何数据)都“按原样”提供,所有故障,没有任何陈述或任何形式的明示或暗示保证,包括但不限于任何保证适销性,令人满意的质量,非侵入或适合特定目的的健身。您承担使用本网站,所有与网站相关的服务以及任何第三方网站或应用程序的全部责任和风险。任何口头或书面信息或建议均不得制定任何形式的保修。对网站上特定产品或服务的任何参考都不构成或暗示太平洋生物科学的建议或认可。