deviaTE 是一个用于移动遗传元件序列分析和可视化的 Python 工具。
新的命令行标志--tar
用于收集 tar 文件中的结果和绘图。在分析大量 TE seq 时很有用
添加纳米孔测试数据和单元测试
修复了具有相同名称的串联读取对的问题。这过去需要运行scripts/rename_reads.py
以使名称唯一。现在这是在内部处理的,因此不再需要使用脚本。
新的命令行标志--no_viz
可在不需要时阻止可视化
内部效率提升
修复了 gzip 压缩输入文件的使用,包括新的测试用例
由于之前的 python 基础已达到生命周期终点,deviTE 需要更新。这次更新变得相当重要 - 因此升级到版本 2:
弃用功能:
deviaTE 需要 python >=3.10 和 pip:
pip install deviaTE
usage: deviaTE [-h] [--input INPUT] [--preset {sr,map-ont,map-pb,map-hifi}] [--library LIBRARY] [--annotation ANNOTATION] [--min_align_len MIN_ALIGN_LEN] [--families [FAMILIES ...]] [--no_viz] [-v] [--rpm | --single_copy_genes [SINGLE_COPY_GENES ...]]
options:
-h, --help show this help message and exit
--input INPUT Input file(s) to be analysed. Can be *.fastq, *.fa, or directory of files. Optionally gzipped.
--preset {sr,map-ont,map-pb,map-hifi} Minimap2 mapping preset. (sr, map-ont, map-pb, map-hifi) [sr]
--library LIBRARY Path to reference library. Defaults to drosophila transposons from https://github.com/bergmanlab/drosophila-transposons
--annotation ANNOTATION Path to annotation (gff) of sequences in library. Defaults to drosophila TE annotation from https://github.com/bergmanlab/drosophila-transposons
--min_align_len MIN_ALIGN_LEN Minimum length of valid alignments
--families [FAMILIES ...] Which transposon families to analyse. Default: all sequences in library.
--no_viz Only analyse, but don't visualize the results
-v, --version Show version information and exit.
--rpm normalize all abundances by reads per million
--single_copy_genes [SINGLE_COPY_GENES ...] space-separated names of single-copy genes in reference to use for normalisation
DeviaTE 是一个命令行程序,可以根据测序数据分析和可视化移动遗传元件的多样性,而无需组装宿主物种的基因组。唯一必需的参数是--input
。为此,它需要排序数据( --input
单个文件或文件目录)。它可以与短读和长读一起使用( --preset
、短读的 minimap2 参数预设 [sr]、nanopore 读 [map-ont] 或 pacbio [map-pb、map-hifi])。它还需要移动遗传元件共有序列( --library
, fasta 文件)。如果没有给出库,它将使用 https://github.com/bergmanlab/drosophila-transposons 中的果蝇转座子序列。使用--families
选择要分析的 TE。这些可以是多个(以空格分隔),或者如果未指定,则使用库中的所有参考序列。
可用参数用-h
或--help
列出。
有一个示例可供测试。这些序列来自果蝇 12 基因组联盟等。 2007。果蝇系统发育中基因和基因组的进化。自然。 450(7167):203-218。
我们可以分析 TE 骑师 (DMLINEJA) 并使用以下方法获得可视化结果:
deviaTE --input ../data/jockey_dmel.fastq --families FBte0000088
这会生成一个名为jockey_dmel.fastq.paf
的对齐文件,创建输出表jockey_dmel.fastq.FBte0000088.deviate
,其中包含有关覆盖范围和估计插入(如果选择)的信息,以及可视化jockey_dmel.fastq.FBte0000088.deviate.pdf
。
可以找到以前版本的手册和演练(在此 github 链接)
该表以一些用 # 表示的标题行开始。此标题包含估计的 TE 插入数量(如果选择)和列名称。每一行对应 TE 序列的一个位置。从版本 2 开始, hq_cov
报告高质量碱基的覆盖范围,而不是高质量映射,因为这对于纳米孔数据等更有趣。
柱子 | 描述 |
---|---|
TEfam | 分析的 TE 系列的名称 |
sample_id | 输入文件名 |
pos | 参考序列中的位置 |
refbase | 参考序列中该位置的核苷酸 |
ACGT | 该位置每个核苷酸的计数 |
cov | 该位置的总覆盖范围 |
hq_cov | 仅覆盖高质量基地(>Q15) |
snp | 变量位置指示器 |
delet | 间隙观测值的计数 |
默认情况下,不执行标准化,报告的计数是原始丰度,不适合比较样本之间的 TE。因此,实施了两种不同的策略,每百万映射读数的归一化和单拷贝基因的归一化。
--rpm
选择。--library
。然后添加--single_copy_genes GENE1 GENE2 GENE3 ...
,其中 GENE1 等是库文件中的标头。每个单倍体基因组的估计拷贝数被写入结果输出表的标题部分。 如果您正在分析果蝇中的 TE,则可以选择指定参考序列的--library
或--annotation
。默认情况下,如果没有给出库和注释,dviaTE 会自动从 https://github.com/bergmanlab/drosophila-transposons 下载并使用 TE 库。
对于果蝇中的单拷贝基因标准化,五个基因会自动添加到文库中(Dmel_rpl32、Dmel_piwi、Dmel_Act5C、Dmel_RpII140 和 Dmel_p53),可用于标准化:
--single_copy_genes Dmel_rpl32 Dmel_piwi ...
您可以通过将 Deviate 映射到单读模式来使用 Deviate 进行双端读。
例如,可以通过使用包含两个读取对(read1 和 read2)的单个串联 fastq 文件来完成此操作。 (不再需要使用脚本scripts/rename_reads.py
为配合提供唯一的名称,这是自 2.2.0 以来内部完成的)
描述 deviaTE 的论文可以在这里找到:https://onlinelibrary.wiley.com/doi/10.1111/1755-0998.13030
@article{weilguny2019,
title = {{{DeviaTE}}: {{Assembly-free}} Analysis and Visualization of Mobile Genetic Element Composition},
author = {Weilguny, Lukas and Kofler, Robert},
year = {2019},
journal = {Molecular Ecology Resources},
volume = {19},
number = {5},
pages = {1346--1354},
doi = {10.1111/1755-0998.13030}
}
如果您发现任何问题,有疑问或进一步改进的想法,请使用此存储库上的问题跟踪器,谢谢!
deviaTE 根据 GPLv3 许可证获得许可
该代码由 pytests 覆盖。要运行这些安装: pip install pytest pytest-cov
。然后运行测试: cd tests; pytest --cov --cov-report html
。测试本地构建: hatch build && pip install dist/deviate-2.2.0-py3-none-any.whl --force-reinstall --no-deps