deviaTE 是用於行動遺傳元件序列分析和視覺化的 Python 工具。
新的命令列標誌--tar
用於收集 tar 檔案中的結果和繪圖。在分析大量 TE seq 時很有用
添加奈米孔測試數據和單元測試
修復了具有相同名稱的串聯讀取對的問題。這過去需要執行scripts/rename_reads.py
以使名稱唯一。現在這是在內部處理的,因此不再需要使用腳本。
新的命令列標誌--no_viz
可在不需要時阻止可視化
內部效率提升
修復了 gzip 壓縮輸入檔的使用,包括新的測試案例
由於先前的 python 基礎已達到生命週期終點,deviTE 需要更新。這次更新變得相當重要 - 因此升級到版本 2:
棄用功能:
deviaTE 需要 python >=3.10 和 pip:
pip install deviaTE
usage: deviaTE [-h] [--input INPUT] [--preset {sr,map-ont,map-pb,map-hifi}] [--library LIBRARY] [--annotation ANNOTATION] [--min_align_len MIN_ALIGN_LEN] [--families [FAMILIES ...]] [--no_viz] [-v] [--rpm | --single_copy_genes [SINGLE_COPY_GENES ...]]
options:
-h, --help show this help message and exit
--input INPUT Input file(s) to be analysed. Can be *.fastq, *.fa, or directory of files. Optionally gzipped.
--preset {sr,map-ont,map-pb,map-hifi} Minimap2 mapping preset. (sr, map-ont, map-pb, map-hifi) [sr]
--library LIBRARY Path to reference library. Defaults to drosophila transposons from https://github.com/bergmanlab/drosophila-transposons
--annotation ANNOTATION Path to annotation (gff) of sequences in library. Defaults to drosophila TE annotation from https://github.com/bergmanlab/drosophila-transposons
--min_align_len MIN_ALIGN_LEN Minimum length of valid alignments
--families [FAMILIES ...] Which transposon families to analyse. Default: all sequences in library.
--no_viz Only analyse, but don't visualize the results
-v, --version Show version information and exit.
--rpm normalize all abundances by reads per million
--single_copy_genes [SINGLE_COPY_GENES ...] space-separated names of single-copy genes in reference to use for normalisation
DeviaTE 是一個命令列程序,可以根據定序數據分析和可視化移動遺傳元件的多樣性,而無需組裝宿主物種的基因組。唯一必需的參數是--input
。為此,它需要排序資料( --input
單一檔案或檔案目錄)。它可以與短讀和長讀一起使用( --preset
、短讀的 minimap2 參數預設 [sr]、nanopore 讀 [map-ont] 或 pacbio [map-pb、map-hifi])。它還需要移動遺傳元件共有序列( --library
, fasta 檔案)。如果沒有給出函式庫,它將使用 https://github.com/bergmanlab/drosophila-transposons 中的果蠅轉座子序列。使用--families
選擇要分析的 TE。這些可以是多個(以空格分隔),或者如果未指定,則使用庫中的所有參考序列。
可用參數用-h
或--help
列出。
有一個範例可供測試。這些序列來自果蠅 12 基因組聯盟等。 2007。自然。 450(7167):203-218。
我們可以分析 TE 騎師 (DMLINEJA) 並使用以下方法獲得視覺化結果:
deviaTE --input ../data/jockey_dmel.fastq --families FBte0000088
這會產生一個名為jockey_dmel.fastq.paf
的對齊文件,建立輸出表jockey_dmel.fastq.FBte0000088.deviate
,其中包含有關覆蓋範圍和估計插入(如果選擇)的信息,以及可視化jockey_dmel.fastq.FBte0000088.deviate.pdf
。
可以找到先前版本的手冊和演練(在此 github 連結)
表格以一些以 # 表示的標題行開始。此標題包含估計的 TE 插入數量(如果選擇)和列名稱。每一行對應 TE 序列的一個位置。從版本 2 開始, hq_cov
報告高品質鹼基的覆蓋範圍,而不是高品質映射,因為這對於奈米孔數據等更有趣。
柱子 | 描述 |
---|---|
TEfam | 分析的 TE 系列的名稱 |
sample_id | 輸入檔名 |
pos | 參考序列中的位置 |
refbase | 參考序列中該位置的核苷酸 |
ACGT | 該位置每個核苷酸的計數 |
cov | 該位置的總覆蓋範圍 |
hq_cov | 僅涵蓋高品質基地(>Q15) |
snp | 變數位置指示器 |
delet | 間隙觀測值的計數 |
預設情況下,不執行標準化,報告的計數是原始豐度,不適合比較樣本之間的 TE。因此,實施了兩種不同的策略,每百萬張映射讀數的歸一化和單拷貝基因的歸一化。
--rpm
選擇。--library
。然後加入--single_copy_genes GENE1 GENE2 GENE3 ...
,其中 GENE1 等是庫檔案中的標頭。每個單倍體基因組的估計拷貝數被寫入結果輸出表的標題部分。 如果您正在分析果蠅中的 TE,則可以選擇指定參考序列的--library
或--annotation
。預設情況下,如果沒有給予函式庫和註釋,dviaTE 會自動從 https://github.com/bergmanlab/drosophila-transposons 下載並使用 TE 函式庫。
對於果蠅中的單拷貝基因標準化,五個基因會自動添加到文庫中(Dmel_rpl32、Dmel_piwi、Dmel_Act5C、Dmel_RpII140 和 Dmel_p53),可用於標準化:
--single_copy_genes Dmel_rpl32 Dmel_piwi ...
您可以透過將 Deviate 對應到單讀模式來使用 Deviate 進行雙端讀取。
例如,可以透過使用包含兩個讀取對(read1 和 read2)的單一串聯 fastq 檔案來完成此操作。 (不再需要使用腳本scripts/rename_reads.py
為配合提供唯一的名稱,這是自 2.2.0 以來內部完成的)
描述 deviaTE 的論文可以在這裡找到:https://onlinelibrary.wiley.com/doi/10.1111/1755-0998.13030
@article{weilguny2019,
title = {{{DeviaTE}}: {{Assembly-free}} Analysis and Visualization of Mobile Genetic Element Composition},
author = {Weilguny, Lukas and Kofler, Robert},
year = {2019},
journal = {Molecular Ecology Resources},
volume = {19},
number = {5},
pages = {1346--1354},
doi = {10.1111/1755-0998.13030}
}
如果您發現任何問題,有疑問或進一步改進的想法,請使用此儲存庫上的問題追蹤器,謝謝!
deviaTE 根據 GPLv3 許可證獲得許可
該程式碼由 pytests 覆蓋。要執行這些安裝: pip install pytest pytest-cov
。然後運行測試: cd tests; pytest --cov --cov-report html
。測試本地建置: hatch build && pip install dist/deviate-2.2.0-py3-none-any.whl --force-reinstall --no-deps