deviaTE は、モバイル遺伝要素配列の分析および視覚化のための Python ツールです。
新しいコマンドライン フラグ--tar
結果とプロットを tar ファイルに収集します。多数の TE シーケンスを分析する場合に役立ちます
ナノポアテストデータと単体テストを追加
同じ名前を持つ連結された読み取りペアの問題が修正されました。これには、名前を一意にするためにscripts/rename_reads.py
実行する必要がありました。これは内部で処理されるようになったため、スクリプトを使用する必要はなくなりました。
新しいコマンドライン フラグ--no_viz
が不要な場合に視覚化を防止します
内部効率の向上
gzip 圧縮された入力ファイルの使用法を修正し、新しいテスト ケースを追加
以前の Python ベースがサポート終了になったため、deviaTE は更新が必要でした。このアップデートは非常に大幅なものになったので、バージョン 2 に引き上げられました。
機能の廃止:
deviaTE には Python >=3.10 と pip が必要です。
pip install deviaTE
usage: deviaTE [-h] [--input INPUT] [--preset {sr,map-ont,map-pb,map-hifi}] [--library LIBRARY] [--annotation ANNOTATION] [--min_align_len MIN_ALIGN_LEN] [--families [FAMILIES ...]] [--no_viz] [-v] [--rpm | --single_copy_genes [SINGLE_COPY_GENES ...]]
options:
-h, --help show this help message and exit
--input INPUT Input file(s) to be analysed. Can be *.fastq, *.fa, or directory of files. Optionally gzipped.
--preset {sr,map-ont,map-pb,map-hifi} Minimap2 mapping preset. (sr, map-ont, map-pb, map-hifi) [sr]
--library LIBRARY Path to reference library. Defaults to drosophila transposons from https://github.com/bergmanlab/drosophila-transposons
--annotation ANNOTATION Path to annotation (gff) of sequences in library. Defaults to drosophila TE annotation from https://github.com/bergmanlab/drosophila-transposons
--min_align_len MIN_ALIGN_LEN Minimum length of valid alignments
--families [FAMILIES ...] Which transposon families to analyse. Default: all sequences in library.
--no_viz Only analyse, but don't visualize the results
-v, --version Show version information and exit.
--rpm normalize all abundances by reads per million
--single_copy_genes [SINGLE_COPY_GENES ...] space-separated names of single-copy genes in reference to use for normalisation
DeviaTE は、宿主種の組み立てられたゲノムを必要とせずに、配列データから可動性遺伝要素の多様性を分析および視覚化するコマンドライン プログラムです。唯一必要な引数は--input
です。このために、シーケンス データ ( --input
単一ファイルまたはファイルのディレクトリ) を受け取ります。これはショートリードとロングリードで使用できます ( --preset
、ショートリード用の minimap2 パラメータープリセット [sr]、ナノポアリード [map-ont] または pacbio [map-pb、map-hifi])。また、モバイル遺伝要素コンセンサス配列 ( --library
、 fasta ファイル) も必要です。ライブラリが指定されていない場合は、https://github.com/bergmanlab/drosophila-transposons のショウジョウバエのトランスポゾン シーケンスが使用されます。分析する TE は--families
で選択します。これらは複数 (スペースで区切って) 指定できます。指定しない場合は、ライブラリ内のすべての参照配列が使用されます。
使用可能な引数は、 -h
または--help
でリストされます。
テスト用の例が用意されています。配列はショウジョウバエ 12 ゲノム コンソーシアムらからのものです。 2007. ショウジョウバエの系統発生における遺伝子とゲノムの進化。自然。 450(7167):203-218。
以下を使用して TE ジョッキー (DMLINEJA) を分析し、視覚化することができます。
deviaTE --input ../data/jockey_dmel.fastq --families FBte0000088
これにより、 jockey_dmel.fastq.paf
というアライメント ファイルが生成され、カバレッジと推定挿入数 (選択した場合) に関する情報を含む出力テーブルjockey_dmel.fastq.FBte0000088.deviate
と、視覚化jockey_dmel.fastq.FBte0000088.deviate.pdf
が作成されます。
以前のバージョンのマニュアルとウォークスルーは (この github リンクで) 見つけることができます。
テーブルは、# で示されるいくつかのヘッダー行で始まります。このヘッダーには、TE 挿入の推定数 (選択されている場合) と列名が含まれます。各行は、TE シーケンスの 1 つの位置に対応します。バージョン 2 以降、 hq_cov
高品質マッピングの代わりに高品質塩基のカバレッジを報告します。これは、ナノポア データなどの場合、その方が興味深いためです。
カラム | 説明 |
---|---|
TEfam | 分析された TE ファミリの名前 |
sample_id | 入力ファイル名 |
pos | 参照配列内の位置 |
refbase | 参照配列内のこの位置のヌクレオチド |
ACGT | この位置の各ヌクレオチドの数 |
cov | この位置の合計カバレッジ |
hq_cov | 高品質のベースのみを対象としています (>Q15) |
snp | バリアント位置のインジケーター |
delet | ギャップ観測の数 |
デフォルトでは正規化は実行されず、報告されるカウントは生の存在量であるため、サンプル間の TE を比較するのには適していません。したがって、100 万マップされたリードごとの正規化と単一コピー遺伝子による正規化という 2 つの異なる戦略が実装されます。
--rpm
で選択された、さまざまなシーケンス深度を考慮して、100 万マッピングされたリードごとのすべてのカウントを正規化します。--library
として使用される TE コンセンサス配列を含むファイルに複数のシングルコピー遺伝子の配列を追加します。次に、 --single_copy_genes GENE1 GENE2 GENE3 ...
を追加します。ここで、GENE1 などはライブラリ ファイルのヘッダーです。一倍体ゲノムごとの推定コピー数は、結果として得られる出力テーブルのヘッダー セクションに書き込まれます。 ショウジョウバエの TE を分析している場合、参照配列の--library
または--annotation
の指定はオプションです。デフォルトでは、ライブラリとアノテーションが指定されていない場合、deviaTE は https://github.com/bergmanlab/drosophila-transposons から TE ライブラリを自動的にダウンロードして使用します。
ショウジョウバエのシングルコピー遺伝子正規化では、5 つの遺伝子 (Dmel_rpl32、Dmel_piwi、Dmel_Act5C、Dmel_RpII140、および Dmel_p53) がライブラリに自動的に追加され、正規化に使用できます。
--single_copy_genes Dmel_rpl32 Dmel_piwi ...
シングル読み取りモードでペアエンド読み取りをマッピングすることで、ペアエンド読み取りに DeviaTE を使用できます。
これは、たとえば、両方の読み取りペア (read1 と read2) を含む単一の連結された fastq ファイルを使用することによって実行できます。 (スクリプトscripts/rename_reads.py
を使用してメイトに一意の名前を付ける必要はなくなりました。2.2.0 以降、これは内部的に行われます)
deviaTE について説明した論文はここから入手できます: https://onlinelibrary.wiley.com/doi/10.1111/1755-0998.13030
@article{weilguny2019,
title = {{{DeviaTE}}: {{Assembly-free}} Analysis and Visualization of Mobile Genetic Element Composition},
author = {Weilguny, Lukas and Kofler, Robert},
year = {2019},
journal = {Molecular Ecology Resources},
volume = {19},
number = {5},
pages = {1346--1354},
doi = {10.1111/1755-0998.13030}
}
問題を見つけた場合、さらなる改善のための質問やアイデアがある場合は、このリポジトリの問題トラッカーを使用してください。ありがとうございます。
deviaTE は GPLv3 ライセンスに基づいてライセンスされています
コードは pytest によってカバーされます。これらのインストールを実行するには: pip install pytest pytest-cov
。次に、テストを実行します。 cd tests; pytest --cov --cov-report html
。ローカル ビルドをテストするには: hatch build && pip install dist/deviate-2.2.0-py3-none-any.whl --force-reinstall --no-deps