deviaTE adalah alat python untuk analisis dan visualisasi rangkaian elemen genetik seluler.
tanda baris perintah baru --tar
untuk mengumpulkan hasil dan plot dalam file tar. Berguna jika banyak seq TE dianalisis
menambahkan data uji nanopore dan pengujian unit
memperbaiki masalah pasangan baca gabungan yang memiliki nama yang sama. Ini biasanya mengharuskan menjalankan scripts/rename_reads.py
untuk membuat nama menjadi unik. Ini sekarang ditangani secara internal, jadi penggunaan skrip tidak lagi diperlukan.
tanda baris perintah baru --no_viz
untuk mencegah visualisasi jika tidak diperlukan
peningkatan efisiensi internal
penggunaan tetap file masukan yang di-gzip, termasuk kasus uji baru
Karena basis python sebelumnya mencapai akhir masa pakainya, deviaTE memerlukan pembaruan. Pembaruan ini menjadi cukup besar - sehingga beralih ke versi 2:
Penghentian fitur:
deviaTE membutuhkan python >=3.10 dan pip:
pip install deviaTE
usage: deviaTE [-h] [--input INPUT] [--preset {sr,map-ont,map-pb,map-hifi}] [--library LIBRARY] [--annotation ANNOTATION] [--min_align_len MIN_ALIGN_LEN] [--families [FAMILIES ...]] [--no_viz] [-v] [--rpm | --single_copy_genes [SINGLE_COPY_GENES ...]]
options:
-h, --help show this help message and exit
--input INPUT Input file(s) to be analysed. Can be *.fastq, *.fa, or directory of files. Optionally gzipped.
--preset {sr,map-ont,map-pb,map-hifi} Minimap2 mapping preset. (sr, map-ont, map-pb, map-hifi) [sr]
--library LIBRARY Path to reference library. Defaults to drosophila transposons from https://github.com/bergmanlab/drosophila-transposons
--annotation ANNOTATION Path to annotation (gff) of sequences in library. Defaults to drosophila TE annotation from https://github.com/bergmanlab/drosophila-transposons
--min_align_len MIN_ALIGN_LEN Minimum length of valid alignments
--families [FAMILIES ...] Which transposon families to analyse. Default: all sequences in library.
--no_viz Only analyse, but don't visualize the results
-v, --version Show version information and exit.
--rpm normalize all abundances by reads per million
--single_copy_genes [SINGLE_COPY_GENES ...] space-separated names of single-copy genes in reference to use for normalisation
DeviaTE adalah program baris perintah yang menganalisis dan memvisualisasikan keragaman elemen genetik seluler dari pengurutan data tanpa memerlukan perakitan genom spesies inang. Satu-satunya argumen yang diperlukan adalah --input
. Untuk ini, diperlukan pengurutan data ( --input
file tunggal atau direktori file). Ini dapat digunakan dengan pembacaan pendek dan panjang ( --preset
, preset parameter minimap2 untuk pembacaan singkat [sr], pembacaan nanopore [map-ont] atau pacbio [map-pb, map-hifi]). Ini juga memerlukan urutan konsensus elemen genetik seluler ( --library
, file fasta). Jika tidak ada perpustakaan yang diberikan maka akan menggunakan urutan transposon Drosphila dari https://github.com/bergmanlab/drosophila-transposons. TE yang akan dianalisis dipilih dengan --families
. Ini bisa berupa beberapa (dipisahkan spasi) atau jika tidak ditentukan, semua urutan referensi di perpustakaan akan digunakan.
Argumen yang tersedia dicantumkan dengan -h
atau --help
.
Sebuah contoh tersedia untuk pengujian. Urutannya berasal dari Konsorsium Genom Drosophila 12 dkk. 2007. Evolusi gen dan genom pada filogeni Drosophila. Alam . 450(7167):203-218.
Kita dapat menganalisis joki TE (DMLINEJA) dan mendapatkan visualisasinya menggunakan:
deviaTE --input ../data/jockey_dmel.fastq --families FBte0000088
ini menghasilkan file penyelarasan bernama jockey_dmel.fastq.paf
, membuat tabel keluaran jockey_dmel.fastq.FBte0000088.deviate
dengan informasi tentang cakupan dan perkiraan penyisipan (jika dipilih), dan visualisasi jockey_dmel.fastq.FBte0000088.deviate.pdf
.
Manual dan Walkthrough versi sebelumnya dapat ditemukan (di link github ini)
Tabel dimulai dengan beberapa baris header yang dilambangkan dengan #. Header ini berisi perkiraan jumlah penyisipan TE (jika dipilih) dan nama kolom. Setiap baris berhubungan dengan satu posisi barisan TE. Sejak versi 2, hq_cov
melaporkan cakupan basis berkualitas tinggi daripada pemetaan berkualitas tinggi, karena itu lebih menarik misalnya untuk data nanopore.
Kolom | Keterangan |
---|---|
TEfam | Nama keluarga TE yang dianalisis |
sample_id | masukan nama file |
pos | posisi dalam urutan referensi |
refbase | Nukleotida dalam urutan referensi pada posisi ini |
ACGT | jumlah setiap nukleotida pada posisi ini |
cov | cakupan total pada posisi ini |
hq_cov | cakupan pangkalan berkualitas tinggi saja (>Q15) |
snp | indikator untuk posisi varian |
delet | jumlah pengamatan kesenjangan |
Secara default, tidak ada normalisasi yang dilakukan dan jumlah yang dilaporkan adalah kelimpahan mentah, sehingga tidak cocok untuk membandingkan TE antar sampel. Oleh karena itu, dua strategi berbeda diterapkan, normalisasi per juta pembacaan yang dipetakan dan normalisasi dengan salinan gen tunggal.
--rpm
.--library
. Kemudian tambahkan --single_copy_genes GENE1 GENE2 GENE3 ...
, di mana GENE1 dll. adalah header di file perpustakaan. Perkiraan jumlah salinan per genom haploid ditulis ke bagian header dari tabel keluaran yang dihasilkan. Jika Anda menganalisis TE di Drosophila, menentukan --library
atau --annotation
urutan referensi adalah opsional. Secara default deviaTE secara otomatis mengunduh dan menggunakan perpustakaan TE dari https://github.com/bergmanlab/drosophila-transposons jika tidak ada perpustakaan dan anotasi yang diberikan.
Untuk normalisasi gen salinan tunggal di Drosophila, lima gen secara otomatis ditambahkan ke perpustakaan (Dmel_rpl32, Dmel_piwi, Dmel_Act5C, Dmel_RpII140, dan Dmel_p53), yang dapat digunakan untuk normalisasi:
--single_copy_genes Dmel_rpl32 Dmel_piwi ...
Anda dapat menggunakan DeviaTE untuk pembacaan berpasangan dengan memetakannya dalam mode baca tunggal.
Hal ini dapat dilakukan, misalnya, dengan menggunakan satu file fastq gabungan yang berisi kedua pasangan baca (read1 dan read2). (Tidak perlu lagi menggunakan skrip scripts/rename_reads.py
untuk memberi nama unik kepada sobat, ini dilakukan secara internal sejak 2.2.0)
Makalah yang menjelaskan deviaTE tersedia di sini: https://onlinelibrary.wiley.com/doi/10.1111/1755-0998.13030
@article{weilguny2019,
title = {{{DeviaTE}}: {{Assembly-free}} Analysis and Visualization of Mobile Genetic Element Composition},
author = {Weilguny, Lukas and Kofler, Robert},
year = {2019},
journal = {Molecular Ecology Resources},
volume = {19},
number = {5},
pages = {1346--1354},
doi = {10.1111/1755-0998.13030}
}
Jika Anda menemukan masalah, mempunyai pertanyaan atau ide untuk perbaikan lebih lanjut silakan gunakan pelacak masalah pada repositori ini, terima kasih!
deviaTE dilisensikan di bawah Lisensi GPLv3
Kode ini dicakup oleh pytests. Untuk menjalankan instalasi ini: pip install pytest pytest-cov
. Kemudian jalankan tes: cd tests; pytest --cov --cov-report html
. Untuk menguji build lokal: hatch build && pip install dist/deviate-2.2.0-py3-none-any.whl --force-reinstall --no-deps