Isling adalah alat untuk mendeteksi integrasi viral atau vektor dalam bacaan berpasangan. Harap baca makalah kami untuk detail lengkap.
Jika Anda telah menginstal conda
dan snakemake
, untuk menjalankan dengan data uji (termasuk) secara lokal:
git clone https://github.com/aehrc/isling.git && cd isling
snakemake --configfile test/config/test.yml --cores <cores> --use-conda
Jika Anda memiliki snakemake
dan singularity
yang diinstal, Anda dapat menggunakan sebagai gantinya:
snakemake --configfile test/config/test.yml --cores <cores> --use-singularity
Atau, jika Anda telah menginstal Docker, pada macOS Anda dapat menjalankan:
docker run --rm -it -v"$(pwd)"/out:/opt/isling/out szsctt/isling:latest snakemake --configfile test/config/test.yml --cores 1
Ini akan menggunakan file konfigurasi dan data di dalam wadah, dan hasilnya akan muncul di folder yang out
di direktori kerja Anda saat ini. Di Linux, Anda harus menjalankan perintah ini sebagai root, dan pada windows Anda perlu menyesuaikan sintaks bind -mount ( -v
argumen).
Data input (membaca dan host dan referensi viral) ditentukan oleh file konfigurasi - untuk data Anda sendiri, Anda harus memodifikasi contoh file konfigurasi ( test/config/test.yml
) untuk menunjuk ke data Anda sendiri. Lihat configfile.md
untuk informasi lebih lanjut tentang format file konfigurasi.
Pipa melakukan beberapa langkah untuk mengidentifikasi situs integrasi. Dibutuhkan sebagai dataset input yang terdiri dari file FastQ atau file BAM. Ini melakukan beberapa pra-pemrosesan bacaan (menggabungkan bacaan yang tumpang tindih, opsional) dan kemudian menyelaraskannya dengan host dan urutan virus. Bacaan pertama kali disejajarkan dengan urutan virus, dan kemudian bacaan yang disejajarkan diekstraksi dan disejajarkan dengan host. Penyelarasan ini digunakan untuk mengidentifikasi integrasi virus.
Isling membutuhkan snakemake
dan singularity
(disarankan) atau conda
untuk memasok dependensi. Selain itu, python
Versi 3.5 atau di atas dan pandas
diperlukan (ini harus diinstal secara otomatis jika memasang snakemake
dengan conda
.
Alternativley, gunakan versi Docker yang berisi isling dan semua dependensi.
Input yang diperlukan adalah file konfigurasi, yang menentukan referensi host dan viral/vektor, dan dibaca diperlukan. Tentukan semua input dalam file konfigurasi. Isling saat ini hanya berfungsi untuk bacaan berpasangan.
Lihat file configfile.md
untuk deskripsi format file konfigurasi ini.
Isling Outputs Situs Integrasi Dalam format yang dipisahkan tab di direktori output yang ditentukan dalam file konfigurasi.
Di dalam folder output, satu folder dibuat untuk setiap dataset dalam file konfigurasi, dan untuk setiap dataset, integrasi dapat ditemukan di direktori ints
. Akan ada satu set file output untuk setiap sampel.
Untuk setiap sampel, ada sejumlah file output, yang mungkin menarik untuk kasus penggunaan tertentu.
<sample>.<host>.<virus>.integrations.txt
: informasi tentang semua persimpangan yang terdeteksi, terlepas dari apakah mereka melewati filter atau tidak<sample>.<host>.<virus>.integrations.post.txt
: Informasi tentang persimpangan yang terdeteksi yang melewati semua filter<sample>.<host>.<virus>.integrations.post.unique.txt
: Informasi tentang persimpangan yang terdeteksi yang melewati semua filter dan memiliki lokasi yang tidak ambigu di host dan vektor/virus<sample>.<host>.<virus>.integrations.post.unique.merged.txt
: Hasil penggabungan persimpangan atau persimpangan yang tumpang tindih dengan koordinat yang sama dalam host dan virus/vektor. Penggabungan dilakukan dengan hanya persimpangan integrasi yang memiliki lokasi yang tidak ambigu di baik host dan virus/vektor.<sample>.<host>.<virus>.integrations.post.host_ambig.txt
: Informasi tentang persimpangan yang terdeteksi yang melewati semua filter dan memiliki vektor/virus lokasi yang tidak ambigu tetapi lokasi yang ambigu di host di host<sample>.<host>.<virus>.integrations.post.virus_ambig.txt
: Informasi tentang persimpangan yang terdeteksi yang melewati semua filter dan memiliki host lokasi yang tidak ambigu tetapi lokasi yang ambigu di vektor/virus<sample>.<host>.<virus>.integrations.post.both_ambig.txt
: Informasi tentang persimpangan yang terdeteksi yang melewati semua filter dan memiliki lokasi yang ambigu di host dan vektor/virus File output memberikan lokasi integrasi yang diidentifikasi, dan propertinya. Koordinat untuk persimpangan integrasi ditentukan dalam hal basis ambigu mereka. Artinya, sering ada celah atau tumpang tindih antara host dan bagian virus dari bacaan:
Karena lokasi integrasi tidak dapat ditentukan secara unik dalam kasus ini, Isling menghasilkan koordinat basis ini dalam host dan genom vektor/virus sebagai lokasi integrasi.
Dengan pengecualian file output cluster gabungan, semua file berisi kolom ini:
gap
atau overlap
untuk bacaan chimieric (host dan dan bagian virus yang diidentifikasi pada bacaan yang sama), persimpangan clean
jika tidak memiliki basa ambigu. Atau, jika jucntion diidentifikasi dalam pasangan sumbang, OverlapType
adalah discordant
hv
) atau virus/inang ( vh
)+
atau -
bwa
) dari penyelarasan hostbwa
) dari perataan virusOverlapType
adalah gap
chimeric
, pasangan discordant
atau apakah itu integrasi short
di mana kedua persimpangan diamati dalam bacaan yang samabwa
)bwa
)'xxx'
Untuk mereproduksi angka -angka dalam naskah Isling, lihat readme di direktori benchmarking
.