Isling是在配對末端讀取中檢測病毒或向量積分的工具。請閱讀我們的論文以獲取完整的詳細信息。
如果您安裝了conda
和snakemake
,請在本地使用(隨附的)測試數據運行:
git clone https://github.com/aehrc/isling.git && cd isling
snakemake --configfile test/config/test.yml --cores <cores> --use-conda
如果您安裝了snakemake
和singularity
,則可以使用:
snakemake --configfile test/config/test.yml --cores <cores> --use-singularity
另外,如果您安裝了Docker,則可以在MacOS上運行:
docker run --rm -it -v"$(pwd)"/out:/opt/isling/out szsctt/isling:latest snakemake --configfile test/config/test.yml --cores 1
這將使用容器內的配置文件和數據,結果將出現在當前工作目錄中out
的文件夾中。在Linux上,您需要將此命令作為root運行,在Windows上,您需要調整綁定安裝語法( -v
參數)。
輸入數據(讀取和主機和病毒引用)已指定為ni a config文件 - 對於您自己的數據,您需要修改示例配置文件( test/config/test.yml
),以指向您自己的數據。有關配置文件格式的更多信息,請參見configfile.md
。
管道執行多個步驟以識別集成站點。它作為由FASTQ文件或BAM文件組成的輸入數據集。它對讀取(合併重疊讀數,可選)進行了一些預處理,然後將它們對齊到宿主和病毒序列。首先將讀取與病毒序列對齊,然後將對齊的讀數提取並與宿主排列。這些比對用於識別病毒整合。
ISLING需要snakemake
和singularity
(推薦)或conda
來提供依賴性。額外的, python
版本3.5或更高版本以及pandas
(如果使用conda
安裝snakemake
,則應自動安裝這些版本。
Alternativley,使用包含Isling和所有依賴項的Docker版本。
所需的輸入是配置文件,該文件指定主機和病毒/向量引用,並且需要讀取。在配置文件中指定所有輸入。 ISLING當前僅適用於配對讀取。
有關此配置文件格式的說明,請參見文件configfile.md
。
ISLING輸出集成站點在配置文件中指定的輸出目錄中以選項卡分隔格式。
在輸出文件夾中,為配置文件中的每個數據集創建一個文件夾,對於每個數據集,可以在ints
目錄中找到集成。每個示例將有一組輸出文件。
對於每個示例,都有許多輸出文件,對於特定用例可能會很感興趣。
<sample>.<host>.<virus>.integrations.txt
:有關所有檢測到的連接的信息,無論他們是否通過過濾器<sample>.<host>.<virus>.integrations.post.txt
:有關通過所有過濾器的檢測到的連接的信息<sample>.<host>.<virus>.integrations.post.unique.txt
:有關通過所有過濾器的檢測到的連接的信息,並且在主機和向量/病毒中都有明確的位置<sample>.<host>.<virus>.integrations.post.unique.merged.txt
:在主機和病毒/載體中合併重疊連接或與相同坐標的重疊連接或連接的結果。合併僅使用在宿主和病毒/載體中都有明確位置的集成連接進行進行合併。<sample>.<host>.<virus>.integrations.post.host_ambig.txt
:有關通過所有過濾器並具有明確的位置向量/病毒但在主機中具有含糊位置的檢測到的連接的信息<sample>.<host>.<virus>.integrations.post.virus_ambig.txt
:有關通過所有過濾器並具有明確位置主機但位於矢量/病毒中模棱兩可的位置的檢測到的連接的信息<sample>.<host>.<virus>.integrations.post.both_ambig.txt
:有關通過所有過濾器的檢測到的連接的信息輸出文件給出了已確定的集成及其屬性的位置。根據其模棱兩可的基礎,指定了集成連接的坐標。也就是說,讀物的宿主和病毒部分之間通常存在差距或重疊:
由於在這種情況下不能唯一確定積分的位置,因此ISLING輸出這些鹼基的坐標和載體/病毒基因組作為整合的位置。
除了合併的群集輸出文件外,所有文件都包含以下列:
gap
或overlap
(在同一讀取中識別出的主機和病毒部分),如果沒有模棱兩可的基礎,則連接很clean
。另外,如果在不一致的對中識別出Jucntion, OverlapType
是discordant
hv
)或病毒/宿主( vh
)的方向+
或-
bwa
)bwa
)OverlapType
為gap
則含糊的基礎數chimeric
讀物中觀察到的連接,是discordant
一對還是一個short
集成,在同一讀取中都觀察到兩個連接bwa
)bwa
)'xxx'
分開要重現Isling手稿中的數字,請參見benchmarking
目錄中的讀數。