Isling เป็นเครื่องมือในการตรวจจับการรวมไวรัสหรือเวกเตอร์ในการอ่านแบบจับคู่ โปรดอ่านกระดาษของเราสำหรับรายละเอียดทั้งหมด
หากคุณติดตั้ง conda
และ snakemake
เพื่อทำงานกับข้อมูลทดสอบ (รวม) ในเครื่อง:
git clone https://github.com/aehrc/isling.git && cd isling
snakemake --configfile test/config/test.yml --cores <cores> --use-conda
หากคุณติดตั้ง snakemake
และ singularity
คุณสามารถใช้แทน:
snakemake --configfile test/config/test.yml --cores <cores> --use-singularity
หรือถ้าคุณติดตั้ง Docker บน MacOS คุณสามารถเรียกใช้:
docker run --rm -it -v"$(pwd)"/out:/opt/isling/out szsctt/isling:latest snakemake --configfile test/config/test.yml --cores 1
สิ่งนี้จะใช้ไฟล์ config และข้อมูลภายในคอนเทนเนอร์และผลลัพธ์จะปรากฏในโฟลเดอร์ที่เรียก out
ในไดเรกทอรีการทำงานปัจจุบันของคุณ บน Linux คุณจะต้องเรียกใช้คำสั่งนี้เป็นรูทและบน Windows คุณจะต้องปรับไวยากรณ์ Bind -Mount (อาร์กิวเมนต์ -v
)
ข้อมูลอินพุต (การอ่านและการอ้างอิงโฮสต์และไวรัส) ถูกระบุ NI ไฟล์กำหนดค่า - สำหรับข้อมูลของคุณเองคุณจะต้องแก้ไขตัวอย่างไฟล์กำหนดค่า ( test/config/test.yml
) เพื่อชี้ไปที่ข้อมูลของคุณเอง ดู configfile.md
สำหรับข้อมูลเพิ่มเติมเกี่ยวกับรูปแบบของไฟล์ config
ไปป์ไลน์ดำเนินการหลายขั้นตอนเพื่อระบุไซต์การรวม ใช้เป็นชุดข้อมูลอินพุตที่ประกอบด้วยไฟล์ FASTQ หรือไฟล์ BAM มันทำการประมวลผลล่วงหน้าของการอ่าน (การรวมการอ่านที่ทับซ้อนกันเป็นทางเลือก) จากนั้นจัดตำแหน่งให้เป็นทั้งโฮสต์และลำดับไวรัส การอ่านจะจัดเรียงเป็นลำดับแรกกับลำดับของไวรัสจากนั้นจัดตำแหน่งการอ่านจะถูกสกัดและจัดแนวกับโฮสต์ การจัดตำแหน่งเหล่านี้ใช้เพื่อระบุการรวมไวรัส
Isling ต้องการ snakemake
และ singularity
(แนะนำ) หรือ conda
เพื่อการพึ่งพาการจัดหา เพิ่มเติม, python
เวอร์ชัน 3.5 หรือสูงกว่าและต้องใช้ pandas
(ควรติดตั้งโดยอัตโนมัติหากติดตั้ง snakemake
ด้วย conda
Alternativley ใช้เวอร์ชัน Docker ซึ่งมี Isling และการพึ่งพาทั้งหมด
อินพุตที่ต้องการคือไฟล์กำหนดค่าซึ่ง specfies โฮสต์และการอ้างอิงไวรัส/เวกเตอร์และจำเป็นต้องอ่าน ระบุอินพุตทั้งหมดในไฟล์กำหนดค่า ปัจจุบัน Isling ใช้งานได้สำหรับการอ่านแบบจับคู่เท่านั้น
ดูไฟล์ configfile.md
สำหรับคำอธิบายของรูปแบบของไฟล์กำหนดค่านี้
ไซต์การรวมเอาต์พุต Isling ในรูปแบบที่คั่นด้วยแท็บในไดเรกทอรีเอาต์พุตที่ระบุในไฟล์กำหนดค่า
ภายในโฟลเดอร์เอาท์พุทโฟลเดอร์หนึ่งจะถูกสร้างขึ้นสำหรับแต่ละชุดข้อมูลในไฟล์กำหนดค่าและสำหรับแต่ละชุดข้อมูลการรวมสามารถพบได้ในไดเรกทอรี ints
จะมีไฟล์เอาต์พุตหนึ่งชุดสำหรับแต่ละตัวอย่าง
สำหรับแต่ละตัวอย่างมีไฟล์เอาต์พุตจำนวนหนึ่งซึ่งอาจเป็นที่สนใจสำหรับกรณีการใช้งานเฉพาะ
<sample>.<host>.<virus>.integrations.txt
: ข้อมูลเกี่ยวกับทางแยกที่ตรวจพบทั้งหมดโดยไม่คำนึงว่าพวกเขาผ่านตัวกรองหรือไม่<sample>.<host>.<virus>.integrations.post.txt
: ข้อมูลเกี่ยวกับการตรวจจับทางแยกที่ผ่านตัวกรองทั้งหมด<sample>.<host>.<virus>.integrations.post.unique.txt
: ข้อมูลเกี่ยวกับทางแยกที่ตรวจพบซึ่งผ่านตัวกรองทั้งหมดและมีตำแหน่งที่ไม่คลุมเครือทั้งในโฮสต์และเวกเตอร์/ไวรัส<sample>.<host>.<virus>.integrations.post.unique.merged.txt
: ผลลัพธ์ของการรวมทางแยกที่ทับซ้อนกันหรือทางแยกกับพิกัดเดียวกันทั้งในโฮสต์และไวรัส/เวกเตอร์ การผสานจะดำเนินการโดยเฉพาะทางแยกการรวมที่มีตำแหน่งที่ชัดเจนในทั้งโฮสต์และไวรัส/เวกเตอร์<sample>.<host>.<virus>.integrations.post.host_ambig.txt
: ข้อมูลเกี่ยวกับทางแยกที่ตรวจพบซึ่งผ่านตัวกรองทั้งหมดและมีเวกเตอร์/ไวรัสที่ไม่คลุมเครือ แต่ตำแหน่งที่คลุมเครือในโฮสต์<sample>.<host>.<virus>.integrations.post.virus_ambig.txt
: ข้อมูลเกี่ยวกับทางแยกที่ตรวจพบซึ่งผ่านตัวกรองทั้งหมดและมีตำแหน่งที่ไม่คลุมเครือ แต่ตำแหน่งที่คลุมเครือในเวกเตอร์/ไวรัส<sample>.<host>.<virus>.integrations.post.both_ambig.txt
: ข้อมูลเกี่ยวกับทางแยกที่ตรวจพบซึ่งผ่านตัวกรองทั้งหมดและมีตำแหน่งที่คลุมเครือทั้งในโฮสต์และเวกเตอร์/ไวรัส ไฟล์เอาต์พุตให้ตำแหน่งของการรวมที่ระบุและคุณสมบัติของพวกเขา มีการระบุพิกัดสำหรับการรวมการรวมกันในแง่ของฐานที่คลุมเครือ นั่นคือมักจะมีช่องว่างหรือซ้อนทับระหว่างโฮสต์และส่วนของไวรัสของการอ่าน:
เนื่องจากตำแหน่งของการรวมไม่สามารถกำหนดได้อย่างไม่ซ้ำกันในกรณีนี้ isling ส่งออกพิกัดของฐานเหล่านี้ในโฮสต์และจีโนมเวกเตอร์/ไวรัสเป็นที่ตั้งของการรวม
ด้วยข้อยกเว้นของไฟล์เอาต์พุตคลัสเตอร์ที่ผสานไฟล์ทั้งหมดมีคอลัมน์เหล่านี้:
gap
หรือ overlap
สำหรับการอ่าน chimieric (โฮสต์และชิ้นส่วนที่ระบุในการอ่านเดียวกัน) ทางแยกนั้น clean
หากไม่มีฐานที่คลุมเครือ อีกทางเลือกหนึ่ง OverlapType
มีการระบุ jucntion เป็นคู่ที่ discordant
ลงรอยกันhv
) หรือไวรัส/โฮสต์ ( vh
)+
หรือ -
bwa
) ของการจัดตำแหน่งโฮสต์bwa
) ของการจัดตำแหน่งไวรัสOverlapType
คือ gap
chimeric
คู่ discordant
หรือเป็นการรวม short
ที่พบทางแยกทั้งสองในการอ่านเดียวกันbwa
)bwa
)'xxx'
ในการทำซ้ำตัวเลขในต้นฉบับ Isling ให้ดูที่ readme ในไดเรกทอรี benchmarking