smoove
ช่วยลดความยุ่งยากและเพิ่มความเร็วในการเรียกและจีโนไทป์ SV สำหรับการอ่านสั้นๆ นอกจากนี้ยังปรับปรุงความจำเพาะโดยการลบสัญญาณการจัดตำแหน่งปลอมๆ จำนวนมากที่บ่งบอกถึงสัญญาณรบกวนระดับต่ำและมักมีส่วนทำให้เกิดการโทรปลอม
มีบล็อกโพสต์ที่อธิบาย smoove
ละเอียดเพิ่มเติมที่นี่
ทั้งสองรองรับกลุ่มประชากรตามรุ่นขนาดเล็กในคำสั่งเดียว และการเรียกระดับประชากรด้วยขั้นตอนทั้งหมด 4 ขั้นตอน โดย 2 ขั้นตอนขนานกันตามตัวอย่าง
มีตารางเกี่ยวกับความแม่นยำและการเรียกคืน smoove และ duphold (ซึ่งใช้โดย smoove) ที่นี่
มันต้องการ:
และเป็นทางเลือก (แต่ขอแนะนำอย่างยิ่ง):
การรัน smoove
โดยไม่มีข้อโต้แย้งใด ๆ จะแสดงว่าสิ่งใดที่พบเพื่อให้สามารถเพิ่มลงใน PATH ได้ตามต้องการ
smoove
จะ:
lumpy_filter
เพื่อแยกการอ่านแบบแยกและไม่ลงรอยกันที่ต้องการโดย lumpylumpy_filter
เพิ่มเติมเพื่อลบพื้นที่ที่มีการครอบคลุมสูง พื้นที่ปลอมแปลง และโครเมียมที่ผู้ใช้ระบุ เช่น 'hs37d5' นอกจากนี้ยังจะลบการอ่านที่เราพบว่าอาจเป็นสัญญาณปลอมด้วย หลังจากนี้ มันจะลบการอ่านซิงเกิลตัน (โดยที่คู่ถูกลบออกโดยตัวกรองตัวใดตัวหนึ่งก่อนหน้านี้) ออกจาก bams ที่ไม่ลงรอยกัน ทำให้ lumpy
เร็วขึ้นมากและกินหน่วยความจำน้อยลง คุณสามารถรับ smoove
และการอ้างอิงทั้งหมดผ่านอิมเมจนักเทียบท่า (ขนาดใหญ่):
docker pull brentp/smoove
docker run -it brentp/smoove smoove -h
หรือคุณสามารถดาวน์โหลด smoove
binary ได้จากที่นี่: https://github.com/brentp/smoove/releases เมื่อทำงานโดยไม่มีข้อโต้แย้งใดๆ smoove
จะแสดงให้คุณเห็นว่าการขึ้นต่อกันใดที่สามารถค้นหาได้ เพื่อให้คุณสามารถปรับ $PATH และติดตั้งได้ ตามนั้น
สำหรับกลุ่มประชากรตามรุ่นขนาดเล็ก เป็นไปได้ที่จะได้รับ VCF แบบจีโนไทป์ที่เรียกร่วมกันใน คำสั่งเดียว
smoove call -x --name my-cohort --exclude $bed --fasta $reference_fasta -p $threads --genotype /path/to/*.bam
เอาต์พุตจะไปที่ ./my-cohort-smoove.genotyped.vcf.gz
แนะนำให้ใช้ --exclude $bed
เนื่องจากสามารถใช้เพื่อละเว้นการอ่านที่ทับซ้อนกับขอบเขตที่เป็นปัญหา
ชุดภูมิภาคที่ดีสำหรับ GRCh37 อยู่ที่นี่แล้ว
และสำหรับ hg38 ที่นี่
สำหรับการโทรระดับประชากร (กลุ่มประชากรตามรุ่นขนาดใหญ่) ขั้นตอนมีดังนี้:
smoove call --outdir results-smoove/ --exclude $bed --name $sample --fasta $reference_fasta -p 1 --genotype /path/to/$sample.bam
สำหรับกลุ่มประชากรตามรุ่นขนาดใหญ่ เป็นการดีกว่าที่จะขนานข้ามกลุ่มตัวอย่าง แทนที่จะใช้ $threads จำนวนมากต่อตัวอย่าง smoove
สามารถขนานได้สูงสุด 2 หรือ 3 เธรดในตัวอย่างเดียว และมีประสิทธิภาพมากที่สุดในการใช้ 1 เธรด
เอาต์พุตจะไปที่ `results-smoove/$sample-smoove.genotyped.vcf.gz``
# this will create ./merged.sites.vcf.gz
smoove merge --name merged -f $reference_fasta --outdir ./ results-smoove/*.genotyped.vcf.gz
smoove genotype -d -x -p 1 --name $sample-joint --outdir results-genotped/ --fasta $reference_fasta --vcf merged.sites.vcf.gz /path/to/$sample.$bam
smoove paste --name $cohort results-genotyped/*.vcf.gz
smoove annotate --gff Homo_sapiens.GRCh37.82.gff3.gz $cohort.smoove.square.vcf.gz | bgzip -c > $cohort.smoove.square.anno.vcf.gz
ซึ่งจะเป็นการเพิ่มแท็ก SHQ
(Smoove Het Quality) ให้กับทุกรูปแบบตัวอย่าง) ค่า 4 คือการโทรคุณภาพสูง และค่า 1 คือคุณภาพต่ำ -1 ไม่ใช่เฮ็ด นอกจากนี้ยังเพิ่ม MSHQ
สำหรับ Mean SHQ ลงในฟิลด์ INFO ซึ่งเป็นคะแนน SHQ เฉลี่ยของตัวอย่างเฮเทอโรไซกัสทั้งหมดสำหรับตัวแปรนั้น
ในครั้งแรกที่ผ่านไป ผู้ใช้สามารถค้นหารูปแบบที่มี MSHQ > 3 ได้ หากคุณเพิ่มคำอธิบายประกอบแบบซ้ำ การตรวจสอบการลบด้วย DHFFC < 0.7
และการทำซ้ำด้วย DHFFC > 1.25
ก็มีประโยชน์เช่นกัน
เกิดความตื่นตระหนกด้วยข้อความเช่น Segmentation fault (core dumped) | bcftools view -O z -c 1 -o
น่าจะหมายความว่าคุณมี bcftools เวอร์ชันเก่า ดู #10
smoove
จะเขียนไปยังระบบ TMPDIR สำหรับกลุ่มประชากรตามรุ่นขนาดใหญ่ ตรวจสอบให้แน่ใจว่าได้ตั้งค่านี้เป็นรายการที่มีพื้นที่มาก เช่น export TMPDIR=/path/to/big
smoove
ต้องการเวอร์ชันล่าสุดของ lumpy
และ lumpy_filter
ดังนั้นให้สร้างจากแหล่งที่มาหรือรับ bioconda เวอร์ชันล่าสุด
svtools