يعمل smoove
على تبسيط وتسريع الاتصال والتنميط الجيني لـ SVs للقراءات القصيرة. كما أنه يعمل على تحسين الخصوصية عن طريق إزالة العديد من إشارات المحاذاة الزائفة التي تشير إلى ضوضاء منخفضة المستوى وغالبًا ما تساهم في المكالمات الزائفة.
يوجد منشور مدونة يصف smoove
بمزيد من التفاصيل هنا
كلاهما يدعم مجموعات صغيرة في أمر واحد، والاتصال على مستوى السكان من خلال 4 خطوات إجمالية، 2 منها متوازية حسب العينة.
يوجد جدول حول دقة واسترجاع smoove وduphold (الذي يستخدمه smoove) هنا
يتطلب:
واختياريًا (ولكن يوصى بشدة بكل ذلك):
سيؤدي تشغيل smoove
بدون أي وسيطات إلى إظهار أي منها تم العثور عليه حتى يمكن إضافتها إلى PATH حسب الحاجة.
سوف smoove
:
lumpy_filter
لاستخراج القراءات المنقسمة والمتنافرة التي تتطلبها Lumpylumpy_filter
لإزالة التغطية العالية والمناطق الزائفة والكروم المحدد من قبل المستخدم مثل 'hs37d5'؛ سيؤدي أيضًا إلى إزالة القراءات التي وجدنا أنها إشارات زائفة على الأرجح. بعد ذلك، سيتم إزالة القراءات المفردة (حيث تمت إزالة الشريك بواسطة أحد المرشحات السابقة) من الـ bams المتنافرة. وهذا يجعل lumpy
أسرع بكثير وأقل استهلاكًا للذاكرة. يمكنك الحصول على smoove
وجميع التبعيات عبر صورة عامل ميناء (كبيرة):
docker pull brentp/smoove
docker run -it brentp/smoove smoove -h
أو يمكنك تنزيل smoove
ثنائي من هنا: https://github.com/brentp/smoove/releases عند التشغيل بدون أي وسيطات، سيُظهر لك smoove
تبعياته التي يمكنه العثور عليها حتى تتمكن من ضبط $PATH الخاص بك وتثبيته وفقاً لذلك.
بالنسبة للأفواج الصغيرة، من الممكن الحصول على VCF مُسمى بشكل مشترك ومُصمم وراثيًا في أمر واحد .
smoove call -x --name my-cohort --exclude $bed --fasta $reference_fasta -p $threads --genotype /path/to/*.bam
سينتقل الإخراج إلى ./my-cohort-smoove.genotyped.vcf.gz
يوصى بشدة --exclude $bed
لأنه يمكن استخدامه لتجاهل القراءات التي تتداخل مع المناطق التي بها مشكلات.
توجد هنا مجموعة جيدة من المناطق لـ GRCh37.
وبالنسبة لhg38 هنا
بالنسبة للاتصال على مستوى السكان (الأفواج الكبيرة) فإن الخطوات هي:
smoove call --outdir results-smoove/ --exclude $bed --name $sample --fasta $reference_fasta -p 1 --genotype /path/to/$sample.bam
بالنسبة للمجموعات الكبيرة، من الأفضل التوازي عبر العينات بدلاً من استخدام سلاسل عمليات $ كبيرة لكل عينة. يمكن لـ smoove
موازنة ما يصل إلى 2 أو 3 سلاسل فقط في عينة واحدة، والأكثر فعالية هو استخدام خيط واحد.
سينتقل الإخراج إلى `results-smoove/$sample-smoove.genotyped.vcf.gz``
# this will create ./merged.sites.vcf.gz
smoove merge --name merged -f $reference_fasta --outdir ./ results-smoove/*.genotyped.vcf.gz
smoove genotype -d -x -p 1 --name $sample-joint --outdir results-genotped/ --fasta $reference_fasta --vcf merged.sites.vcf.gz /path/to/$sample.$bam
smoove paste --name $cohort results-genotyped/*.vcf.gz
smoove annotate --gff Homo_sapiens.GRCh37.82.gff3.gz $cohort.smoove.square.vcf.gz | bgzip -c > $cohort.smoove.square.anno.vcf.gz
يؤدي هذا إلى إضافة علامة SHQ
(Smoove Het Quality) إلى كل تنسيق نموذجي) القيمة 4 هي مكالمة عالية الجودة والقيمة 1 هي جودة منخفضة. -1 غير هيت. كما أنه يضيف MSHQ
لمتوسط SHQ إلى حقل INFO وهو متوسط نقاط SHQ عبر كافة العينات المتغايرة لهذا المتغير.
كخطوة أولى، يمكن للمستخدمين البحث عن المتغيرات باستخدام MSHQ > 3. إذا قمت بإضافة تعليقات توضيحية duphold، فمن المفيد أيضًا التحقق من عمليات الحذف باستخدام DHFFC < 0.7
والتكرارات باستخدام DHFFC > 1.25
.
حالة من الذعر مع رسالة مثل Segmentation fault (core dumped) | bcftools view -O z -c 1 -o
من المحتمل أن يعني أن لديك إصدارًا قديمًا من bcftools. انظر رقم 10
سوف يقوم smoove
بالكتابة إلى النظام TMPDIR. بالنسبة للمجموعات الكبيرة، تأكد من ضبط هذا على شيء به مساحة كبيرة. على سبيل المثال، export TMPDIR=/path/to/big
يتطلب smoove
إصدارًا حديثًا من lumpy
و lumpy_filter
، لذا قم ببناء تلك الإصدارات من المصدر أو احصل على أحدث إصدار من bioconda.
com.svtools