smoove
簡化並加速了短讀長的 SV 調用和基因分型。它還通過消除許多表示低水平噪聲並經常導致虛假調用的虛假對齊信號來提高特異性。
這裡有一篇部落格文章更詳細地描述了smoove
它既支援單一命令中的小隊列,也支援總共 4 個步驟的總體層級調用,其中 2 個步驟是按樣本並行的。
這裡有一個關於smoove和duphold(smoove使用的)的精確率和召回率的表格
它需要:
以及可選(但強烈建議):
運行不帶任何參數的smoove
將顯示找到了哪些,以便可以根據需要將它們添加到 PATH 中。
smoove
將:
lumpy_filter
以提取lumpy所需的分割和不一致的讀取lumpy_filter
呼叫以刪除高覆蓋率、虛假區域和使用者指定的色度,例如「hs37d5」;它還會刪除我們發現的可能是虛假訊號的讀數。之後,它將從不一致的 bam 中刪除單例讀取(其中配對已被先前的過濾器之一刪除)。這使得lumpy
變得更快並且更少佔用記憶體。你可以透過(一個大的)docker 映像來取得smoove
和所有相依性:
docker pull brentp/smoove
docker run -it brentp/smoove smoove -h
或者,您可以從此處下載smoove
二進位:https://github.com/brentp/smoove/releases 當不帶任何參數運行時, smoove
將向您顯示它可以找到哪些依賴項,以便您可以調整$PATH並安裝因此。
對於小群體,可以透過單一指令獲得聯合調用的基因分型 VCF。
smoove call -x --name my-cohort --exclude $bed --fasta $reference_fasta -p $threads --genotype /path/to/*.bam
輸出將轉到./my-cohort-smoove.genotyped.vcf.gz
強烈建議--exclude $bed
,因為它可用於忽略與有問題區域重疊的讀取。
這裡有一組很好的 GRCh37 區域。
對於 hg38 這裡
對於人群層級的呼叫(大群體),步驟是:
smoove call --outdir results-smoove/ --exclude $bed --name $sample --fasta $reference_fasta -p 1 --genotype /path/to/$sample.bam
對於大型隊列,最好跨樣本並行化,而不是每個樣本使用大量執行緒。 smoove
只能在單一樣本上並行化最多 2 或 3 個線程,並且使用 1 個線程的效率最高。
輸出將會轉到“results-smoove/$sample-smoove.genotyped.vcf.gz”
# this will create ./merged.sites.vcf.gz
smoove merge --name merged -f $reference_fasta --outdir ./ results-smoove/*.genotyped.vcf.gz
smoove genotype -d -x -p 1 --name $sample-joint --outdir results-genotped/ --fasta $reference_fasta --vcf merged.sites.vcf.gz /path/to/$sample.$bam
smoove paste --name $cohort results-genotyped/*.vcf.gz
smoove annotate --gff Homo_sapiens.GRCh37.82.gff3.gz $cohort.smoove.square.vcf.gz | bgzip -c > $cohort.smoove.square.anno.vcf.gz
這會為每個樣本格式加上SHQ
(Smoove Het Quality)標籤),值4 表示高品質呼叫,值 1 表示低品質。 -1 是非het。它還將平均 SHQ 的MSHQ
添加到 INFO 字段,這是該變體的所有雜合樣本的平均 SHQ 分數。
作為第一遍, DHFFC < 0.7
可以尋找DHFFC > 1.25
> 3 的變體。
出現諸如Segmentation fault (core dumped) | bcftools view -O z -c 1 -o
可能表示您擁有舊版的 bcftools。見#10
smoove
將寫入系統 TMPDIR。對於大型群組,請確保將其設定為具有大量空間的值。例如export TMPDIR=/path/to/big
smoove
需要最新版本的lumpy
和lumpy_filter
因此從原始碼建立它們或取得最新的bioconda 版本。
sv工具