smoove
、ショートリードの SV の呼び出しとジェノタイピングを簡素化し、高速化します。また、低レベルのノイズを示し、しばしばスプリアス コールの原因となる多くのスプリアス アライメント信号を除去することで、特異性も向上します。
ここにsmoove
について詳しく説明したブログ投稿があります
単一のコマンドで小規模なコホートをサポートすることと、合計 4 つのステップ (そのうち 2 つはサンプルごとに並列) による母集団レベルの呼び出しの両方をサポートします。
ここに、smoove と duphold (smoove で使用される) の精度と再現率に関する表があります。
それには以下が必要です:
オプションで (ただし、すべて強くお勧めします):
引数を指定せずにsmoove
実行すると、これらのどれが見つかったかが表示されるので、必要に応じて PATH に追加できます。
smoove
:
lumpy_filter
への呼び出しを並列化して、Lumpy に必要な分割読み取りと不一致読み取りを抽出します。lumpy_filter
呼び出しをフィルタリングして、高カバレッジ、スプリアス領域、および「hs37d5」などのユーザー指定のクロムを削除します。また、スプリアス信号である可能性が高いことが判明した読み取りも削除されます。この後、不一致な BAM からシングルトン リード (前のフィルターの 1 つによってメイトが削除されたもの) が削除されます。これにより、 lumpy
大幅に高速化され、メモリ消費量が減ります。(大きな) Docker イメージを介して、 smoove
とすべての依存関係を取得できます。
docker pull brentp/smoove
docker run -it brentp/smoove smoove -h
または、ここからsmoove
バイナリをダウンロードできます: https://github.com/brentp/smoove/releases 引数なしで実行すると、 smoove
見つけられる依存関係を表示するので、$PATH を調整してインストールできます。それに応じて。
小規模なコホートの場合は、単一のコマンドで共同で呼び出された遺伝子型別 VCF を取得することが可能です。
smoove call -x --name my-cohort --exclude $bed --fasta $reference_fasta -p $threads --genotype /path/to/*.bam
出力は./my-cohort-smoove.genotyped.vcf.gz
に移動します。
--exclude $bed
問題のある領域と重複する読み取りを無視するために使用できるため、強くお勧めします。
GRCh37 の優れたリージョンのセットはここにあります。
そしてhg38についてはこちら
集団レベルの呼び出し (大規模コホート) の手順は次のとおりです。
smoove call --outdir results-smoove/ --exclude $bed --name $sample --fasta $reference_fasta -p 1 --genotype /path/to/$sample.bam
大規模なコホートの場合は、サンプルごとに大きな $threads を使用するよりも、サンプル間で並列化する方が良いでしょう。 smoove
単一サンプルで最大 2 または 3 スレッドまでしか並列化できず、1 スレッドを使用するのが最も効率的です。
出力は `results-smoove/$sample-smoove.genotyped.vcf.gz` に送られます。
# this will create ./merged.sites.vcf.gz
smoove merge --name merged -f $reference_fasta --outdir ./ results-smoove/*.genotyped.vcf.gz
smoove genotype -d -x -p 1 --name $sample-joint --outdir results-genotped/ --fasta $reference_fasta --vcf merged.sites.vcf.gz /path/to/$sample.$bam
smoove paste --name $cohort results-genotyped/*.vcf.gz
smoove annotate --gff Homo_sapiens.GRCh37.82.gff3.gz $cohort.smoove.square.vcf.gz | bgzip -c > $cohort.smoove.square.anno.vcf.gz
これにより、 SHQ
(Smoove Het Quality) タグがすべてのサンプル形式に追加されます) 値4 は高品質の呼び出しであり、値 1 は低品質です。 -1 は非加熱です。また、そのバリアントのすべてのヘテロ接合サンプルにわたる平均 SHQ スコアである平均 SHQ のMSHQ
INFO フィールドに追加します。
最初のパスとして、ユーザーは MSHQ > 3 のバリアントを探すことができます。 duphold アノテーションを追加した場合は、 DHFFC < 0.7
の削除とDHFFC > 1.25
の重複をチェックすることも役立ちます。
Segmentation fault (core dumped) | bcftools view -O z -c 1 -o
古いバージョンの bcftools を使用していることを意味する可能性があります。 #10を参照
smoove
システム TMPDIR に書き込みます。大規模なコホートの場合は、これを十分なスペースのある値に設定してください。たとえば、 export TMPDIR=/path/to/big
smoove
最新バージョンのlumpy
とlumpy_filter
必要なので、それらをソースからビルドするか、最新の bioconda バージョンを入手してください。
svツール