smoove
짧은 읽기를 위해 SV 호출 및 유전자형 분석을 단순화하고 속도를 높입니다. 또한 낮은 수준의 노이즈를 나타내고 종종 스퓨리어스 호출에 기여하는 많은 스퓨리어스 정렬 신호를 제거하여 특이성을 향상시킵니다.
여기에서 smoove
더 자세히 설명하는 블로그 게시물이 있습니다.
둘 다 단일 명령으로 소규모 집단을 지원하고 총 4단계(그 중 2단계는 샘플별로 병렬임)로 인구 수준 호출을 지원합니다.
여기에 smoove와 duphold(smoove에서 사용됨)의 정밀도와 재현율에 대한 표가 있습니다.
다음이 필요합니다.
그리고 선택적으로(그러나 모두 적극 권장됨):
인수 없이 smoove
실행하면 이들 중 어느 것이 발견되었는지 표시되므로 필요에 따라 PATH에 추가할 수 있습니다.
smoove
다음을 수행합니다.
lumpy_filter
에 대한 호출을 병렬화합니다.lumpy_filter
호출을 추가로 필터링합니다. 또한 가짜 신호일 가능성이 있는 것으로 확인된 읽기도 제거됩니다. 그런 다음 일치하지 않는 bams에서 싱글톤 읽기(이전 필터 중 하나에 의해 메이트가 제거된 위치)를 제거합니다. 이렇게 하면 lumpy
가 훨씬 빨라지고 메모리 사용량이 줄어듭니다. (큰) 도커 이미지를 통해 smoove
및 모든 종속성을 얻을 수 있습니다.
docker pull brentp/smoove
docker run -it brentp/smoove smoove -h
또는 여기에서 smoove
바이너리를 다운로드할 수 있습니다: https://github.com/brentp/smoove/releases 인수 없이 실행하면 smoove
찾을 수 있는 종속성을 표시하므로 $PATH를 조정하고 설치할 수 있습니다. 따라서.
소규모 집단의 경우 단일 명령 으로 공동 호출되고 유전자형이 지정된 VCF를 얻는 것이 가능합니다.
smoove call -x --name my-cohort --exclude $bed --fasta $reference_fasta -p $threads --genotype /path/to/*.bam
출력은 ./my-cohort-smoove.genotyped.vcf.gz
로 이동합니다.
--exclude $bed
문제가 있는 영역과 겹치는 읽기를 무시하는 데 사용할 수 있으므로 적극 권장됩니다.
GRCh37에 적합한 지역 세트는 여기에 있습니다.
그리고 여기 hg38의 경우
인구 수준 호출(대규모 집단)의 경우 단계는 다음과 같습니다.
smoove call --outdir results-smoove/ --exclude $bed --name $sample --fasta $reference_fasta -p 1 --genotype /path/to/$sample.bam
대규모 코호트의 경우 샘플당 큰 $thread를 사용하는 것보다 샘플 전체를 병렬화하는 것이 더 좋습니다. smoove
단일 샘플에서 최대 2~3개의 스레드만 병렬화할 수 있으며 1개의 스레드를 사용하는 것이 가장 효율적입니다.
출력은 `results-smoove/$sample-smoove.genotyped.vcf.gz`로 이동합니다.
# this will create ./merged.sites.vcf.gz
smoove merge --name merged -f $reference_fasta --outdir ./ results-smoove/*.genotyped.vcf.gz
smoove genotype -d -x -p 1 --name $sample-joint --outdir results-genotped/ --fasta $reference_fasta --vcf merged.sites.vcf.gz /path/to/$sample.$bam
smoove paste --name $cohort results-genotyped/*.vcf.gz
smoove annotate --gff Homo_sapiens.GRCh37.82.gff3.gz $cohort.smoove.square.vcf.gz | bgzip -c > $cohort.smoove.square.anno.vcf.gz
이는 모든 샘플 형식에 SHQ
(Smoove Het Quality) 태그를 추가합니다. 값 4는 고품질 호출이고 값 1은 낮은 품질입니다. -1은 비헤트입니다. 또한 해당 변종에 대한 모든 이형접합 샘플의 평균 SHQ 점수인 평균 SHQ에 대한 MSHQ
INFO 필드에 추가합니다.
첫 번째 단계로 사용자는 MSHQ > 3인 변형을 찾을 수 있습니다. duphold 주석을 추가한 경우 DHFFC < 0.7
로 삭제를 확인하고 DHFFC > 1.25
로 중복을 확인하는 것도 유용합니다.
Segmentation fault (core dumped) | bcftools view -O z -c 1 -o
이전 버전의 bcftools를 사용하고 있음을 의미할 가능성이 높습니다. #10 참조
smoove
시스템 TMPDIR에 기록합니다. 대규모 코호트의 경우 공간이 많은 것으로 설정하세요. 예: export TMPDIR=/path/to/big
smoove
최신 버전의 lumpy
및 lumpy_filter
필요하므로 소스에서 이를 빌드하거나 최신 bioconda 버전을 얻으세요.
svtools