(c) 2017 年蒂莫西·贝克尔和李万平
SVE 是一个基于 Python 脚本的执行引擎,用于结构变异 (SV) 检测,可用于任何级别的数据输入、原始 FASTQ、对齐的 BAM 或变异调用格式 (VCF),并生成统一的 VCF 作为其输出。根据设计,SVE 默认由对齐、重新对齐和最先进的 SV 调用算法集合组成。它们是 BreakDancer、BreakSeq、cnMOPS、CNVnator、DELLY、Hydra 和 LUMPY。 FusorSV 还嵌入了一种数据挖掘方法,用于评估性能并合并来自 SV 调用算法集合的调用集。
请设置ROOT环境。
export ROOTSYS=/ROOT_Build_Path
export LD_LIBRARY_PATH=$LD_LIBRARY_PATH:$ROOTSYS/lib
git clone --recursive https://github.com/TheJacksonLaboratory/SVE.git
cd SVE
make
请检查python2.7头文件并修改Makefile中的“CFLAGS_FUSOR_SV”。头文件可能位于“/usr/include/python2.7”上,并使用“CFLAGS_FUSOR_SV=-I /usr/include/python2.7”代替。
make FusorSV
或者,您可以通过 setup.py 安装 FusorSV
cd SVE/scripts/FusorSV/
python setup.py build_ext --inplace
tar -zxvf data.tar.gz
或者,提供 Dockerfile 和 Docker 映像。请注意,根据您的计算机设置,docker 使用可能需要 sudo。
cd SVE
docker build .
从存储库中提取 docker 镜像。
docker pull wanpinglee/sve
SVE 构建于 /tools/SVE 之上。通过查看帮助
/tools/SVE/bin/sve
FASTQ 中的短读将根据给定的 FASTA 进行映射,并生成排序的 BAM。
bin/sve align [options] -r <FASTA> <FASTQ1 [FASTQ2]>
如果读取以 BAM 格式给出,则重新对齐将根据 FASTA 重新映射读取并生成排序的 BAM。我们使用 SpeedSeq 来完成重新对齐。
bin/sve realign -r <FASTA> <BAM>
有七种 SV 调用算法可用于 SV 调用。将生成 VCF。
bin/sve call -r <FASTA> -g <hg19|hg38|others> -a <breakdancer|breakseq|cnvnator|hydra|delly|lumpy|cnmops> <BAM [BAM ...]>
调用后,每个样本可能有多个 VCF,具体取决于使用的调用者数量。请将样本的 VCF 收集到文件夹中。
vcfs 应使用 SVE ID 来指示调用者。
SVE ID | 呼叫者 |
---|---|
4 | 霹雳舞 (v1.4.5) |
9 | cn.MOPS (v1.20) |
10 | CNVnator (v0.3.3) |
11 | 黛莉 (v2) |
14* | 基因组STRiP |
17 号 | 九头蛇 |
18 | 块状 |
35 | BreakSeq (v2.2) |
0 | 真相(可选) |
注意*:由于许可证问题,GenomeSTRiP 未嵌入 SVE 中。然而,FusorSV 默认模型能够处理 GenomeSTRiP VCF。
示例输入 vcf 文件可以按如下方式组织。请注意,vcfFiles 是 FusorSV 的 -i 的参数。
python scripts/FusorSV/FusorSV.py -f scripts/FusorSV/data/models/default.pickle -L DEFAULT -r <FASTA> -i <vcfFiles>/ -p <THREADS> -o <OUT_DIR>
根据S0.vcf,将生成一个新模型,并且VCF将被新模型合并。
python scripts/FusorSV/FusorSV.py -L DEFAULT -r <FASTA> -i <vcfFiles>/ -p <THREADS> -o <OUT_DIR>
该项目根据 GPL-3.0 许可证获得许可。详细信息请参阅许可证。