nf-core/cageseq是用于 CAGE-seq 测序数据的生物信息学分析管道。
该管道采用原始多路分解的 fastq 文件作为输入,包括链接器和人工制品修剪 (cutadapt)、rRNA 去除 (SortMeRNA、与参考基因组比对 (STAR 或 Bowtie1) 以及 CAGE 标签计数和聚类 (paraclu) 的步骤。包括质量控制步骤(FastQC、RSeQC、MultiQC),以便在运行后轻松验证结果。
该管道是使用 Nextflow 构建的,Nextflow 是一种工作流工具,可以以非常便携的方式跨多个计算基础设施运行任务。它配备了 docker 容器,使安装变得简单,并且结果具有高度可重复性。
安装nextflow
安装Docker
、 Singularity
或Podman
中的任何一个以获得完整的管道再现性(请仅使用Conda
作为最后的手段;请参阅文档)
下载管道并使用单个命令在最小数据集上测试它:
nextflow run nf-core/cageseq -profile test, < docker/singularity/podman/conda/institute >
请检查 nf-core/configs 以查看您的研究所是否已存在用于运行 nf-core 管道的自定义配置文件。如果是这样,您只需在命令中使用
-profile
即可。这将启用docker
或singularity
,并为本地计算环境设置适当的执行设置。
开始运行您自己的分析!
nextflow run nf-core/cageseq -profile < docker/singularity/podman/conda/institute > --input ' *_R1.fastq.gz ' --aligner < ' star ' / ' bowtie1 ' > --genome GRCh38
有关运行管道时的所有可用选项,请参阅使用文档。
默认情况下,管道当前执行以下操作:
FastQC
)cutadapt
)SortMeRNA
),FastQC
)STAR
或bowtie1
)paraclu
)RSeQC
)MultiQC
) nf-core/cageseq 管道附带有关管道的文档:用法和输出。
nf-core/cageseq 最初由 Kevin Menden (@KevinMenden) 和 Tristan Kast (@TrisKast) 编写,并由 Matthias Hörtenhuber (@mashehu) 更新。
如果您想为此管道做出贡献,请参阅贡献指南。
如需更多信息或帮助,请随时联系 Slack #cageseq
频道(您可以通过此邀请加入)。
如果您使用 nf-core/cageseq 进行分析,请使用以下 doi 引用它:10.5281/zenodo.4095105
您可以按如下方式引用nf-core
出版物:
用于社区策划的生物信息学管道的 nf-core 框架。
Philip Ewels、Alexander Peltzer、Sven Fillinger、Harshil Patel、Johannes Alneberg、Andreas Wilm、Maxime Ulysse Garcia、Paolo Di Tommaso 和 Sven Nahnsen。
纳特生物技术公司。 2020 年 2 月 13 日。doi:10.1038/s41587-020-0439-x。 ReadCube:完整访问链接
另外,该流程中使用的工具和数据参考如下:
Di Tommaso P、Chatzou M、Floden EW、Barja PP、Palumbo E、Notredame C。Nextflow 支持可重复的计算工作流程。纳特生物技术公司。 2017 年 4 月 11 日;35(4):316-319。 doi:10.1038/nbt.3820。 PubMed PMID:28398311。
BED工具
昆兰·AR,霍尔·IM。 BEDTools:一套灵活的实用程序,用于比较基因组特征。生物信息学。 2010 年 3 月 15 日;26(6):841-2。 doi:10.1093/生物信息学/btq033。 Epub 2010 年 1 月 28 日。PubMed PMID:20110278; PubMed 中心 PMCID:PMC2832824。
领结
朗米德 B、特拉普内尔 C、波普 M、萨尔茨堡 SL。将短 DNA 序列与人类基因组进行超快速且高效的内存比对。基因组生物学。 2009;10(3):R25。 doi:10.1186/gb-2009-10-3-r25。 Epub 2009 年 3 月 4 日。PMID:19261174; PMCID:PMC2690996。
剪切适应
Martin, M., 2011。Cutadapt 从高通量测序读数中删除接头序列。 EMB 网。杂志,17(1),第 10-12 页。
快速质量控制
多重QC
Ewels P、Magnusson M、Lundin S、Käller M. MultiQC:在一份报告中总结多种工具和样品的分析结果。生物信息学。 2016 年 10 月 1 日;32(19):3047-8。 doi:10.1093/生物信息学/btw354。 Epub 2016 年 6 月 16 日。PubMed PMID:27312411; PubMed 中心 PMCID:PMC5039924。
帕拉克卢
Frith MC,Valen E,Krogh A,Hayashizaki Y,Carninci P,Sandelin A。哺乳动物基因组中转录起始的代码。基因组研究。 2008 年 1 月;18(1):1-12。 doi:10.1101/gr.6831208。 Epub 2007 年 11 月 21 日。PMID:18032727; PMCID:PMC2134772。
RSeQC
Wang L, Wang S, Li W. RSeQC:RNA-seq 实验的质量控制生物信息学。 2012 年 8 月 15 日;28(16):2184-5。 doi:10.1093/生物信息学/bts356。 Epub 2012 年 6 月 27 日。PubMed PMID:22743226。
SAM工具
Li H、Handsaker B、Wysoker A、Fennell T、Ruan J、Homer N、Marth G、Abecasis G、Durbin R; 1000 基因组计划数据处理小组。序列比对/图谱格式和 SAM 工具。生物信息学。 2009 年 8 月 15 日;25(16):2078-9。 doi:10.1093/生物信息学/btp352。 Epub 2009 年 6 月 8 日。PubMed PMID:19505943; PubMed 中心 PMCID:PMC2723002。
排序MeRNA
Kopylova E、Noé L、Touzet H。SortMeRNA:在宏转录组数据生物信息学中快速准确地过滤核糖体 RNA。 2012 年 12 月 15 日;28(24):3211-7。 doi:10.1093/生物信息学/bts611。 Epub 2012 年 10 月 15 日。PubMed PMID:23071270。
星星
Dobin A、Davis CA、Schlesinger F、Drenkow J、Zaleski C、Jha S、Batut P、Chaisson M、Gingeras TR。 STAR:超快通用 RNA-seq 比对器生物信息学。 2013 年 1 月 1 日;29(1):15-21。 doi:10.1093/生物信息学/bts635。 Epub 2012 年 10 月 25 日。PubMed PMID:23104886; PubMed 中心 PMCID:PMC3530905。
UCSC工具
Kent WJ、Zweig AS、Barber G、Hinrichs AS、Karolchik D. BigWig 和 BigBed:支持浏览大型分布式数据集。生物信息学。 2010 年 9 月 1 日;26(17):2204-7。 doi:10.1093/生物信息学/btq351。 Epub 2010 年 7 月 17 日。PubMed PMID:20639541; PubMed 中心 PMCID:PMC2922891。
蟒蛇
Anaconda 软件分发。计算机软件。版本。 2-2.4.0。 Anaconda,2016 年 11 月。网络。
比奥康达
Grüning B、Dale R、Sjödin A、Chapman BA、Rowe J、Tomkins-Tinch CH、Valieris R、Köster J;比奥康达团队。 Bioconda:生命科学领域可持续且全面的软件发行版。纳特方法。 2018 年 7 月;15(7):475-476。 DOI:10.1038/s41592-018-0046-7。 PubMed PMID:29967506。
生物容器
da Veiga Leprevost F、Grüning B、Aflitos SA、Röst HL、Uszkoreit J、Barsnes H、Vaudel M、Moreno P、Gatto L、Weber J、Bai M、Jimenez RC、Sachsenberg T、Pfeuffer J、Alvarez RV、Griss J、 Nesvizhskii AI,Perez-Riverol Y. BioContainers:开源和社区驱动的框架用于软件标准化。生物信息学。 2017年8月15日;33(16):2580-2582。 doi:10.1093/生物信息学/btx192。 PubMed PMID:28379341; PubMed 中心 PMCID:PMC5870671。
码头工人
奇点
Kurtzer 总经理、Sochat V、Bauer MW。奇点:计算移动性的科学容器。公共科学图书馆一号。 2017 年 5 月 11 日;12(5):e0177459。 doi:10.1371/journal.pone.0177459。 eCollection 2017。PubMed PMID:28494014; PubMed 中心 PMCID:PMC5426675。