nf-core/cageseq是用於 CAGE-seq 定序資料的生物資訊分析管道。
此管道採用原始多路分解的fastq 檔案作為輸入,包括連結器和人工製品修剪(cutadapt)、rRNA 去除(SortMeRNA、與參考基因組比對(STAR 或Bowtie1) 以及CAGE 標籤計數和聚類(paraclu) 的步驟。
該管道是使用 Nextflow 建構的,Nextflow 是一種工作流程工具,可以以非常便攜的方式跨多個運算基礎設施運行任務。它配備了 docker 容器,使安裝變得簡單,並且結果具有高度可重複性。
安裝nextflow
安裝Docker
、 Singularity
或Podman
中的任何一個以獲得完整的管道再現性(請僅使用Conda
作為最後的手段;請參閱文件)
下載管道並使用單一命令在最小資料集上測試它:
nextflow run nf-core/cageseq -profile test, < docker/singularity/podman/conda/institute >
請檢查 nf-core/configs 以查看您的研究所是否已存在用於運行 nf-core 管道的自訂設定檔。如果是這樣,您只需在命令中使用
-profile
即可。這將啟用docker
或singularity
,並為本地運算環境設定適當的執行設定。
開始運行您自己的分析!
nextflow run nf-core/cageseq -profile < docker/singularity/podman/conda/institute > --input ' *_R1.fastq.gz ' --aligner < ' star ' / ' bowtie1 ' > --genome GRCh38
有關運行管道時的所有可用選項,請參閱使用文件。
預設情況下,管道目前執行以下操作:
FastQC
)cutadapt
)SortMeRNA
),FastQC
)STAR
或bowtie1
)paraclu
)RSeQC
)MultiQC
) nf-core/cageseq 管道附帶有關管道的文件:用法和輸出。
nf-core/cageseq 最初由 Kevin Menden (@KevinMenden) 和 Tristan Kast (@TrisKast) 編寫,並由 Matthias Hörtenhuber (@mashehu) 更新。
如果您想為此管道做出貢獻,請參閱貢獻指南。
如需更多資訊或協助,請隨時聯絡 Slack #cageseq
頻道(您可以透過此邀請加入)。
如果您使用 nf-core/cageseq 進行分析,請使用以下 doi 引用它:10.5281/zenodo.4095105
您可以按如下方式引用nf-core
出版品:
用於社區策劃的生物資訊管道的 nf-core 框架。
Philip Ewels、Alexander Peltzer、Sven Fillinger、Harshil Patel、Johannes Alneberg、Andreas Wilm、Maxime Ulysse Garcia、Paolo Di Tommaso 和 Sven Nahnsen。
納特生物技術公司。 2020 年 2 月 13 日。 ReadCube:完整訪問鏈接
另外,該流程中使用的工具和資料參考如下:
Di Tommaso P、Chatzou M、Floden EW、Barja PP、Palumbo E、Notredame C。納特生物技術公司。 2017 年 4 月 11 日;35(4):316-319。 doi:10.1038/nbt.3820。 PubMed PMID:28398311。
BED工具
昆蘭·AR,霍爾·IM。 BEDTools:一套靈活的實用程序,用於比較基因組特徵。生物資訊學。 2010 年 3 月 15 日;26(6):841-2。 doi:10.1093/生物資訊學/btq033。 Epub 2010 年 1 月 28 日。 PubMed 中心 PMCID:PMC2832824。
領結
朗米德 B、特拉普內爾 C、波普 M、薩爾斯堡 SL。將短 DNA 序列與人類基因組進行超快速且高效的記憶體比對。基因組生物學。 2009;10(3):R25。 doi:10.1186/gb-2009-10-3-r25。 Epub 2009 年 3 月 4 日。 PMCID:PMC2690996。
剪切適應
Martin, M., 2011。 EMB 網。雜誌,17(1),第 10-12 頁。
快速品質控制
多重QC
Ewels P、Magnusson M、Lundin S、Käller M. MultiQC:在一份報告中總結多種工具和樣品的分析結果。生物資訊學。 2016 年 10 月 1 日;32(19):3047-8。 doi:10.1093/生物資訊學/btw354。 Epub 2016 年 6 月 16 日。 PubMed 中心 PMCID:PMC5039924。
帕拉克盧
Frith MC,Valen E,Krogh A,Hayashizaki Y,Carninci P,Sandelin A。基因組研究。 2008 年 1 月;18(1):1-12。 doi:10.1101/gr.6831208。 Epub 2007 年 11 月 21 日。 PMCID:PMC2134772。
RSeQC
Wang L, Wang S, Li W. RSeQC:RNA-seq 實驗的品質控制生物資訊學。 2012 年 8 月 15 日;28(16):2184-5。 doi:10.1093/生物資訊學/bts356。 Epub 2012 年 6 月 27 日。
SAM工具
Li H、Handsaker B、Wysoker A、Fennell T、Ruan J、Homer N、Marth G、Abecasis G、Durbin R; 1000 基因組計劃資料處理小組。序列比對/圖譜格式和 SAM 工具。生物資訊學。 2009 年 8 月 15 日;25(16):2078-9。 doi:10.1093/生物資訊學/btp352。 Epub 2009 年 6 月 8 日。 PubMed 中心 PMCID:PMC2723002。
排序MeRNA
Kopylova E、Noé L、Touzet H。 2012 年 12 月 15 日;28(24):3211-7。 doi:10.1093/生物資訊學/bts611。 Epub 2012 年 10 月 15 日。
星星
Dobin A、Davis CA、Schlesinger F、Drenkow J、Zaleski C、Jha S、Batut P、Chaisson M、Gingeras TR。 STAR:超快通用 RNA-seq 比對器生物資訊。 2013 年 1 月 1 日;29(1):15-21。 doi:10.1093/生物資訊學/bts635。 Epub 2012 年 10 月 25 日。 PubMed 中心 PMCID:PMC3530905。
UCSC工具
Kent WJ、Zweig AS、Barber G、Hinrichs AS、Karolchik D. BigWig 和 BigBed:支援瀏覽大型分散式資料集。生物資訊學。 2010 年 9 月 1 日;26(17):2204-7。 doi:10.1093/生物資訊學/btq351。 Epub 2010 年 7 月 17 日。 PubMed 中心 PMCID:PMC2922891。
蟒蛇
Anaconda 軟體分發。電腦軟體。版本。 2-2.4.0。 Anaconda,2016 年 11 月。
比奧康達
Grüning B、Dale R、Sjödin A、Chapman BA、Rowe J、Tomkins-Tinch CH、Valieris R、Köster J;比奧康達團隊。 Bioconda:生命科學領域可持續且全面的軟體發行版。納特方法。 2018 年 7 月;15(7):475-476。 DOI:10.1038/s41592-018-0046-7。 PubMed PMID:29967506。
生物容器
da Veiga Leprevost F、Grüning B、Aflitos SA、Röst HL、Uszkoreit J、Barsnes H、Vaudel M、Moreno P、Gatto L、Weber J、Bai M、Jimenez RC、Sachsenberg T、Pfeuffer J、Alvarez RV、Griss J、 Nesvizhskii AI、Perez-Riverol Y. BioContainers:一個開源且社群驅動的軟體標準化框架。生物資訊學。 2017年8月15日;33(16):2580-2582。 doi:10.1093/生物資訊學/btx192。 PubMed PMID:28379341; PubMed 中心 PMCID:PMC5870671。
碼頭工人
奇點
Kurtzer 總經理、Sochat V、Bauer MW。奇點:計算移動性的科學容器。公共科學圖書館一號。 2017 年 5 月 11 日;12(5):e0177459。 doi:10.1371/journal.pone.0177459。 eCollection 2017。 PubMed 中心 PMCID:PMC5426675。