nf-core/cageseq ist eine bioinformatische Analysepipeline, die für CAGE-seq-Sequenzierungsdaten verwendet wird.
Die Pipeline verwendet rohe, demultiplexte Fastq-Dateien als Eingabe und umfasst Schritte zum Linker- und Artefakt-Trimmen (Cutadapt), zur rRNA-Entfernung (SortMeRNA), zur Ausrichtung auf ein Referenzgenom (STAR oder Bowtie1) und zum Zählen und Clustern von CAGE-Tags (Paraclu). Darüber hinaus mehrere Qualitätskontrollschritte (FastQC, RSeQC, MultiQC) sind enthalten, um eine einfache Überprüfung der Ergebnisse nach einem Lauf zu ermöglichen.
Die Pipeline wird mit Nextflow erstellt, einem Workflow-Tool, mit dem Aufgaben auf sehr portable Weise über mehrere Recheninfrastrukturen hinweg ausgeführt werden können. Es wird mit Docker-Containern geliefert, wodurch die Installation einfach und die Ergebnisse gut reproduzierbar sind.
nextflow
installieren
Installieren Sie Docker
, Singularity
oder Podman
um eine vollständige Reproduzierbarkeit der Pipeline zu gewährleisten (bitte verwenden Sie Conda
nur als letzten Ausweg; siehe Dokumente).
Laden Sie die Pipeline herunter und testen Sie sie mit einem einzigen Befehl an einem minimalen Datensatz:
nextflow run nf-core/cageseq -profile test, < docker/singularity/podman/conda/institute >
Bitte überprüfen Sie nf-core/configs, um zu sehen, ob für Ihr Institut bereits eine benutzerdefinierte Konfigurationsdatei zum Ausführen von nf-core-Pipelines vorhanden ist. Wenn ja, können Sie einfach
-profile
in Ihrem Befehl verwenden. Dadurch wird entwederdocker
odersingularity
aktiviert und die entsprechenden Ausführungseinstellungen für Ihre lokale Rechenumgebung festgelegt.
Beginnen Sie mit der Durchführung Ihrer eigenen Analyse!
nextflow run nf-core/cageseq -profile < docker/singularity/podman/conda/institute > --input ' *_R1.fastq.gz ' --aligner < ' star ' / ' bowtie1 ' > --genome GRCh38
Alle verfügbaren Optionen beim Ausführen der Pipeline finden Sie in den Nutzungsdokumenten.
Standardmäßig führt die Pipeline derzeit Folgendes aus:
FastQC
)cutadapt
)SortMeRNA
),FastQC
)STAR
oder bowtie1
) lesenparaclu
)RSeQC
)MultiQC
). Die nf-core/cageseq-Pipeline enthält eine Dokumentation zur Pipeline: Verwendung und Ausgabe.
nf-core/cageseq wurde ursprünglich von Kevin Menden (@KevinMenden) und Tristan Kast (@TrisKast) geschrieben und von Matthias Hörtenhuber (@mashehu) aktualisiert.
Wenn Sie zu dieser Pipeline beitragen möchten, lesen Sie bitte die Beitragsrichtlinien.
Wenn Sie weitere Informationen oder Hilfe benötigen, zögern Sie nicht, uns über den Slack-Kanal #cageseq
zu kontaktieren (Sie können mit dieser Einladung beitreten).
Wenn Sie nf-core/cageseq für Ihre Analyse verwenden, zitieren Sie es bitte mit der folgenden Doi: 10.5281/zenodo.4095105
Sie können die nf-core
-Publikation wie folgt zitieren:
Das NF-Core-Framework für von der Community kuratierte Bioinformatik-Pipelines.
Philip Ewels, Alexander Peltzer, Sven Fillinger, Harshil Patel, Johannes Alneberg, Andreas Wilm, Maxime Ulysse Garcia, Paolo Di Tommaso und Sven Nahnsen.
Nat Biotechnol. 13. Februar 2020. doi: 10.1038/s41587-020-0439-x. ReadCube: Vollzugriffslink
Darüber hinaus lauten die Referenzen der in dieser Pipeline verwendeten Tools und Daten wie folgt:
Di Tommaso P, Chatzou M, Floden EW, Barja PP, Palumbo E, Notredame C. Nextflow ermöglicht reproduzierbare Rechenabläufe. Nat Biotechnol. 11. April 2017;35(4):316-319. doi: 10.1038/nbt.3820. PubMed PMID: 28398311.
BEDTools
Quinlan AR, Hall IM. BEDTools: eine flexible Suite von Dienstprogrammen zum Vergleich genomischer Merkmale. Bioinformatik. 2010 15. März;26(6):841-2. doi: 10.1093/bioinformatics/btq033. Epub 28. Januar 2010. PubMed PMID: 20110278; PubMed Central PMCID: PMC2832824.
Fliege
Langmead B, Trapnell C, Pop M, Salzberg SL. Ultraschnelle und speichereffiziente Ausrichtung kurzer DNA-Sequenzen auf das menschliche Genom. Genombiol. 2009;10(3):R25. doi: 10.1186/gb-2009-10-3-r25. Epub 4. März 2009. PMID: 19261174; PMCID: PMC2690996.
Cutadapt
Martin, M., 2011. Cutadapt entfernt Adaptersequenzen aus Sequenzierungslesevorgängen mit hohem Durchsatz. EMBnet. Zeitschrift, 17(1), S. 10-12.
FastQC
MultiQC
Ewels P, Magnusson M, Lundin S, Käller M. MultiQC: Analyseergebnisse für mehrere Tools und Proben in einem einzigen Bericht zusammenfassen. Bioinformatik. 1. Okt. 2016;32(19):3047-8. doi: 10.1093/bioinformatics/btw354. Epub 16. Juni 2016. PubMed PMID: 27312411; PubMed Central PMCID: PMC5039924.
paraclu
Frith MC, Valen E, Krogh A, Hayashizaki Y, Carninci P, Sandelin A. Ein Code für die Transkriptionsinitiierung in Säugetiergenomen. Genomres. 2008 Jan;18(1):1-12. doi: 10.1101/gr.6831208. Epub 21. November 2007. PMID: 18032727; PMCID: PMC2134772.
RSeQC
Wang L, Wang S, Li W. RSeQC: Qualitätskontrolle von RNA-seq-Experimenten Bioinformatik. 2012 15. August;28(16):2184-5. doi: 10.1093/bioinformatics/bts356. Epub 27. Juni 2012. PubMed PMID: 22743226.
SAMtools
Li H, Handsaker B, Wysoker A, Fennell T, Ruan J, Homer N, Marth G, Abecasis G, Durbin R; 1000 Genomprojekt-Untergruppe Datenverarbeitung. Das Sequence Alignment/Map-Format und SAMtools. Bioinformatik. 15.08.2009;25(16):2078-9. doi: 10.1093/bioinformatics/btp352. Epub 8. Juni 2009. PubMed PMID: 19505943; PubMed Central PMCID: PMC2723002.
SortMeRNA
Kopylova E, Noé L, Touzet H. SortMeRNA: schnelle und genaue Filterung ribosomaler RNAs in metatranskriptomischen Daten Bioinformatik. 15. Dezember 2012;28(24):3211-7. doi: 10.1093/bioinformatics/bts611. Epub 2012, 15. Oktober. PubMed PMID: 23071270.
STERN
Dobin A, Davis CA, Schlesinger F, Drenkow J, Zaleski C, Jha S, Batut P, Chaisson M, Gingeras TR. STAR: ultraschneller universeller RNA-seq-Aligner Bioinformatik. 2013 1. Jan.;29(1):15-21. doi: 10.1093/bioinformatics/bts635. Epub 25. Okt. 2012. PubMed PMID: 23104886; PubMed Central PMCID: PMC3530905.
UCSC-Tools
Kent WJ, Zweig AS, Barber G, Hinrichs AS, Karolchik D. BigWig und BigBed: Ermöglichen das Durchsuchen großer verteilter Datensätze. Bioinformatik. 2010 Sep 1;26(17):2204-7. doi: 10.1093/bioinformatics/btq351. Epub 17. Juli 2010. PubMed PMID: 20639541; PubMed Central PMCID: PMC2922891.
Anakonda
Anaconda-Softwareverteilung. Computersoftware. Vers. 2-2.4.0. Anaconda, November 2016. Web.
Biokonda
Grüning B, Dale R, Sjödin A, Chapman BA, Rowe J, Tomkins-Tinch CH, Valieris R, Köster J; Bioconda-Team. Bioconda: nachhaltiger und umfassender Softwarevertrieb für die Life Sciences. Nat-Methoden. 2018 Jul;15(7):475-476. doi: 10.1038/s41592-018-0046-7. PubMed PMID: 29967506.
BioContainer
da Veiga Leprevost F, Grüning B, Aflitos SA, Röst HL, Uszkoreit J, Barsnes H, Vaudel M, Moreno P, Gatto L, Weber J, Bai M, Jimenez RC, Sachsenberg T, Pfeuffer J, Alvarez RV, Griss J, Nesvizhskii AI, Perez-Riverol Y. BioContainers: ein Open-Source- und Community-basiertes Framework für die Softwarestandardisierung. Bioinformatik. 2017 15. August;33(16):2580-2582. doi: 10.1093/bioinformatics/btx192. PubMed PMID: 28379341; PubMed Central PMCID: PMC5870671.
Docker
Singularität
Kurtzer GM, Sochat V, Bauer MW. Singularität: Wissenschaftliche Container für die Mobilität von Computern. PLoS One. 11. Mai 2017;12(5):e0177459. doi: 10.1371/journal.pone.0177459. eCollection 2017. PubMed PMID: 28494014; PubMed Central PMCID: PMC5426675.