nf-core/cageseq est un pipeline d'analyse bioinformatique utilisé pour les données de séquençage CAGE-seq.
Le pipeline prend en entrée des fichiers fastq démultiplexés bruts et comprend des étapes de coupe des lieurs et des artefacts (cutadapt), de suppression de l'ARNr (SortMeRNA, d'alignement sur un génome de référence (STAR ou bowtie1) et de comptage et de regroupement de balises CAGE (paraclu). De plus, plusieurs des étapes de contrôle qualité (FastQC, RSeQC, MultiQC) sont incluses pour permettre une vérification facile des résultats après une analyse.
Le pipeline est construit à l'aide de Nextflow, un outil de workflow permettant d'exécuter des tâches sur plusieurs infrastructures de calcul de manière très portable. Il est livré avec des conteneurs Docker rendant l'installation triviale et les résultats hautement reproductibles.
Installer nextflow
Installez Docker
, Singularity
ou Podman
pour une reproductibilité complète du pipeline (veuillez n'utiliser Conda
qu'en dernier recours ; voir la documentation)
Téléchargez le pipeline et testez-le sur un ensemble de données minimal avec une seule commande :
nextflow run nf-core/cageseq -profile test, < docker/singularity/podman/conda/institute >
Veuillez vérifier nf-core/configs pour voir si un fichier de configuration personnalisé permettant d'exécuter les pipelines nf-core existe déjà pour votre institut. Si tel est le cas, vous pouvez simplement utiliser
-profile
dans votre commande. Cela activera soitdocker
, soitsingularity
et définira les paramètres d'exécution appropriés pour votre environnement de calcul local.
Commencez à exécuter votre propre analyse !
nextflow run nf-core/cageseq -profile < docker/singularity/podman/conda/institute > --input ' *_R1.fastq.gz ' --aligner < ' star ' / ' bowtie1 ' > --genome GRCh38
Consultez la documentation d'utilisation pour toutes les options disponibles lors de l'exécution du pipeline.
Par défaut, le pipeline effectue actuellement les opérations suivantes :
FastQC
)cutadapt
)SortMeRNA
),FastQC
)STAR
ou bowtie1
)paraclu
)RSeQC
)MultiQC
) Le pipeline nf-core/cageseq est livré avec une documentation sur le pipeline : utilisation et sortie.
nf-core/cageseq a été initialement écrit par Kevin Menden (@KevinMenden) et Tristan Kast (@TrisKast) et mis à jour par Matthias Hörtenhuber (@mashehu).
Si vous souhaitez contribuer à ce pipeline, veuillez consulter les directives de contribution.
Pour plus d'informations ou d'aide, n'hésitez pas à nous contacter sur la chaîne Slack #cageseq
(vous pouvez la rejoindre avec cette invitation).
Si vous utilisez nf-core/cageseq pour votre analyse, veuillez le citer en utilisant le doi suivant : 10.5281/zenodo.4095105
Vous pouvez citer la publication nf-core
comme suit :
Le framework nf-core pour les pipelines bioinformatiques organisés par la communauté.
Philip Ewels, Alexander Peltzer, Sven Fillinger, Harshil Patel, Johannes Alneberg, Andreas Wilm, Maxime Ulysse Garcia, Paolo Di Tommaso et Sven Nahnsen.
Nat Biotechnologie. 13 février 2020. doi : 10.1038/s41587-020-0439-x. ReadCube : lien d'accès complet
De plus, les références des outils et données utilisées dans ce pipeline sont les suivantes :
Di Tommaso P, Chatzou M, Floden EW, Barja PP, Palumbo E, Notredame C. Nextflow permet des flux de travail informatiques reproductibles. Nat Biotechnologie. 11 avril 2017;35(4):316-319. est ce que je: 10.1038/nbt.3820. PMID PubMed : 28398311.
BEDOutils
Quinlan AR, Hall IM. BEDTools : une suite flexible d'utilitaires pour comparer les caractéristiques génomiques. Bioinformatique. 15 mars 2010;26(6):841-2. est ce que je : 10.1093/bioinformatique/btq033. Publication en ligne du 28 janvier 2010. PubMed PMID : 20110278 ; PMCID PubMed Central : PMC2832824.
noeud papillon
Langmead B, Trapnell C, Pop M et Salzberg SL. Alignement ultrarapide et efficace en mémoire de courtes séquences d'ADN sur le génome humain. Génome Biol. 2009;10(3):R25. est ce que je: 10.1186/gb-2009-10-3-r25. Publication en ligne du 4 mars 2009. PMID : 19261174 ; PMCID : PMC2690996.
couperadapter
Martin, M., 2011. Cutadapt supprime les séquences d'adaptateur des lectures de séquençage à haut débit. EMBnet. journal, 17(1), pp.10-12.
QC rapide
MultiQC
Ewels P, Magnusson M, Lundin S, Käller M. MultiQC : résumez les résultats d'analyse de plusieurs outils et échantillons dans un seul rapport. Bioinformatique. 1er octobre 2016;32(19):3047-8. est ce que je : 10.1093/bioinformatique/btw354. Publication en ligne du 16 juin 2016. PubMed PMID : 27312411 ; PMCID PubMed Central : PMC5039924.
paraclu
Frith MC, Valen E, Krogh A, Hayashizaki Y, Carninci P, Sandelin A. Un code pour l'initiation de la transcription dans les génomes de mammifères. Génome Res. janvier 2008 ; 18(1):1-12. est ce que je: 10.1101/gr.6831208. Publication en ligne du 21 novembre 2007. PMID : 18032727 ; PMCID : PMC2134772.
RSeQC
Wang L, Wang S, Li W. RSeQC : contrôle qualité des expériences de séquençage d'ARN Bioinformatique. 15 août 2012;28(16):2184-5. est ce que je : 10.1093/bioinformatique/bts356. Publication en ligne du 27 juin 2012. PubMed PMID : 22743226.
Outils SAM
Li H, Handsaker B, Wysoker A, Fennell T, Ruan J, Homer N, Marth G, Abecasis G, Durbin R ; Sous-groupe de traitement des données du projet 1000 Genome. Le format d'alignement de séquence/carte et SAMtools. Bioinformatique. 15 août 2009;25(16):2078-9. est ce que je : 10.1093/bioinformatique/btp352. Publication en ligne du 8 juin 2009. PubMed PMID : 19505943 ; PMCID PubMed Central : PMC2723002.
TrierMeARN
Kopylova E, Noé L, Touzet H. SortMeRNA : filtrage rapide et précis des ARN ribosomiques dans les données métatranscriptomiques Bioinformatique. 15 décembre 2012;28(24):3211-7. est ce que je : 10.1093/bioinformatique/bts611. Publication en ligne du 15 octobre 2012. PubMed PMID : 23071270.
ÉTOILE
Dobin A, Davis CA, Schlesinger F, Drenkow J, Zaleski C, Jha S, Batut P, Chaisson M, Gingeras TR. STAR : aligneur universel ultrarapide d’ARN-seq Bioinformatique. 1er janvier 2013;29(1):15-21. est ce que je : 10.1093/bioinformatique/bts635. Publication en ligne du 25 octobre 2012. PubMed PMID : 23104886 ; PMCID PubMed Central : PMC3530905.
Outils UCSC
Kent WJ, Zweig AS, Barber G, Hinrichs AS, Karolchik D. BigWig et BigBed : permettre la navigation dans de grands ensembles de données distribués. Bioinformatique. 1er septembre 2010;26(17):2204-7. est ce que je : 10.1093/bioinformatique/btq351. Publication en ligne du 17 juillet 2010. PubMed PMID : 20639541 ; PMCID PubMed Central : PMC2922891.
Anaconda
Distribution de logiciels Anaconda. Logiciel informatique. Vers. 2-2.4.0. Anaconda, novembre 2016. Web.
Bioconda
Grüning B, Dale R, Sjödin A, Chapman BA, Rowe J, Tomkins-Tinch CH, Valieris R, Köster J ; L'équipe Bioconda. Bioconda : distribution de logiciels durable et complète pour les sciences de la vie. Méthodes Nat. Juillet 2018;15(7):475-476. est ce que je: 10.1038/s41592-018-0046-7. PMID PubMed : 29967506.
BioConteneurs
da Veiga Leprevost F, Grüning B, Aflitos SA, Röst HL, Uszkoreit J, Barsnes H, Vaudel M, Moreno P, Gatto L, Weber J, Bai M, Jimenez RC, Sachsenberg T, Pfeuffer J, Alvarez RV, Griss J, Nesvizhskii AI, Perez-Riverol Y. BioContainers : un cadre open source et communautaire pour les logiciels normalisation. Bioinformatique. 15 août 2017;33(16):2580-2582. est ce que je : 10.1093/bioinformatique/btx192. PMID PubMed : 28379341 ; PMCID PubMed Central : PMC5870671.
Docker
Singularité
Kurtzer GM, Sochat V, Bauer MW. Singularité : conteneurs scientifiques pour la mobilité du calcul. PLoS Un. 11 mai 2017;12(5):e0177459. est ce que je: 10.1371/journal.pone.0177459. eCollection 2017. PubMed PMID : 28494014 ; PMCID PubMed Central : PMC5426675.