nf-core/cageseq es un proceso de análisis bioinformático utilizado para datos de secuenciación CAGE-seq.
El proceso toma archivos fastq demultiplexados sin procesar como entrada e incluye pasos para el recorte de enlazadores y artefactos (cutadapt), eliminación de ARNr (SortMeRNA, alineación con un genoma de referencia (STAR o bowtie1) y recuento y agrupación de etiquetas CAGE (paraclu). Además, varios Se incluyen pasos de control de calidad (FastQC, RSeQC, MultiQC) para permitir una fácil verificación de los resultados después de una ejecución.
La canalización se construye utilizando Nextflow, una herramienta de flujo de trabajo para ejecutar tareas en múltiples infraestructuras informáticas de una manera muy portátil. Viene con contenedores acoplables que hacen que la instalación sea trivial y los resultados sean altamente reproducibles.
Instalar nextflow
Instale Docker
, Singularity
o Podman
para lograr una reproducibilidad completa del proceso (utilice Conda
solo como último recurso; consulte los documentos).
Descargue la canalización y pruébela en un conjunto de datos mínimo con un solo comando:
nextflow run nf-core/cageseq -profile test, < docker/singularity/podman/conda/institute >
Verifique nf-core/configs para ver si ya existe un archivo de configuración personalizado para ejecutar canalizaciones de nf-core para su instituto. Si es así, simplemente puedes usar
-profile
en tu comando. Esto habilitarádocker
osingularity
y establecerá la configuración de ejecución adecuada para su entorno informático local.
¡Empiece a realizar su propio análisis!
nextflow run nf-core/cageseq -profile < docker/singularity/podman/conda/institute > --input ' *_R1.fastq.gz ' --aligner < ' star ' / ' bowtie1 ' > --genome GRCh38
Consulte los documentos de uso para conocer todas las opciones disponibles al ejecutar la canalización.
De forma predeterminada, la canalización actualmente realiza lo siguiente:
FastQC
)cutadapt
)SortMeRNA
),FastQC
)STAR
o bowtie1
)paraclu
)RSeQC
)MultiQC
) La canalización nf-core/cageseq viene con documentación sobre la canalización: uso y resultados.
nf-core/cageseq fue escrito originalmente por Kevin Menden (@KevinMenden) y Tristan Kast (@TrisKast) y actualizado por Matthias Hörtenhuber (@mashehu).
Si desea contribuir a este canal, consulte las pautas de contribución.
Para obtener más información o ayuda, no dudes en ponerte en contacto en el canal #cageseq
de Slack (puedes unirte con esta invitación).
Si utiliza nf-core/cageseq para su análisis, cítelo utilizando el siguiente doi: 10.5281/zenodo.4095105
Puede citar la publicación nf-core
de la siguiente manera:
El marco nf-core para procesos bioinformáticos seleccionados por la comunidad.
Philip Ewels, Alexander Peltzer, Sven Fillinger, Harshil Patel, Johannes Alneberg, Andreas Wilm, Maxime Ulysse García, Paolo Di Tommaso y Sven Nahnsen.
Nat Biotecnología. 13 de febrero de 2020. doi: 10.1038/s41587-020-0439-x. ReadCube: enlace de acceso completo
Además, las referencias de las herramientas y los datos utilizados en este proceso son las siguientes:
Di Tommaso P, Chatzou M, Floden EW, Barja PP, Palumbo E, Notredame C. Nextflow permite flujos de trabajo computacionales reproducibles. Nat Biotecnología. 11 de abril de 2017;35(4):316-319. doi: 10.1038/nbt.3820. PMID de PubMed: 28398311.
CAMAHerramientas
Quinlan AR, Hall IM. BEDTools: un conjunto flexible de utilidades para comparar características genómicas. Bioinformática. 15 de marzo de 2010; 26 (6): 841-2. doi: 10.1093/bioinformática/btq033. Publicación electrónica del 28 de enero de 2010. PubMed PMID: 20110278; PMCID central de PubMed: PMC2832824.
corbata de moño
Langmead B, Trapnell C, Pop M, Salzberg SL. Alineamiento ultrarrápido y con memoria eficiente de secuencias cortas de ADN con el genoma humano. Genoma Biol. 2009;10(3):R25. doi: 10.1186/gb-2009-10-3-r25. Publicación electrónica del 4 de marzo de 2009. PMID: 19261174; PMCID: PMC2690996.
cortaradaptar
Martin, M., 2011. Cutadapt elimina secuencias de adaptadores de lecturas de secuenciación de alto rendimiento. EMBnet. revista, 17 (1), págs.10-12.
control de calidad rápido
control de calidad múltiple
Ewels P, Magnusson M, Lundin S, Käller M. MultiQC: resumen los resultados del análisis para múltiples herramientas y muestras en un solo informe. Bioinformática. 1 de octubre de 2016; 32 (19): 3047-8. doi: 10.1093/bioinformática/btw354. Publicación electrónica del 16 de junio de 2016. PubMed PMID: 27312411; PMCID central de PubMed: PMC5039924.
paraclu
Frith MC, Valen E, Krogh A, Hayashizaki Y, Carninci P, Sandelin A. Un código para el inicio de la transcripción en genomas de mamíferos. Genoma Res. 2008 enero; 18 (1): 1-12. doi: 10.1101/gr.6831208. Publicación electrónica del 21 de noviembre de 2007. PMID: 18032727; PMCID: PMC2134772.
RSeQC
Wang L, Wang S, Li W. RSeQC: control de calidad de experimentos de RNA-seq Bioinformática. 15 de agosto de 2012; 28 (16): 2184-5. doi: 10.1093/bioinformática/bts356. Publicación electrónica del 27 de junio de 2012. PubMed PMID: 22743226.
Herramientas SAM
Li H, Handsaker B, Wysoker A, Fennell T, Ruan J, Homer N, Marth G, Abecasis G, Durbin R; Subgrupo de procesamiento de datos del Proyecto 1000 Genoma. El formato de alineación/mapa de secuencia y SAMtools. Bioinformática. 15 de agosto de 2009;25(16):2078-9. doi: 10.1093/bioinformática/btp352. Publicación electrónica del 8 de junio de 2009. PubMed PMID: 19505943; PMCID central de PubMed: PMC2723002.
OrdenarMeRNA
Kopylova E, Noé L, Touzet H. SortMeRNA: filtrado rápido y preciso de ARN ribosómicos en datos metatranscriptómicos Bioinformática. 15 de diciembre de 2012; 28 (24): 3211-7. doi: 10.1093/bioinformática/bts611. Publicación electrónica del 15 de octubre de 2012. PubMed PMID: 23071270.
ESTRELLA
Dobin A, Davis CA, Schlesinger F, Drenkow J, Zaleski C, Jha S, Batut P, Chaisson M, Gingeras TR. STAR: alineador universal ultrarrápido de RNA-seq Bioinformática. 29(1):15-21. doi: 10.1093/bioinformática/bts635. Publicación electrónica del 25 de octubre de 2012. PubMed PMID: 23104886; PMCID central de PubMed: PMC3530905.
herramientas de la UCSC
Kent WJ, Zweig AS, Barber G, Hinrichs AS, Karolchik D. BigWig y BigBed: permitir la navegación de grandes conjuntos de datos distribuidos. Bioinformática. 26(17):2204-7. doi: 10.1093/bioinformática/btq351. Publicación electrónica del 17 de julio de 2010. PubMed PMID: 20639541; PMCID central de PubMed: PMC2922891.
Anaconda
Distribución de software Anaconda. Software informático. Vers. 2-2.4.0. Anaconda, noviembre de 2016. Web.
bioconda
Grüning B, Dale R, Sjödin A, Chapman BA, Rowe J, Tomkins-Tinch CH, Valieris R, Köster J; Equipo Bioconda. Bioconda: distribución de software sostenible e integral para las ciencias de la vida. Métodos Nat. Julio de 2018; 15 (7): 475-476. doi: 10.1038/s41592-018-0046-7. PMID de PubMed: 29967506.
BioContenedores
da Veiga Leprevost F, Grüning B, Aflitos SA, Röst HL, Uszkoreit J, Barsnes H, Vaudel M, Moreno P, Gatto L, Weber J, Bai M, Jimenez RC, Sachsenberg T, Pfeuffer J, Alvarez RV, Griss J, Nesvizhskii AI, Perez-Riverol Y. BioContainers: un marco de software de código abierto e impulsado por la comunidad estandarización. Bioinformática. 15 de agosto de 2017;33(16):2580-2582. doi: 10.1093/bioinformática/btx192. PMID de PubMed: 28379341; PMCID central de PubMed: PMC5870671.
Estibador
Singularidad
Kurtzer GM, Sochat V, Bauer MW. Singularidad: contenedores científicos para la movilidad de la computación. Más uno. 11 de mayo de 2017;12(5):e0177459. doi: 10.1371/journal.pone.0177459. Colección electrónica 2017. PubMed PMID: 28494014; PMCID central de PubMed: PMC5426675.