nf-core/cageseq é um pipeline de análise de bioinformática usado para dados de sequenciamento CAGE-seq.
O pipeline usa arquivos fastq desmultiplexados brutos como entrada e inclui etapas para corte de vinculador e artefato (cutadapt), remoção de rRNA (SortMeRNA, alinhamento a um genoma de referência (STAR ou bowtie1) e contagem e agrupamento de tags CAGE (paraclu). Além disso, vários etapas de controle de qualidade (FastQC, RSeQC, MultiQC) estão incluídas para permitir fácil verificação dos resultados após uma execução.
O pipeline é construído usando Nextflow, uma ferramenta de fluxo de trabalho para executar tarefas em várias infraestruturas de computação de maneira muito portátil. Ele vem com contêineres docker tornando a instalação trivial e os resultados altamente reproduzíveis.
Instale nextflow
Instale qualquer Docker
, Singularity
ou Podman
para reprodutibilidade total do pipeline (use Conda
apenas como último recurso; consulte a documentação)
Baixe o pipeline e teste-o em um conjunto de dados mínimo com um único comando:
nextflow run nf-core/cageseq -profile test, < docker/singularity/podman/conda/institute >
Verifique nf-core/configs para ver se já existe um arquivo de configuração personalizado para executar pipelines nf-core para o seu instituto. Nesse caso, você pode simplesmente usar
-profile
em seu comando. Isso ativará odocker
ousingularity
e definirá as configurações de execução apropriadas para o seu ambiente de computação local.
Comece a executar sua própria análise!
nextflow run nf-core/cageseq -profile < docker/singularity/podman/conda/institute > --input ' *_R1.fastq.gz ' --aligner < ' star ' / ' bowtie1 ' > --genome GRCh38
Consulte a documentação de uso para todas as opções disponíveis ao executar o pipeline.
Por padrão, o pipeline atualmente executa o seguinte:
FastQC
)cutadapt
)SortMeRNA
),FastQC
)STAR
ou bowtie1
)paraclu
)RSeQC
)MultiQC
) O pipeline nf-core/cageseq vem com documentação sobre o pipeline: uso e saída.
nf-core/cageseq foi originalmente escrito por Kevin Menden (@KevinMenden) e Tristan Kast (@TrisKast) e atualizado por Matthias Hörtenhuber (@mashehu).
Se você gostaria de contribuir para este pipeline, consulte as diretrizes de contribuição.
Para mais informações ou ajuda, não hesite em entrar em contato pelo canal Slack #cageseq
(você pode participar com este convite).
Se você usar nf-core/cageseq para sua análise, cite-o usando o seguinte doi: 10.5281/zenodo.4095105
Você pode citar a publicação nf-core
da seguinte forma:
A estrutura nf-core para pipelines de bioinformática com curadoria comunitária.
Philip Ewels, Alexander Peltzer, Sven Fillinger, Harshil Patel, Johannes Alneberg, Andreas Wilm, Maxime Ulysse Garcia, Paolo Di Tommaso e Sven Nahnsen.
Nat Biotecnologia. 13 de fevereiro de 2020. doi: 10.1038/s41587-020-0439-x. ReadCube: link de acesso completo
Além disso, as referências de ferramentas e dados utilizados neste pipeline são as seguintes:
Di Tommaso P, Chatzou M, Floden EW, Barja PP, Palumbo E, Notredame C. Nextflow permite fluxos de trabalho computacionais reproduzíveis. Nat Biotecnologia. 11 de abril de 2017;35(4):316-319. doi: 10.1038/nbt.3820. PMID PubMed: 28398311.
Ferramentas BED
Quinlan AR, Hall IM. BEDTools: um conjunto flexível de utilitários para comparar características genômicas. Bioinformática. 15 de março de 2010;26(6):841-2. doi: 10.1093/bioinformática/btq033. Epub 2010, 28 de janeiro. PubMed PMID: 20110278; PubMed Central PMCID: PMC2832824.
gravata borboleta
Langmead B, Trapnell C, Pop M, Salzberg SL. Alinhamento ultrarrápido e com uso eficiente de memória de sequências curtas de DNA ao genoma humano. Genoma Biol. 2009;10(3):R25. doi: 10.1186/gb-2009-10-3-r25. Epub 2009, 4 de março. PMID: 19261174; PMCID: PMC2690996.
cortaradaptar
Martin, M., 2011. Cutadapt remove sequências de adaptadores de leituras de sequenciamento de alto rendimento. EMBnet. revista, 17(1), pp.10-12.
FastQC
MultiQC
Ewels P, Magnusson M, Lundin S, Käller M. MultiQC: resume os resultados da análise para múltiplas ferramentas e amostras em um único relatório. Bioinformática. 1º de outubro de 2016;32(19):3047-8. doi: 10.1093/bioinformática/btw354. Epub 2016, 16 de junho. PubMed PMID: 27312411; PubMed Central PMCID: PMC5039924.
paraclu
Frith MC, Valen E, Krogh A, Hayashizaki Y, Carninci P, Sandelin A. Um código para iniciação da transcrição em genomas de mamíferos. Genoma Res. Janeiro de 2008;18(1):1-12. doi: 10.1101/gr.6831208. Epub 2007, 21 de novembro. PMID: 18032727; PMCID: PMC2134772.
RSeQC
Wang L, Wang S, Li W. RSeQC: controle de qualidade de experimentos de RNA-seq Bioinformática. 15 de agosto de 2012;28(16):2184-5. doi: 10.1093/bioinformática/bts356. Epub 2012, 27 de junho. PubMed PMID: 22743226.
Ferramentas SAM
Li H, Handsaker B, Wysoker A, Fennell T, Ruan J, Homer N, Marth G, Abecasis G, Durbin R; Subgrupo de processamento de dados do Projeto Genoma 1000. O formato Sequence Alignment/Map e SAMtools. Bioinformática. 2009, 15 de agosto;25(16):2078-9. doi: 10.1093/bioinformática/btp352. Epub 2009, 8 de junho. PubMed PMID: 19505943; PubMed Central PMCID: PMC2723002.
SortMeRNA
Kopylova E, Noé L, Touzet H. SortMeRNA: filtragem rápida e precisa de RNAs ribossômicos em dados metatranscriptômicos Bioinformática. 15 de dezembro de 2012;28(24):3211-7. doi: 10.1093/bioinformática/bts611. Epub 2012, 15 de outubro. PubMed PMID: 23071270.
ESTRELA
Dobin A, Davis CA, Schlesinger F, Drenkow J, Zaleski C, Jha S, Batut P, Chaisson M, Gingeras TR. STAR: alinhador RNA-seq universal ultrarrápido Bioinformática. 1º de janeiro de 2013;29(1):15-21. doi: 10.1093/bioinformática/bts635. Epub 2012, 25 de outubro. PubMed PMID: 23104886; PubMed Central PMCID: PMC3530905.
Ferramentas UCSC
Kent WJ, Zweig AS, Barber G, Hinrichs AS, Karolchik D. BigWig e BigBed: permitindo a navegação em grandes conjuntos de dados distribuídos. Bioinformática. 1 de setembro de 2010;26(17):2204-7. doi: 10.1093/bioinformática/btq351. Epub 2010, 17 de julho. PubMed PMID: 20639541; PubMed Central PMCID: PMC2922891.
Anaconda
Distribuição de Software Anaconda. Software de computador. Vers. 2-2.4.0. Anaconda, novembro de 2016. Web.
Bioconda
Grüning B, Dale R, Sjödin A, Chapman BA, Rowe J, Tomkins-Tinch CH, Valieris R, Köster J; Equipe Bioconda. Bioconda: distribuição de software sustentável e abrangente para ciências da vida. Métodos Nat. 2018 julho;15(7):475-476. doi: 10.1038/s41592-018-0046-7. PMID PubMed: 29967506.
Biocontêineres
da Veiga Leprevost F, Grüning B, Aflitos SA, Röst HL, Uszkoreit J, Barsnes H, Vaudel M, Moreno P, Gatto L, Weber J, Bai M, Jimenez RC, Sachsenberg T, Pfeuffer J, Alvarez RV, Griss J, Nesvizhskii AI, Perez-Riverol Y. BioContainers: uma estrutura de código aberto e voltada para a comunidade para padronização de software. Bioinformática. 15 de agosto de 2017;33(16):2580-2582. doi: 10.1093/bioinformática/btx192. PubMed PMID: 28379341; PubMed Central PMCID: PMC5870671.
Docker
Singularidade
Kurtzer GM, Sochat V, Bauer MW. Singularidade: Contêineres científicos para mobilidade de computação. PLoS Um. 11 de maio de 2017;12(5):e0177459. doi: 10.1371/journal.pone.0177459. eCollection 2017. PubMed PMID: 28494014; PubMed Central PMCID: PMC5426675.