nf-core/cageseq adalah saluran analisis bioinformatika yang digunakan untuk data pengurutan CAGE-seq.
Pipeline ini mengambil file fastq mentah yang didemultipleks sebagai masukan dan mencakup langkah-langkah untuk pemangkasan linker dan artefak (cutadapt), penghapusan rRNA (SortMeRNA, penyelarasan ke genom referensi (STAR atau bowtie1) dan penghitungan dan pengelompokan tag CAGE (paraclu). Selain itu, beberapa langkah-langkah kontrol kualitas (FastQC, RSeQC, MultiQC) disertakan untuk memudahkan verifikasi hasil setelah dijalankan.
Alur ini dibangun menggunakan Nextflow, alat alur kerja untuk menjalankan tugas di berbagai infrastruktur komputasi dengan cara yang sangat portabel. Muncul dengan kontainer buruh pelabuhan membuat instalasi menjadi mudah dan hasilnya sangat dapat direproduksi.
Instal nextflow
Instal Docker
, Singularity
, atau Podman
mana pun untuk reproduktifitas pipeline penuh (harap gunakan Conda
hanya sebagai upaya terakhir; lihat dokumen)
Unduh pipeline dan uji pada kumpulan data minimal dengan satu perintah:
nextflow run nf-core/cageseq -profile test, < docker/singularity/podman/conda/institute >
Silakan periksa nf-core/configs untuk melihat apakah file konfigurasi khusus untuk menjalankan pipeline nf-core sudah ada untuk Institut Anda. Jika demikian, Anda cukup menggunakan
-profile
dalam perintah Anda. Ini akan mengaktifkandocker
atausingularity
dan menetapkan pengaturan eksekusi yang sesuai untuk lingkungan komputasi lokal Anda.
Mulailah menjalankan analisis Anda sendiri!
nextflow run nf-core/cageseq -profile < docker/singularity/podman/conda/institute > --input ' *_R1.fastq.gz ' --aligner < ' star ' / ' bowtie1 ' > --genome GRCh38
Lihat dokumen penggunaan untuk semua opsi yang tersedia saat menjalankan alur.
Secara default, alur saat ini melakukan hal berikut:
FastQC
)cutadapt
)SortMeRNA
),FastQC
)STAR
atau bowtie1
)paraclu
)RSeQC
)MultiQC
) Pipeline nf-core/cageseq dilengkapi dengan dokumentasi tentang pipeline: penggunaan dan output.
nf-core/cageseq aslinya ditulis oleh Kevin Menden (@KevinMenden) dan Tristan Kast (@TrisKast) dan diperbarui oleh Matthias Hörtenhuber (@mashehu).
Jika Anda ingin berkontribusi pada saluran ini, silakan lihat pedoman berkontribusi.
Untuk informasi atau bantuan lebih lanjut, jangan ragu untuk menghubungi saluran Slack #cageseq
(Anda dapat bergabung dengan undangan ini).
Jika Anda menggunakan nf-core/cageseq untuk analisis Anda, silakan kutip menggunakan doi berikut: 10.5281/zenodo.4095105
Anda dapat mengutip publikasi nf-core
sebagai berikut:
Kerangka nf-core untuk jaringan bioinformatika yang dikurasi oleh komunitas.
Philip Ewels, Alexander Peltzer, Sven Fillinger, Harshil Patel, Johannes Alneberg, Andreas Wilm, Maxime Ulysse Garcia, Paolo Di Tommaso & Sven Nahnsen.
Nat Bioteknologi. 13 Februari 2020. doi: 10.1038/s41587-020-0439-x. ReadCube: Tautan Akses Penuh
Selain itu, referensi alat dan data yang digunakan dalam pipeline ini adalah sebagai berikut:
Di Tommaso P, Chatzou M, Floden EW, Barja PP, Palumbo E, Notredame C. Nextflow memungkinkan alur kerja komputasi yang dapat direproduksi. Nat Bioteknologi. 2017 April 11;35(4):316-319. doi: 10.1038/nbt.3820. PMID PubMed: 28398311.
Alat BED
Quinlan AR, Aula IM. BEDTools: rangkaian utilitas fleksibel untuk membandingkan fitur genom. Bioinformatika. 2010 15 Maret;26(6):841-2. doi: 10.1093/bioinformatika/btq033. Epub 2010 28 Januari. PMID PubMed: 20110278; PMCID Pusat PubMed: PMC2832824.
dasi kupu-kupu
Langmead B, Trapnell C, Pop M, Salzberg SL. Penyelarasan urutan DNA pendek yang sangat cepat dan hemat memori ke genom manusia. Biol Genom. 2009;10(3):R25. doi: 10.1186/gb-2009-10-3-r25. Epub 2009 4 Maret. PMID: 19261174; PMCID: PMC2690996.
cutadapt
Martin, M., 2011. Cutadapt menghapus urutan adaptor dari pembacaan sekuens throughput tinggi. EMBnet. jurnal, 17(1), hal.10-12.
QC Cepat
MultiQC
Ewels P, Magnusson M, Lundin S, Käller M. MultiQC: merangkum hasil analisis untuk berbagai alat dan sampel dalam satu laporan. Bioinformatika. 2016 1 Oktober;32(19):3047-8. doi: 10.1093/bioinformatika/btw354. Epub 2016 16 Juni. PMID PubMed: 27312411; PMCID Pusat PubMed: PMC5039924.
paraclu
Frith MC, Valen E, Krogh A, Hayashizaki Y, Carninci P, Sandelin A. Kode untuk inisiasi transkripsi dalam genom mamalia. Res Genom. 2008 Januari;18(1):1-12. doi: 10.1101/gr.6831208. Epub 2007 21 November. PMID: 18032727; ID PMC: PMC2134772.
RSeQC
Wang L, Wang S, Li W. RSeQC: kontrol kualitas eksperimen RNA-seq Bioinformatika. 2012 15 Agustus;28(16):2184-5. doi: 10.1093/bioinformatika/bts356. Epub 2012 27 Juni. PMID PubMed: 22743226.
alat SAM
Li H, Handsaker B, Wysoker A, Fennell T, Ruan J, Homer N, Marth G, Abecasis G, Durbin R; 1000 Subkelompok Pemrosesan Data Proyek Genom. Format Penyelarasan Urutan/Peta dan SAMtools. Bioinformatika. 2009 15 Agustus;25(16):2078-9. doi: 10.1093/bioinformatika/btp352. Epub 2009 8 Juni. PMID PubMed: 19505943; PMCID Pusat PubMed: PMC2723002.
SortirMeRNA
Kopylova E, Noé L, Touzet H. SortMeRNA: penyaringan RNA ribosom yang cepat dan akurat dalam data metatranskriptomik Bioinformatika. 2012 15 Desember;28(24):3211-7. doi: 10.1093/bioinformatika/bts611. Epub 2012 15 Oktober. PMID PubMed: 23071270.
BINTANG
Dobin A, Davis CA, Schlesinger F, Drenkow J, Zaleski C, Jha S, Batut P, Chaisson M, Gingeras TR. BINTANG: Bioinformatika penyelaras RNA-seq universal ultracepat. 2013 1;29(1):15-21 Januari. doi: 10.1093/bioinformatika/bts635. Epub 2012 25 Oktober. PMID PubMed: 23104886; PMCID Pusat PubMed: PMC3530905.
alat UCSC
Kent WJ, Zweig AS, Barber G, Hinrichs AS, Karolchik D. BigWig dan BigBed: memungkinkan penelusuran kumpulan data terdistribusi besar. Bioinformatika. 2010 1 September;26(17):2204-7. doi: 10.1093/bioinformatika/btq351. Epub 2010 17 Juli. PMID PubMed: 20639541; PMCID Pusat PubMed: PMC2922891.
Anakonda
Distribusi Perangkat Lunak Anaconda. Perangkat lunak komputer. ayat. 2-2.4.0. Anaconda, November 2016. Web.
biokonda
Grüning B, Dale R, Sjödin A, Chapman BA, Rowe J, Tomkins-Tinch CH, Valieris R, Köster J; Tim Biokonda. Bioconda: distribusi perangkat lunak yang berkelanjutan dan komprehensif untuk ilmu kehidupan. Metode Nat. Juli 2018;15(7):475-476. doi: 10.1038/s41592-018-0046-7. PMID PubMed: 29967506.
BioContainer
da Veiga Leprevost F, Grüning B, Aflitos SA, Röst HL, Uszkoreit J, Barsnes H, Vaudel M, Moreno P, Gatto L, Weber J, Bai M, Jimenez RC, Sachsenberg T, Pfeuffer J, Alvarez RV, Griss J, Nesvizhskii AI, Perez-Riverol Y. BioContainers: kerangka kerja perangkat lunak sumber terbuka dan berbasis komunitas standardisasi. Bioinformatika. 2017 Agustus 15;33(16):2580-2582. doi: 10.1093/bioinformatika/btx192. PMID PubMed: 28379341; PMCID Pusat PubMed: PMC5870671.
Buruh pelabuhan
Keganjilan
Kurtzer GM, Sochat V, Bauer MW. Singularitas: Wadah ilmiah untuk mobilitas komputasi. PLoS Satu. 2017 11 Mei;12(5):e0177459. doi: 10.1371/journal.pone.0177459. eKoleksi 2017. PMID PubMed: 28494014; PMCID Pusat PubMed: PMC5426675.