nf-core/cageseq 는 CAGE-seq 시퀀싱 데이터에 사용되는 생물정보학 분석 파이프라인입니다.
파이프라인은 원시 역다중화 fastq 파일을 입력으로 사용하며 링커 및 아티팩트 트리밍(cutadapt), rRNA 제거(SortMeRNA, 참조 게놈에 대한 정렬(STAR 또는 bowtie1) 및 CAGE 태그 계산 및 클러스터링(paraclu)을 위한 단계를 포함합니다. 또한 여러 실행 후 결과를 쉽게 확인할 수 있도록 품질 관리 단계(FastQC, RSeQC, MultiQC)가 포함되어 있습니다.
파이프라인은 이식성이 뛰어난 방식으로 여러 컴퓨팅 인프라에서 작업을 실행하는 워크플로 도구인 Nextflow를 사용하여 구축되었습니다. 도커 컨테이너가 함께 제공되어 설치가 간단하고 결과 재현성이 뛰어납니다.
nextflow
설치
전체 파이프라인 재현성을 위해 Docker
, Singularity
또는 Podman
중 하나를 설치하십시오 ( Conda
최후의 수단으로만 사용하십시오. 문서 참조).
파이프라인을 다운로드하고 단일 명령을 사용하여 최소 데이터세트에서 테스트합니다.
nextflow run nf-core/cageseq -profile test, < docker/singularity/podman/conda/institute >
nf-core 파이프라인을 실행하기 위한 사용자 정의 구성 파일이 귀하의 연구소에 이미 존재하는지 확인하려면 nf-core/configs를 확인하세요. 그렇다면 명령에
-profile
간단히 사용할 수 있습니다. 그러면docker
또는singularity
가 활성화되고 로컬 컴퓨팅 환경에 적합한 실행 설정이 설정됩니다.
나만의 분석을 시작해 보세요!
nextflow run nf-core/cageseq -profile < docker/singularity/podman/conda/institute > --input ' *_R1.fastq.gz ' --aligner < ' star ' / ' bowtie1 ' > --genome GRCh38
파이프라인을 실행할 때 사용 가능한 모든 옵션은 사용 문서를 참조하세요.
기본적으로 파이프라인은 현재 다음을 수행합니다.
FastQC
)cutadapt
)SortMeRNA
),FastQC
)STAR
또는 bowtie1
)에 대한 정렬 읽기paraclu
)RSeQC
)MultiQC
) nf-core/cageseq 파이프라인에는 파이프라인(사용 및 출력)에 대한 문서가 함께 제공됩니다.
nf-core/cageseq는 원래 Kevin Menden(@KevinMenden)과 Tristan Kast(@TrisKast)가 작성했으며 Matthias Hörtenhuber(@mashehu)가 업데이트했습니다.
이 파이프라인에 기여하고 싶다면 기여 지침을 참조하세요.
추가 정보나 도움이 필요하면 주저하지 말고 Slack #cageseq
채널에 문의하세요(이 초대를 통해 참여할 수 있음).
분석을 위해 nf-core/cageseq를 사용하는 경우 다음 doi를 사용하여 인용해 주세요: 10.5281/zenodo.4095105
다음과 같이 nf-core
출판물을 인용할 수 있습니다.
커뮤니티에서 선별한 생물정보학 파이프라인을 위한 nf-core 프레임워크입니다.
Philip Ewels, Alexander Peltzer, Sven Fillinger, Harshil Patel, Johannes Alneberg, Andreas Wilm, Maxime Ulysse Garcia, Paolo Di Tommaso 및 Sven Nahnsen.
Nat Biotechnol. 2020년 2월 13일. doi: 10.1038/s41587-020-0439-x. ReadCube: 전체 액세스 링크
또한, 본 파이프라인에 사용된 도구 및 데이터에 대한 참고자료는 다음과 같습니다.
Di Tommaso P, Chatzou M, Floden EW, Barja PP, Palumbo E, Notredame C. Nextflow는 재현 가능한 계산 워크플로우를 지원합니다. Nat Biotechnol. 2017년 4월 11일;35(4):316-319. 도이: 10.1038/nbt.3820. PubMed PMID: 28398311.
BED도구
Quinlan AR, 홀 IM. BEDTools: 게놈 특징을 비교하기 위한 유연한 유틸리티 제품군입니다. 생물정보학. 2010년 3월 15일;26(6):841-2. doi: 10.1093/bioinformatics/btq033. Epub 2010 1월 28일. PubMed PMID: 20110278; PubMed Central PMCID: PMC2832824.
나비넥타이
Langmead B, Trapnell C, Pop M, Salzberg SL. 인간 게놈에 대한 짧은 DNA 서열의 초고속 메모리 효율적인 정렬입니다. 게놈 바이오. 2009;10(3):R25. 도이: 10.1186/gb-2009-10-3-r25. Epub 2009 3월 4일. PMID: 19261174; PMCID: PMC2690996.
컷어댑트
Martin, M., 2011. Cutadapt는 처리량이 높은 시퀀싱 읽기에서 어댑터 시퀀스를 제거합니다. EMBnet. 저널, 17(1), pp.10-12.
패스트QC
멀티QC
Ewels P, Magnusson M, Lundin S, Käller M. MultiQC: 단일 보고서에 여러 도구 및 샘플에 대한 분석 결과를 요약합니다. 생물정보학. 2016년 10월 1일 32(19):3047-8. doi: 10.1093/bioinformatics/btw354. Epub 2016 6월 16일. PubMed PMID: 27312411; PubMed Central PMCID: PMC5039924.
파라클루
Frith MC, Valen E, Krogh A, Hayashizaki Y, Carninci P, Sandelin A. 포유류 게놈의 전사 개시에 대한 코드. 게놈 해상도. 2008년 1월;18(1):1-12. 도이: 10.1101/gr.6831208. Epub 2007 11월 21일. PMID: 18032727; PMCID: PMC2134772.
RSeQC
Wang L, Wang S, Li W. RSeQC: RNA-seq 실험의 품질 관리 생물정보학. 2012년 8월 15일;28(16):2184-5. 도이: 10.1093/bioinformatics/bts356. Epub 2012 6월 27일. PubMed PMID: 22743226.
SAMtools
Li H, Handsaker B, Wysoker A, Fennell T, Ruan J, Homer N, Marth G, Abecasis G, Durbin R; 1000 게놈 프로젝트 데이터 처리 하위 그룹. 시퀀스 정렬/맵 형식 및 SAMtools. 생물정보학. 2009년 8월 15일;25(16):2078-9. doi: 10.1093/bioinformatics/btp352. Epub 2009 6월 8일. PubMed PMID: 19505943; PubMed Central PMCID: PMC2723002.
SortMeRNA
Kopylova E, Noé L, Touzet H. SortMeRNA: 메타전사체 데이터 생물정보학에서 리보솜 RNA의 빠르고 정확한 필터링. 2012년 12월 15일;28(24):3211-7. 도이: 10.1093/bioinformatics/bts611. Epub 2012 10월 15일. PubMed PMID: 23071270.
별
Dobin A, Davis CA, Schlesinger F, Drenkow J, Zaleski C, Jha S, Batut P, Chaisson M, Gingeras TR. STAR: 초고속 범용 RNA-seq 정렬기 생물정보학. 2013년 1월 1;29(1):15-21. 도이: 10.1093/bioinformatics/bts635. Epub 2012 10월 25일. PubMed PMID: 23104886; PubMed Central PMCID: PMC3530905.
UCSC 도구
Kent WJ, Zweig AS, Barber G, Hinrichs AS, Karolchik D. BigWig 및 BigBed: 대규모 분산 데이터 세트 탐색 가능. 생물정보학. 2010년 9월 1일 26(17):2204-7. doi: 10.1093/bioinformatics/btq351. Epub 2010 7월 17일. PubMed PMID: 20639541; PubMed Central PMCID: PMC2922891.
아나콘다
아나콘다 소프트웨어 배포. 컴퓨터 소프트웨어. 구절 2-2.4.0. Anaconda, 2016년 11월. 웹.
비오콘다
Grüning B, Dale R, Sjödin A, Chapman BA, Rowe J, Tomkins-Tinch CH, Valieris R, Köster J; 비오콘다 팀. Bioconda: 생명 과학을 위한 지속 가능하고 포괄적인 소프트웨어 배포입니다. Nat 방법. 2018년 7월;15(7):475-476. 도이: 10.1038/s41592-018-0046-7. PubMed PMID: 29967506.
바이오컨테이너
da Veiga Leprevost F, Grüning B, Aflitos SA, Röst HL, Uszkoreit J, Barsnes H, Vaudel M, Moreno P, Gatto L, Weber J, Bai M, Jimenez RC, Sachsenberg T, Pfeuffer J, Alvarez RV, Griss J, Nesvizhskii AI, Perez-Riverol Y. BioContainers: 소프트웨어를 위한 오픈 소스 및 커뮤니티 기반 프레임워크 표준화. 생물정보학. 2017년 8월 15일 33(16):2580-2582. doi: 10.1093/bioinformatics/btx192. PubMed PMID: 28379341; PubMed Central PMCID: PMC5870671.
도커
특이
Kurtzer GM, Sochat V, Bauer MW. Singularity: 컴퓨팅 이동성을 위한 과학적인 컨테이너입니다. PLoS 원. 2017년 5월 11;12(5):e0177459. 도이: 10.1371/journal.pone.0177459. eCollection 2017. PubMed PMID: 28494014; PubMed Central PMCID: PMC5426675.