nf-core/cageseq は、 CAGE-seq シーケンス データに使用されるバイオインフォマティクス分析パイプラインです。
このパイプラインは、生の逆多重化された fastq ファイルを入力として受け取り、リンカーとアーティファクトのトリミング (cutadapt)、rRNA の除去 (SortMeRNA、参照ゲノムへのアラインメント (STAR または bowtie1)、および CAGE タグのカウントとクラスタリング (paraclu) のステップが含まれています。品質管理ステップ (FastQC、RSeQC、MultiQC) が含まれており、実行後の結果を簡単に検証できます。
パイプラインは、非常に移植性の高い方法で複数のコンピューティング インフラストラクチャにわたってタスクを実行するワークフロー ツールである Nextflow を使用して構築されます。 Docker コンテナーが付属しているので、インストールが簡単で、結果の再現性が高くなります。
nextflow
をインストールする
パイプラインを完全に再現するには、 Docker
、 Singularity
、またはPodman
のいずれかをインストールします( Conda
最後の手段としてのみ使用してください。ドキュメントを参照してください)。
パイプラインをダウンロードし、単一のコマンドを使用して最小限のデータセットでテストします。
nextflow run nf-core/cageseq -profile test, < docker/singularity/podman/conda/institute >
nf-core/configs をチェックして、nf-core パイプラインを実行するためのカスタム構成ファイルが研究所にすでに存在するかどうかを確認してください。その場合は、コマンドで
-profile
を使用するだけです。これにより、docker
またはsingularity
が有効になり、ローカル コンピューティング環境に適切な実行設定が設定されます。
独自の分析を開始してください。
nextflow run nf-core/cageseq -profile < docker/singularity/podman/conda/institute > --input ' *_R1.fastq.gz ' --aligner < ' star ' / ' bowtie1 ' > --genome GRCh38
パイプラインの実行時に使用可能なすべてのオプションについては、使用法に関するドキュメントを参照してください。
デフォルトでは、パイプラインは現在次のことを実行します。
FastQC
)cutadapt
)SortMeRNA
)、FastQC
)STAR
またはbowtie1
) へのリードアライメントparaclu
)RSeQC
)MultiQC
) nf-core/cageseq パイプラインには、パイプラインの使用法と出力に関するドキュメントが付属しています。
nf-core/cageseq はもともと Kevin Menden (@KevinMenden) と Tristan Kast (@TrisKast) によって作成され、Matthias Hörtenhuber (@mashhu) によって更新されました。
このパイプラインに貢献したい場合は、貢献ガイドラインをご覧ください。
さらに詳しい情報やヘルプが必要な場合は、Slack #cageseq
チャネルでお気軽にお問い合わせください (この招待状で参加できます)。
分析に nf-core/cageseq を使用する場合は、次の doi を使用して引用してください: 10.5281/zenodo.4095105
nf-core
出版物は次のように引用できます。
コミュニティが厳選したバイオインフォマティクス パイプラインの nf-core フレームワーク。
フィリップ・ユーエルズ、アレクサンダー・ペルツァー、スヴェン・フィリング、ハーシル・パテル、ヨハネス・アルネベルク、アンドレアス・ヴィルム、マキシム・ユリス・ガルシア、パオロ・ディ・トンマーゾ、スヴェン・ナンセン。
ナットバイオテクノロジー。 2020 年 2 月 13 日。土井: 10.1038/s41587-020-0439-x。 ReadCube: フルアクセスリンク
また、このパイプラインで使用されるツールとデータのリファレンスは次のとおりです。
Di Tommaso P、Chatzou M、Floden EW、Barja PP、Palumbo E、Notredame C. Nextflow により、再現可能な計算ワークフローが可能になります。ナットバイオテクノロジー。 2017 4 11;35(4):316-319。土井: 10.1038/nbt.3820。 PubMed PMID: 28398311。
BEDツール
クインラン AR、ホール IM。 BEDTools: ゲノムの特徴を比較するための柔軟なユーティリティ スイート。バイオインフォマティクス。 2010 年 3 月 15 日;26(6):841-2。土井:10.1093/bioinformatics/btq033。 Epub 2010 1 月 28 日。PubMed PMID: 20110278; PubMed Central PMCID: PMC2832824。
ちょうネクタイ
ラングミード B、トラップネル C、ポップ M、ザルツベルク SL。超高速かつメモリ効率よく、短い DNA 配列をヒトゲノムにアラインメントします。ゲノムバイオル。 2009;10(3):R25。土井: 10.1186/gb-2009-10-3-r25。 Epub 2009 3 4。PMID: 19261174; PMCID: PMC2690996。
カットアダプト
Martin, M.、2011。Cutadapt は、ハイスループット シーケンシング リードからアダプター シーケンスを削除します。 EMBネット。ジャーナル、17(1)、10-12ページ。
高速QC
マルチQC
Ewels P、Magnusson M、Lundin S、Käller M. MultiQC: 複数のツールとサンプルの分析結果を 1 つのレポートにまとめます。バイオインフォマティクス。 2016 10 1;32(19):3047-8。土井: 10.1093/bioinformatics/btw354。 Epub 2016 6 16。PubMed PMID: 27312411; PubMed Central PMCID: PMC5039924。
パラクル
Frith MC、Valen E、Krogh A、林崎 Y、Carninci P、Sandelin A. 哺乳類のゲノムにおける転写開始のコード。ゲノム研究所2008 年 1 月;18(1):1-12。土井: 10.1101/gr.6831208。 Epub 2007 11 21。PMID: 18032727; PMCID: PMC2134772。
RSeQC
Wang L、Wang S、Li W. RSeQC: RNA-seq 実験の品質管理 バイオインフォマティクス。 2012 8 月 15;28(16):2184-5。土井:10.1093/バイオインフォマティクス/bts356。 Epub 2012 6 27。PubMed PMID: 22743226。
SAMツール
リー H、ハンドセイカー B、ワイソーカー A、フェネル T、ルアン J、ホーマー N、マース G、アベカシス G、ダービン R。 1000 ゲノム プロジェクト データ処理サブグループ。シーケンス アライメント/マップ形式と SAMtools。バイオインフォマティクス。 2009 8 15;25(16):2078-9。土井: 10.1093/bioinformatics/btp352。 Epub 2009 6 月 8 日。PubMed PMID: 19505943; PubMed Central PMCID: PMC2723002。
ソートMeRNA
Kopylova E、Noé L、Touzet H. SortMeRNA: メタトランスクリプトーム データにおけるリボソーム RNA の高速かつ正確なフィルタリング バイオインフォマティクス。 2012 12 15;28(24):3211-7。土井:10.1093/バイオインフォマティクス/bts611。 Epub 2012 10 15。PubMed PMID: 23071270。
星
ドビン A、デイビス CA、シュレジンジャー F、ドレンコウ J、ザレスキー C、ジャー S、バトゥット P、チェイソン M、ジンゲラス TR。 STAR: 超高速ユニバーサル RNA-seq アライナー バイオインフォマティクス。 2013 年 1 月 1 日;29(1):15-21。土井:10.1093/バイオインフォマティクス/bts635。 Epub 2012 10 25。PubMed PMID: 23104886; PubMed Central PMCID: PMC3530905。
UCSC ツール
Kent WJ、Zweig AS、Barber G、Hinrichs AS、Karolchik D. BigWig および BigBed: 大規模な分散データセットの閲覧を可能にします。バイオインフォマティクス。 2010 9 1;26(17):2204-7。土井: 10.1093/bioinformatics/btq351。 Epub 2010 7 17。PubMed PMID: 20639541; PubMed Central PMCID: PMC2922891。
アナコンダ
アナコンダ ソフトウェア配布。コンピューター ソフトウェア。バージョン2-2.4.0。アナコンダ、2016 年 11 月。ウェブ。
ビオコンダ
グルーニング B、デイル R、ショーディン A、チャップマン BA、ロウ J、トムキンス ティンチ CH、ヴァリエリス R、ケスター J;ビオコンダチーム。 Bioconda: ライフ サイエンス向けの持続可能で包括的なソフトウェア配布。ナットメソッド。 2018 7 月;15(7):475-476。土井: 10.1038/s41592-018-0046-7。 PubMed PMID: 29967506。
バイオコンテナ
ダ・ベイガ・レプレヴォスト F、グルーニング B、アフリトス SA、レスト HL、ウシュコライト J、バースネス H、ヴォーデル M、モレノ P、ガット L、ウェーバー J、バイ M、ヒメネス RC、ザクセンベルク T、プフォイファー J、アルバレス RV、グリス J、 Nesvizhskii AI、Perez-Riverol Y. BioContainers: オープンソースおよびソフトウェア標準化のためのコミュニティ主導のフレームワーク。バイオインフォマティクス。 2017 8 月 15;33(16):2580-2582。土井: 10.1093/bioinformatics/btx192。 PubMed PMID: 28379341; PubMed Central PMCID: PMC5870671。
ドッカー
特異点
クルツァー GM、ソシャト V、バウアー MW。特異点: コンピューティングのモビリティのための科学的コンテナ。 PLoS ワン。 2017 5 月 11;12(5):e0177459。土井:10.1371/journal.pone.0177459。 eコレクション 2017。PubMed PMID: 28494014; PubMed Central PMCID: PMC5426675。