Bactopia は、細菌ゲノムを完全に分析するための柔軟なパイプラインです。 Bactopia の目標は、幅広いツールセットを使用してデータを処理し、分析の楽しい部分にすばやく到達できるようにすることです。
Bactopia は、Bactopia 分析パイプラインと Bactopia ツールの 2 つの主要な部分に分割できます。
Bactopia 分析パイプラインは、Bactopia の主要な分離ごとのワークフローです。 Nextflow で構築された入力 FASTQ (ローカルまたは SRA/ENA から入手可能) は、品質管理、アセンブリ、アノテーション、ミニマー スケッチ クエリ、シーケンス タイピングなどを含む多数の分析を経ます。
Bactopia ツールは、比較分析のための独立したワークフローのセットです。比較分析には、概要レポート、パンゲノム、または系統樹の構築が含まれる場合があります。 Bactopia の予測可能な出力構造を使用すると、Bactopia ツールでの処理に含めるサンプルを選択できます。
Bactopia は、私たち (Tim Read と私) がリリースした、黄色ブドウ球菌のゲノムをターゲットとするワークフローである Staphoopia からインスピレーションを受けました。 Staphoopia から学んだこととユーザーからのフィードバックを利用して、Bactopia は最初から使いやすさ、携帯性、速度を念頭に置いてゼロから開発されました。
クイックスタート
mamba create -y -n bactopia -c conda-forge -c bioconda bactopia conda activate bactopia bactopia datasets # Paired-end bactopia --R1 R1.fastq.gz --R2 R2.fastq.gz --sample SAMPLE_NAME --datasets datasets/ --outdir OUTDIR # Single-End bactopia --SE SAMPLE.fastq.gz --sample SAMPLE --datasets datasets/ --outdir OUTDIR # Multiple Samples bactopia prepare MY-FASTQS/ > fastqs.txt bactopia --fastqs fastqs.txt --datasets datasets --outdir OUTDIR # Single ENA/SRA Experiment bactopia --accession SRX000000 --datasets datasets --outdir OUTDIR # Multiple ENA/SRA Experiments bactopia search "staphylococcus aureus" > accessions.txt bactopia --accessions accessions.txt --dataset datasets --outdir ${OUTDIR}
Bactopia のワークフローには多くのツールが組み込まれています。ご想像のとおり、これらのツールはすべて多数の依存関係につながり、依存関係をナビゲートするのは非常にイライラするプロセスになることがよくあります。これを念頭に置いて、Bactopia は当初から、Conda を使用してインストール可能なプログラムのみを含めるように開発されました。
Conda は、Windows、macOS、Linux 上で動作するオープンソースのパッケージ管理システムおよび環境管理システムです。つまり、必要なツールのインストールが非常に簡単になります。 Conda の公式ドキュメントは、Conda を使い始めるための良い出発点です。 Bactopia は Miniforge インストーラーを使用してテストされていますが、Anaconda インストーラーでも同様に動作するはずです。
Conda をすべてセットアップしたら、Bactopia の環境を作成する準備が整います。
# Recommended mamba create -n bactopia -c conda-forge -c bioconda bactopia # or with standard conda conda create -n bactopia -c conda-forge -c bioconda bactopia
数分後には、 bactopiaという適切な名前の新しい conda 環境が作成されます。この環境をアクティブにするには、次のコマンドを使用します。
conda activate bactopia
これで、データの処理を開始する準備が整いました。
仕事で Bactopia を使用したことがある場合は、使用した可能性のあるデータセットやツールを必ず引用してください。 Bactopiaで使用されている各データセット/ツールのリストが公開されています。
引用を更新する必要がある場合は、お知らせください。
バクトピアはまさに「巨人の肩の上に立っている」ケースです。 Bactopia のほぼすべてのコンポーネントは他人によって作成され、一般に無料で公開されています。
これらのソフトウェア パッケージと公開データセットの作成者に個人的に多くの感謝の意を表したいと思います。ここまで来たら、ビールを一杯飲む義務がありますか? (またはコーヒー ☕!) いつか直接会えたら。本当に、ありがとうございました!
Bactopia がニーズに合わない場合は、チェックアウトできる代替手段をいくつか紹介します。私は個人的には使用したことがありませんが、あなたのニーズに合うものが見つかるかもしれません。 Bactopia の使用中に問題が発生した場合は、お気軽にご連絡ください。
アクアミス
デネケ C、ブレンデバッハ H、ユエルツェ L、ボロヴィアク M、マロルニー B、タウシュ SH。 AQUAMIS を使用した微生物分離シーケンスにおける種固有の品質管理、組み立ておよび汚染検出。遺伝子。 2021;12.土井:10.3390/genes12050644
ASA3P
Schwengers O、Hoek A、Fritzenwanker M、Falgenhauer L、Hain T、Chakraborty T、Goesmann A. ASA3P: 密接に関連した細菌分離株のアセンブリ、アノテーション、および高度な分析のための自動かつスケーラブルなパイプライン。 PLoS コンピューティング バイオ2020;16:e1007134。 https://doi.org/10.1371/journal.pcbi.1007134。
マイクロパイプ
Murigneux V、Roberts LW、Forde BM、Phan MD、Nhu NTK、Irwin AD、Harris PNA、Paterson DL、Schembri MA、 Whiley DM、Beatson SA MicroPIPE: 高品質の完全な細菌ゲノム構築のためのエンドツーエンドのワークフローを検証。 BMC ゲノミクス、22(1)、474. (2021) https://doi.org/10.1186/s12864-021-07767-z
ナラバー
ゼーマン T、ゴンサルベス ダ シウバ A、ブラッハ DM、シュルツ MB、クォン JC、ハウデン BP。ナラボーGithub https://github.com/tseemann/nullarbor
プロケボ
Pavlovik N、Gomes-Neto JC、Deogun JS、Benson AK ProkEvo: ハイスループットの細菌集団ゲノム解析のための自動化され、再現性があり、スケーラブルなフレームワークです。 PeerJ 、e11376 (2021) https://doi.org/10.7717/peerj.11376
公衆衛生細菌ゲノミクス
Libuit K、Ambrosio F、Kapsak C公衆衛生細菌ゲノミクスGitHub https://github.com/theiagen/public_health_bacterium_genomics
rMAP
Sserwadda I、Mboowa G rMAP: ESKAPE 細菌グループの全ゲノム配列データの高速微生物解析パイプライン。微生物ゲノミクス、7(6)。 (2021) https://doi.org/10.1099/mgen.0.000583
トルメス
Quijada NM、Rodríguez-Lázaro D、Eiros JM、Hernández M. TORMES: 全細菌ゲノム解析のための自動パイプライン。バイオインフォマティクス2019;35:4207–12。 https://doi.org/10.1093/bioinformatics/btz220。
あなたのフィードバックはとても貴重です! Bactopia の使用中に問題が発生した場合、質問がある場合、または Bactopia を改善するアイデアがある場合は、Issue Tracker に送信することを強くお勧めします。
MITライセンス
Petit III RA、Read TD、 Bactopia: 細菌ゲノムの完全な分析のための柔軟なパイプライン。 mシステム。 5 (2020)、https://doi.org/10.1128/mSystems.00190-20。
ロバート A. プティ 3 世
Twitter:@rpetit3
このプロジェクトへの支援は、CDC 新興感染症プログラム (U50CK000485) PPHF/ACA: Enhancing Epidemiology and Laboratory Capacity、ワイオミング州公衆衛生局、および応用病原体疫学センターによって資金提供されたエモリー公衆衛生バイオインフォマティクス フェローシップから (一部) 提供されました。アウトブレイクコントロール(CAPE)。