PoseidonのコードはNextFlowに転送されたため、まだいくつかのバグがあるかもしれないことに注意してください。お気軽に問題を報告してください!
ここでは、複数のタンパク質コーディングシーケンスのアライメントで有意に陽性の選択されたサイトと可能な組換えイベントを検出するパイプラインであるPoseidonを提示します。ポジティブな選択を受けるサイトは、進化中のウイルスホストアームレースの結果として蓄積された重要な突然変異ホットスポットを示す、シーケンスの進化の歴史に関する洞察を提供します。
Poseidonは、さまざまな異なるサードパーティツールに依存しています(以下を参照)。しかし、心配しないでください。各ツールを独自のDockerコンテナにカプセル化し、Workflow Management System NextFlowで接続しました。
Zhou et al 。 2020。
Pipelineを実行するには、NextFlow(バージョン20.+)とDockerがインストールされるだけです。すべての依存関係は自動的にプルされます。
このリポジトリをクローニングしてPoseidonを実行するか:
git clone https://github.com/hoelzer/poseidon.gitcd poseidon NextFlow Run poseidon.nf - ヘルプ
または、nextflowにプルを実行させます
NextFlow Pull Hoelzer/Poseidon
Poseidon viaの特定のリリースを使用することをお勧めします
#pullnextflow pull hoelzer/poseidon -r v1.0.1
インストール手順に応じて、 git pull
またはnextflow pull hoelzer/poseidon
介してパイプラインを更新します。
重要: Poseidonには、入力として正しいオープンリーディングフレームを備えたヌクレオチド配列が必要です。さらに、結果はシーケンスの選択に大きく依存するため、入力シーケンスの異なるサンプリングでパイプラインを複数回実行することを検討する場合があります。また、Pipelineはあまり多くのシーケンスで動作することはできません。これは、そのコアでPoseidonが100を超えるシーケンス用に意図されていないPAMLスイートのCodemlを使用しているためです。以下の入力パラメーターと設定の詳細な説明を見つけてください。
NextFlowは、ローカルマシン、高性能クラスター、クラウドなど、さまざまな環境で簡単に実行できます。異なる-profile
を使用して、次のフローを使用する必要があるシステムを伝えます。ローカル実行-profile local,docker
使用する必要があります(デフォルトでもあります)。また、 -profile lsf,singularity
、 -profile slurm,singularity
-profile sge,singularity
を介して特異点を使用してHPCでPoseidonを実行することもできます。そのような場合、クラスターに特異点画像を保存する場所を指すように、 --cachedir
を調整することも検討してください。パラメーター--workdir
、一時的な作業ディレクトリを保存する場所を調整するのにも役立つ場合があります(HPC構成に応じて/tmp
の代わりに使用/scratch
など)。
次に、PoseidonコードをプルするためにNextFlowを使用し、デフォルトのプロファイル-profile local,docker
使用してローカルマシンでパイプラインを実行すると仮定します。
#ヘルプを表示しますnextflow run hoelzer/poseidon - ヘルプ##(初めてドッカーコンテナがダウンロードされるため、これはもう少し時間が必要です)nextflow run hoelzer/poseidon -r v1.0.1 - fasta 〜/.nextflow/assets/hoelzer/poseidon/test_data/bats_mx1_small.fasta - コア4#再開broken runnextflow run hoelzer/poseidon -r v1.0.1 - fasta〜/.nextflow/assets/hoelzer/poseidon/test_data/bats_mx1_small.fasta - コア4- resume#すべての利用可能なコアを使用する代わりに、ローカルマシンエクステフフローで最大量のみを使用します。 -max_cores 8 - コア4
Fuchs et al 。 (2017)、Journal of Virology Run:
nextflow run hoelzer/poseidon -r v1.0.0 - fasta〜/.nextflow/assets/hoelzer/poseidon/test_data/bats_mx1.fasta -cores 4 -kh - outgroup "pteropus_alecto、eidolon_helvum、rousettus_aegyptiacus、hypsignatus_monstrosus" - reference "myotis_daubentonii"
Poseidonパイプラインは、相同タンパク質コード配列のインフレームアラインメント、推定の再結合イベントと進化的ブレークポイントの検出、系統発生の再構築と完全なアライメントおよびすべての可能な断片の正の選択された部位の検出で構成されています。最後に、すべての結果が組み合わされて、ユーザーフレンドリーでクリアなHTML Webページで視覚化されます。結果のアライメントフラグメントは、HTML出力の色付きのバーで示されています。
Translatorx(v1.1)、Abascal et al 。 (2010); 20435676
筋肉(v3.8.31)、エドガー(2004); 15034147
Raxml(v8.0.25)、Stamatakis(2014); 24451623
Newick Utilities(v1.6)、Junier and Zdobnov(2010); 20472542
ModelTest、Posada and Crandall(1998); 9918953
Hyphy(v2.2)、Pond et al 。 (2005); 15509596
ガード、ポンド等。 (2006); 17110367
paml/codeml(v4.8)、Yang(2007); 17483113
ルビー(v2.3.1)
inkscape(v1.0)
pdftex(v3.14)
Poseidonパラメーターのほとんどはオプションであり、以下に詳細に説明されています。
--fasta
必須。入力FASTAファイルはフォーマットに従う必要があります。
>Myotis_lucifugus Mx1 Gene ATGGCGATCGAGATACGATACGTA... >Myotis_davidii Mx1 Gene ATGGCGGTCGAGATAAGATACGTT...
すべてのシーケンスには、正しいオープンリーディングフレームが必要であり、ヌクレオチド文字[A | C | G | T]と内部停止コドンのみを含むことのみが許可されている必要があります。
シーケンスIDは、スペースが最初に発生するまで一意でなければなりません。
--reference
オプション。デフォルト:最初のシーケンスIDを参照として使用します。複数のFASTAファイルから1つの種IDを参照種として定義できます。この種に関しては、肯定的に選択された部位と対応するアミノ酸が描かれます。 IDは、最初のスペースが発生するまでFASTAヘッダーと一致する必要があります。たとえば、 Myotis Lucifugusが参照種とFASTAファイルが含まれている場合は、次のものが含まれています。
>Myotis_lucifugus Mx1 Gene ATGGCGATCGAGATACGATACGTA...
使用
--reference "Myotis_lucifugus"
参照種を設定するパラメーターとして。デフォルトごとに、複数のFASTAファイルで発生する最初のIDが使用されます。
--outgroup
オプション。デフォルト:ツリーは根が整えられていません。 1つまたは複数の(コンマ分離)種IDをアウトグループとして定義できます。すべての系統発生樹は、この種に従って根付いています。たとえば、複数のFASTAファイルが含まれている場合
ATGGCGATCGAGATACGATACGTA...
>Myotis_davidii Mx1 Gene
ATGGCGGTCGAGATAAGATACGTT...
>Pteropus_vampyrus Mx1 Gene
ATGGCCGTAGAGATTAGATACTTT...
>Eidolon_helvum Mx1 Gene
ATGCCCGTAGAGAATAGATACTTT...
あなたは定義することができます:
--outgroup "Pteropus_vampyrus,Eidolon_helvum"
この2つの種に関連してすべての木を根付く。
--kh
オプション。デフォルト:false。このパラメーターを使用すると、取るに足らないブレークポイントを考慮すべきかどうかを判断できます。すべてのブレークポイントは、Kishino(KH)テストKishino、H。およびHasegawa、M。(1989)を使用して、有意なトポロジカル不一致についてテストされています。 KHに有意なブレークポイントは、セグメント間の枝の長さの変動から最も頻繁に発生します。それにもかかわらず、KHに有意なブレークポイントを考慮に入れるのは興味深いことがあります。なぜなら、私たちはすでに有意なトポロジー的不一致なしにフラグメント内の推定的に選択されたサイトを観察したからです。 kHに伴う断片は、実際の組換えイベントから発生しない可能性があるため、最終出力にマークされています。
デフォルトごとに、さらなる計算には重要なブレークポイントのみが使用されます。
また、取るに足らないブレークポイントも使用すると、検出されたブレークポイントの数に応じて、Poseidonの実行時間を数分に延長できることにも留意してください。
他のパラメーター(Gard、Raxml、...)の--help
をご覧ください。さらにカスタマイズが必要かどうかをお知らせください!
Poseidonがあなたが引用してください。
MartinHölzerとManja Marz、「Poseidon:進化的再結合イベントとポジティブ選択の検出のための次の流れパイプライン」、 Oup Bioinformatics (2020)