DIA-NN - データ独立収集 (DIA) プロテオミクス データ処理のためのユニバーサル ソフトウェア スイート。 DIA-NN は、英国ケンブリッジ大学のキャスリン リリー研究室 (ケンブリッジ プロテオミクス センター) で考案され、プロテオミクスの新たな章を開き、信頼性が高く、堅牢で定量的に正確な大規模実験を可能にする多数のアルゴリズムを導入しました。ハイスループットなメソッド。 DIA-NN は現在、Charité (ベルリン医学大学、ドイツ) の Vadim Demichev の研究室でさらに開発中です。
DIA-NN は次の原則に基づいて構築されています。
ダウンロード: https://github.com/vdemichev/DiaNN/releases/tag/1.9.2 (最新バージョン - DIA-NN 1.9.2 を使用することをお勧めします)
引用してください:
DIA-NN: ニューラル ネットワークと干渉補正
ハイスループットでの深いプロテオームのカバーを可能にするNature Methods、2020
リン酸化やユビキチン化などの翻訳後修飾 (PTM) の分析に DIA-NN を使用: DIA-MS による時間分解 in vivo ユビキチノーム プロファイリングにより、プロテオーム全体のスケールで USP7 標的が明らかになりましたNature Communications, 2021
timsTOF データ分析のための DIA-NN のイオンモビリティ モジュールの使用、または FragPipe で生成されたスペクトル ライブラリーと DIA-NN の組み合わせの使用:低サンプル量の深いプロテオミクスのための FragPipe と DIA-NN を使用した dia-PASEF データ分析Nature Communications, 2022
多重化サンプル (SILAC、mTRAQ など) の分析に DIA-NN を使用: plexDIA による高感度プロテオミクスのスループットの向上Nature Biotechnology、2022
CysQuant ワークフローの一部として DIA-NN を使用する: CysQuant: データ依存型または独立型取得質量分析法を使用したシステイン酸化とタンパク質存在量の同時定量Redox Biology、2023
DIA-NN の QuantUMS モジュールを使用した定量化: QuantUMS: 不確実性の最小化により、プロテオミクス biorxiv で確実な定量化が可能になります
DIA-NN を使用した Slice-PASEF データの処理: Slice-PASEF: プロテオミクス biorxiv での感度を最大化するためにすべてのイオンをフラグメント化
その他の重要な論文
DIA-NN の出力レポートを処理するためのいくつかの便利な機能を備えたR パッケージ: https://github.com/vdemichev/diann-rpackage
タンパク質内のペプチド位置の視覚化: https://github.com/MannLabs/alphamap (AlphaMap by Mann lab)
プロテオミクス全般と DIA-NN の使用に関するメモとディスカッション: https://github.com/vdemichev/DiaNN/Discussions/categories/dia-proteomics-in-detail (このセクションはさらに拡張される予定です)。
インストール
はじめる
生データ形式
スペクトルライブラリフォーマット
出力
図書館不要の検索
スペクトルライブラリの作成
ラン間の試合
デフォルト設定の変更
コマンドラインツール
視覚化
自動化されたパイプライン
PTM とペプチドフォーム
plexDIAを使用した多重化
GUI設定リファレンス
コマンドラインリファレンス
メイン出力リファレンス
よくある質問(FAQ)
サポート
Windowsでは、.exe インストーラーをダウンロードして実行します。ネットワーク ドライブからインストーラーを実行しないように注意してください。 DIA-NN は、インストーラーによって提案されたデフォルトのフォルダーにインストールすることをお勧めします。または、.binaries.zip アーカイブを選択した場所に解凍します。
Linuxでは、.Linux.zip ファイルをダウンロードして解凍します。 DIA-NN の Linux バージョンは Linux Mint 21.2 で生成され、ターゲット システムには少なくとも最新の標準ライブラリが必要です。ただし、Docker または Apptainer/Singularity コンテナー イメージを作成する場合は、そのような要件はありません。いずれかのコンテナを生成するには、最新の Debian Docker イメージから始めることをお勧めします。この場合、DIA-NN を実行する前に、 sudo apt install libgomp1
インストールするだけで済みます。 Roger Olivella による優れた詳細ガイドも参照してください。最高のパフォーマンスを得るには、https://github.com/microsoft/mimalloc で説明されているように動的オーバーライドで mimalloc を使用します。
Wine 6.8 以降を使用して Linux 上で DIA-NN を実行することもできます。
DIA 質量分析データは 2 つの方法で分析できます。配列データベースに対する検索 (ライブラリーフリー モード)、または選択したペプチドの既知のスペクトルと保持時間のセットである「スペクトル ライブラリー」を使用することです。これらの各アプローチをいつ使用するかについては、「ライブラリを使用しない検索」セクションで詳しく説明します。どちらの種類の分析でも、DIA-NN の使用は非常に簡単です。
さて、DIA-NN を使い始めるには上記の情報だけで十分です。実に簡単です。このドキュメントの残りの部分は役に立つかもしれませんが、99% のプロジェクトにとって必須ではありません。
上記は、デフォルト設定で DIA-NN を実行する方法であり、これらにより、ほとんどの実験で最適またはほぼ最適なパフォーマンスが得られます。ただし、場合によっては、設定を調整した方がよい場合もあります。詳細については、「デフォルト設定の変更」を参照してください。
DIA-NN は、派手な実験のための強力なチューニング オプションも提供します。 DIA-NN は、コマンドライン ツールを自動的に呼び出す使いやすいグラフィカル インターフェイスとして実装されています。ただし、ユーザーはインターフェイスの追加オプションテキスト ボックスを使用して、オプション/コマンドをコマンド ライン ツールに直接渡すこともできます。これらのオプションはすべて二重ダッシュで始まり、その後にオプション名が続き、該当する場合は設定するパラメーターが続きます。したがって、このドキュメントで言及されている名前に -- が含まれるオプション/コマンドがある場合は、このコマンドが[追加オプション]テキスト ボックスに入力されることを意味します。
サポートされている形式: Sciex .wiff、Bruker .d、Thermo .raw、.mzML、および .dia (スペクトルを保存するために DIA-NN によって使用される形式)。サポートされている任意の形式から .dia への変換が可能です。 Linux (Wine ではなくネイティブ ビルド) で実行する場合、.d、.mzML、および .dia データのみがサポートされます。
.wiff をサポートするには、ProteoWizard をダウンロードしてインストールします - 「ベンダー ファイル」をサポートするバージョン (64 ビット) を選択します。次に、名前に「Clearcore」または「Sciex」が含まれるすべてのファイル (これらは .dll ファイルになります) を ProteoWizard フォルダーから DIA-NN インストール フォルダー (diann.exe、DIA-NN.exe、および他のファイルの束)。
Thermo .raw ファイルを読み取るには、Thermo MS File Reader がインストールされている必要があります。具体的には、上記のリンクにあるバージョン (3.0 SP3) を使用することが重要です。
.mzML ファイルはセントロイド化されており、クロマトグラムではなくスペクトル (SWATH/DIA など) としてデータが含まれている必要があります。
DIA-NN で直接サポートされていないいくつかの形式を含む、多くのマススペック形式は、ProteoWizard の MSConvertGUI アプリケーションを使用して .mzML に変換できます。これは、Bruker .d と SCIEX Scanning SWATH を除くすべてのサポートされている形式で機能します。これらは、DIA-NN によって直接アクセスする必要があります。変換には次の MSConvert 設定を使用する必要があります。
DIA-NN は、スペクトル ライブラリとしてカンマ区切り (.csv)、タブ区切り (.tsv、.xls、または .txt)、または .parquet テーブル、および .speclib (DIA-NN で使用されるコンパクト形式)、.sptxt をサポートします。 (SpectraST、実験的) および .msp (NIST、実験的) ライブラリ ファイル。重要: ライブラリには、フラグメント化されていない前駆体イオンを「フラグメント」として含めてはなりません。各フラグメント イオンは実際にペプチド骨格のフラグメンテーションによって生成される必要があります。
PeakView 形式のライブラリと、FragPipe、TargetedFileConverter (OpenMS の一部) によって作成されたライブラリ、Spectronaut (Biognosys) から .xls 形式でエクスポートされたライブラリ、または DIA-NN 自体によって生成されたライブラリは、「現状のまま」サポートされます。
他の方法で生成された .tsv/.xls/.txt ライブラリの場合、DIA-NN では --library-headers コマンドを使用してヘッダー名を (必要な列に対して) 指定する (カンマで区切る) 必要がある場合があります。ヘッダーの自動認識を維持するには、ヘッダー名の代わりに * 記号を使用します。以下の各列の説明を参照してください (ヘッダーを指定する必要がある順序で)。
必須の列:
以下を含む列もライブラリに存在することを強くお勧めします。
たとえば、「Decoy」列を除くすべての列名を指定する --library-headers コマンドは次のようになります。
--library-headers ModifiedPeptide、PrecursorCharge、PrecursorMz、Tr_recalibrated、ProductMz、LibraryIntensity、UniprotID、ProteinName、Genes、Proteotypic、*、FragmentCharge、FragmentType、FragmentSeriesNumber、FragmentLossType、QValue、ExcludeFromAssay、IonMobility
--sptxt-acc を使用して、.sptxt/.msp ライブラリを読み取る際のフラグメント フィルタリング質量精度 (ppm 単位) を設定します。
MaxQuant msms.txt は、DIA-NN のスペクトル ライブラリとして (実験的に) 使用することもできますが、修正された変更は正しく読み取られない可能性があります。
DIA-NN は、サポートするライブラリを独自の .parquet 形式に変換できます。このためには、 [スペクトル ライブラリ] ( [入力]ペイン) をクリックし、変換するライブラリを選択し、出力ライブラリファイル名 ( [出力]ペイン) を選択して、 [実行]をクリックします。特殊なライブラリ形式を使用する場合は、それを DIA-NN の .parquet に変換し、結果のライブラリを (R 'arrow' または Python 'pyarrow' パッケージを使用して) 調べて、内容が意味があるかどうかを確認することをお勧めします。
すべての .tsv/.xls/.txt/.csv/.parquet ライブラリは、人間が判読できるデータを含む単純なテーブルであり、必要に応じて Excel または (理想的には) R/Python を使用して探索/編集できます。
重要なのは、ライブラリが別の形式に変換される場合、すべての数値が特定の小数精度を使用して丸められる可能性があることです。これは、元のライブラリとまったく同じではない可能性があることを意味します (わずかな違いがある可能性があります)。したがって、変換されたライブラリを使用して分析する場合のパフォーマンスは同等ですが、結果は完全に一致しません。
[出力]ペインでは、出力の保存場所、メイン出力レポートおよび (オプションで) 出力スペクトル ライブラリのファイル名を指定できます。 DIA-NN はこれらのファイル名を使用して、すべての出力ファイルの名前を取得します。以下に、さまざまなタイプの DIA-NN 出力に関する情報を示します。ほとんどのワークフローでは、メイン レポート (R または Python での分析の場合 - 推奨) または行列 (MS Excel の簡素化された出力) のみが必要です。出力行列の生成が有効な場合、DIA-NN は、生成された出力ファイルの簡単な説明を含む .manifest.txt ファイルも生成します。
前駆体 ID とタンパク質 ID、および多くの関連情報を含むテキスト テーブル。ほとんどの列名は一目瞭然で、完全なリファレンスはメイン出力リファレンスにあります。列に名前を付ける場合は、次のキーワードが使用されます。
注:バージョン 1.9 以降、DIA-NN は Apache .parquet 形式でレポートを生成します。これは、R 'arrow' パッケージまたは Python 'pyarrow' パッケージを使用して 1 行のコードでロードできる圧縮テキスト テーブル形式 (サイズが約 10 倍縮小) です。新機能 (DIA-NN 1.9 で導入) のほとんどは寄木張りレポートにのみ反映されるため、あらゆる場合に従来の .tsv レポートの代わりに寄木細工レポートを使用することをお勧めします。ただし、.tsv レポートは引き続き、次の .tsv レポートとの互換性のためだけに生成されます。古い分析ワークフロー。従来の .tsv レポートの生成は、--no-main-report を使用してオフにできます。 R または Python の使用に加えて、TAD Viewer を使用して .parquet ファイルを表示することもできます。
これらには、タンパク質グループ (「pg_matrix」)、遺伝子グループ (「gg_matrix」)、固有の遺伝子 (「unique_genes_matrix」; つまり、タンパク質型、つまり遺伝子特異的なペプチドのみを使用して同定および定量化された遺伝子) の正規化された MaxLFQ 量と、正規化された MaxLFQ 量が含まれます。前駆体の量 (「pr_matrix」)。これらは、タンパク質グループのグローバル q 値と、前駆体のグローバルおよび実行固有の q 値の両方を使用して、1% FDR でフィルター処理されます。追加の 5% 実行固有のタンパク質レベル FDR フィルターがタンパク質マトリックスに適用されます。調整するには --matrix-spec-q を使用します。 DIA-NN は、前駆体またはタンパク質の量の最良の推定値としてゼロを報告する場合があります。このようなゼロ量は、タンパク質/遺伝子マトリックスから除外されます。リン酸化 (UniMod:21) が変数修飾として宣言されると、特殊なリン酸化サイト定量化マトリックス (phosphosites_90 および phosphosites_99 .tsv) が生成されます。PTM とペプチドフォームを参照してください。
.protein_description.tsv ファイルはマトリックスとともに生成され、DIA-NN に既知の基本的なタンパク質情報 (配列 ID、名前、遺伝子名、説明、配列) が含まれています。 DIA-NN の将来のバージョンには、タンパク質の分子量など、より多くの情報が含まれる予定です。
データのフィルタリングに使用できる多数の QC メトリクスが含まれています。たとえば、失敗した実行を除外したり、メソッドを最適化するための読み取り値として使用したりできます。ここで報告されるタンパク質の数は、1% の固有タンパク質 q 値での特定の実行における固有のタンパク質 (つまり、タンパク質型前駆体で同定された) の数に対応することに注意してください。この数値は、100% のプリカーサー FDR しきい値を使用して生成され、Protein.Q.Value <= 0.01 & Proteotypic == 1 を使用してフィルター処理されたメイン レポートから再現できます。ここで「タンパク質」としてカウントされるものは、「タンパク質推論」設定によって異なります。
メインレポートと統計レポートに基づいた、多数の QC 指標の視覚化。 PDF レポートは、データの迅速な予備評価のみに使用し、出版物には使用しないでください。
[出力]ペインでは、「.quant ファイル」の処理方法を制御できます。ここで、これらが何であるかを説明するために、DIA-NN が生データをどのように処理するかを考えてみましょう。まず、実験の実行ごとに処理の計算量の多い部分を個別に実行し、識別情報と定量情報を別の .quant ファイルに保存します。すべての実行が処理されると、すべての .quant ファイルから情報が収集され、グローバル q 値の計算、タンパク質の推論、最終量の計算、正規化などのいくつかのクロスラン ステップが実行されます。これにより、DIA-NN を非常に柔軟に使用できるようになります。たとえば、いつでも処理を停止し、停止した実行から処理を再開できます。または、実験から一部の実行を削除し、追加の実行を追加して、すでに処理された実行の分析をやり直すことなく、分析をすぐに再実行することもできます。これらはすべて、 [利用可能な場合は既存の .quant ファイルを使用する] オプションによって有効になります。 .quant ファイルは、Temp/.dia ディレクトリ(一時フォルダーが指定されていない場合は、生ファイルと同じ場所) に保存され、またはそこから読み取られます。このオプションを使用する場合、ユーザーは、 Precursor FDR (<= 5% の場合)、 Threads 、 Log levelを除き、現在の分析に適用されているのとまったく同じ設定で .quant ファイルが生成されていることを確認する必要があります。 MBR 、クロスラン正規化、ライブラリ生成- これらの設定は異なる場合があります。実際には、元の RAW ファイルを転送せずに、.quant ファイルを別のコンピュータに転送して、そこで再利用することも可能です。重要: 質量精度とスキャン ウィンドウの両方が特定の値 (ゼロ以外) に固定されている場合にのみ .quant ファイルを再利用することを強くお勧めします。そうでない場合、DIA-NN は、.quant ファイルの最初の実行を使用してこれらの最適化を再度実行します。 quant ファイルが見つかりませんでした。さらに、MBR を使用する場合、またはライブラリ生成をスマートまたはフル プロファイリングに設定して DIA データからスペクトル ライブラリを作成する場合、.quant ファイルは、生ファイルの現在の順序とまったく同じ順序で生成された場合にのみ再利用する必要があります。 MBR DIA-NN では現在、複数の個別の分析を組み合わせることができません。
注: .parquet 形式のメイン レポートは、あらゆる種類のダウンストリーム処理の完全な出力情報を提供します。他のすべての出力タイプは、MS Excel または同様のソフトウェアを使用する場合の分析を簡素化するためにあります。さまざまなタイプの出力ファイルで報告される前駆体とタンパク質の数は、それらを生成するために使用されるフィルターが異なるため、異なって表示される場合があります。上記の説明を参照してください。すべての「行列」は、R または Python を使用して、プリカーサー FDR を 5% に設定して生成された場合、メインの .parquet レポートから再現できます。
DIA-NN には、非常に高度なライブラリ不要のモジュールがあり、特定のタイプの実験では、高品質のプロジェクト固有のスペクトル ライブラリを使用するよりも優れています。一般に、次のようにすると、スペクトル ライブラリと比較してライブラリフリー検索のパフォーマンスが向上します (その逆はスペクトル ライブラリに有利です)。
99% の場合、ライブラリを使用しない定量分析には MBR を有効にすることが不可欠であることに注意してください。 DIA-NN GUI を使用する場合、デフォルトで有効になります。
ほとんどの実験では、ライブラリを使用しない検索を試すことは確かに意味があります。中規模および大規模な実験の場合は、最初にデータのサブセットに対してライブラリを使用しない分析を試して、パフォーマンスが大丈夫かどうかを確認するのが合理的かもしれません (通常、データセット全体でははるかに優れているため、パフォーマンスが良好であるかどうかを確認する必要はありません)。ここでは厳しすぎる)。私たち自身も、公共図書館を使用して、実験の簡単な予備 QC 評価を行うことがよくあります。
多くの場合、ライブラリーフリー分析を 2 つのステップで実行すると便利です。最初に配列データベースからインシリコで予測されたスペクトル ライブラリーを作成し、次にこのライブラリーを使用して分析します。これは、簡単な予備分析を除くすべての場合に使用する必要がある戦略です。 DIA-NN のパイプライン機能を使用すると、予測ライブラリの作成とその後のこのライブラリを使用した複数の分析など、一連のタスクを簡単にスケジュールできることに注意してください。
検索スペース (考慮される前駆体の総数) が大きくなるほど、分析ソフトウェアによるペプチドの同定が難しくなり、検索にかかる時間が長くなることにご注意ください。 DIA-NN は非常に大規模な検索スペースを処理するのに非常に優れていますが、DIA-NN ですら、200 万の検索スペースの場合と同様に、1 億の検索スペースで魔法のような優れた結果を生み出すことはできません。したがって、考えられるすべての変数変更を一度に有効にする場合には注意する必要があります。たとえば、メチオニンの酸化、ホスホ、脱アミド化を同時に有効にしながら、最大 5 つの可変修飾を許可するのは、おそらく良いアイデアではありません。
ここに、DIA と DDA データ分析の重要な違いがあります。 DDA では、考えられるすべての変数修飾を許可することは、検索エンジンがスペクトルを何かと一致させる必要があるため、非常に意味があります。また、正しい修飾ペプチドと一致しない場合、誤って一致すると考えられます。 DIA では、アプローチが根本的に異なります。考慮されている各前駆体イオンのデータ内で最もよく一致するスペクトルが見つかります (これは、概念を説明するためだけに非常に簡略化した図です)。したがって、特定のスペクトルを識別できないことが DIA では決して問題になることはありません (実際、DIA ではほとんどのスペクトルが高度に多重化されており、複数のペプチドに由来しており、識別できるのはその一部のみです)。したがって、特定の変数の変更を有効にするのは、その変数に特に関心がある場合、またはその変更が実際に遍在している場合にのみ意味があります。
異なる修飾セットを持つペプチドフォームを区別する方法については、「PTM とペプチドフォーム」を参照してください。
DIA-NN は、任意の DIA データセットからスペクトル ライブラリを作成できます。これは、スペクトル ライブラリベースのモードとライブラリなしのモードの両方で実行できます。出力ペインで[スペクトル ライブラリの生成]オプションを選択するだけです。
DIA-NN はさらに、配列データベース ( FASTA ダイジェストが有効になっていることを確認してください) または別のスペクトル ライブラリ (公共ライブラリに役立つことがよくあります) からイン シリコで予測されたスペクトル ライブラリを作成できます。生のファイルを指定せずに DIA-NN を実行するだけで、 [プリカーサー イオン生成]ペインで、深層学習ベースのスペクトル、RT および IM 予測オプションを有効にします。深層学習予測子で現在サポートされている変更は、C(cam)、M(ox)、N ターム アセチル、N/Q(dea)、S/T/Y(phos)、K(-GG)、nK( mTRAQ) および nK(TMT)。 DIA-NN の予測モジュールが何らかの変更を認識しない場合でも、それを無視して予測を実行することに注意してください。代わりに、DIA-NN が予測子にとって未知の修飾を持つペプチドを破棄するには、--skip-unknown-mods を使用します。
スペクトル ライブラリは DDA データから作成することもでき、実際、オフライン分画 + DDA は SWATH/DIA プロテオミクスの導入以来、ライブラリを作成する「ゴールド スタンダード」の方法となっています。このためには、超高速で非常に堅牢な MSFragger 検索エンジンに基づく FragPipe を使用することをお勧めします。さらに、FragPipe を使用して、DIA-NN 自体と同様に、DIA データから DIA-NN 互換ライブラリを作成することもできます。
MBRは DIA-NN の強力なモードであり、スペクトル ライブラリを使用するモードとライブラリなしモードの両方で、ほとんどの定量的実験に有益です。通常、MBR では平均 ID 番号が高くなるだけでなく、データの完全性も大幅に向上し、欠損値が大幅に減少します。
DIA-NN は、データセットを処理する際に、データをより適切に処理するために使用できた可能性がある多くの有用な情報を収集します。それが MBR によって可能になるのです。 MBR を使用すると、DIA-NN はまず DIA データからスペクトル ライブラリを作成し、次にこのスペクトル ライブラリを使用して同じデータセットを再処理します。 DIA-NN に実装されたアルゴリズムの革新により、FDR は厳密に制御されます。MBR は 2 回の実行から 1000 回を超える実行までの範囲のデータセットで検証されています。
MBR は、非常に高品質のプロジェクト固有のスペクトル ライブラリを持っている場合を除き、あらゆる定量実験で有効にする必要があります。(i) 検出可能なペプチドをほぼ完全にカバーできる可能性が高いと考えられる場合、つまり、ライブラリなしで試すことに意味はありません。検索 + MBR、および (ii) ライブラリー内のほとんどのペプチドが DIA 実験で実際に検出可能です。 (i) のみが当てはまる場合は、 ID プロファイリングに設定されたライブラリ生成とともに MBR を試してみる価値があるかもしれません。
MBR は、非定量的な実験には使用しないでください。つまり、スペクトル ライブラリを作成するだけで、それを他のデータセットで使用する場合です。
2 段階のアプローチを使用して手動で MBR を「模倣」すると、同等のパフォーマンスが得られます。まず、DIA-NN を実行して、DIA 実行 (実験全体またはそのサブセットのみ。大規模な実験やブランク/失敗した実行を含む実験の場合は、はるかに高速な場合があります) からスペクトル ライブラリを作成します。次に、このライブラリを使用して実験全体を分析します。いずれの場合も、MBR を無効にして DIA-NN を実行します。
MBR (またはその模倣品) を使用し、定量的行列の代わりにメインの .parquet レポート (推奨) に依存する場合は、次の q 値フィルターを使用します。
DIA-NN は、デフォルト設定でほぼすべての実験を処理するために使用できます。一般に、このドキュメント (以下のような) で特に指示されている場合、特定の実験タイプの場合、または変更に対する非常に明確で説得力のある根拠がある場合にのみ、設定を変更することをお勧めします。
多くの場合、 [アルゴリズム]ペインでいくつかのパラメーターを変更することが必要になる場合があります。
実験に関連する場合は、ライブラリーフリー検索、PTM とペプチドフォーム、および plexDIA を使用した多重化に関するガイダンスも参照してください。
DIA-NN GUI で特定のオプションを選択すると、他の設定が自動的に有効になる場合があることに注意してください。たとえば、インシリコ FASTA データベース ダイジェスト (ライブラリなしの検索用) を実行することを選択した場合、または DIA データからスペクトル ライブラリを生成することを選択した場合は常に、MBR も自動的に選択されます。これは、99% の場合、MBR が有益であるためです。
DIA-NN は、コマンド ライン ツール (dian.exe) を起動するグラフィカル ユーザー インターフェイス (GUI) として実装されています。コマンドライン ツールは、たとえばカスタム自動処理パイプラインの一部として、個別に使用することもできます。さらに、GUI を使用している場合でも、 [追加オプション]テキスト ボックスでオプション/コマンドをコマンド ライン ツールに渡すことができます。このような便利なオプションの一部はこのドキュメントで説明されており、完全なリファレンスはコマンド ライン リファレンスで提供されています。
GUI がコマンド ライン ツールを起動すると、使用したコマンドの正確なセットがログ ウィンドウに出力されます。したがって、GUI を使用したときに観察された動作を再現するには (たとえば、Linux クラスターで分析を実行したい場合)、まったく同じコマンドをコマンドライン ツールに直接渡すだけで済みます。
diann.exe [commands]
コマンドは指定された順序で処理されますが、ほとんどのコマンドではこの順序は任意です。
Linux では、セミコロン「;」文字はコマンド区切り文字として扱われるため、「;」 DIA-NN コマンド (例: --channels) の一部として、「;」に置き換える必要があります。 Linux では正しい動作が得られます。
便宜上、また数千のファイルで構成される実験を処理するために、一部のオプション/コマンドを構成ファイルに保存できます。このためには、diann_config.cfg などの任意の拡張子を持つテキスト ファイルを作成し、そこに DIA-NN でサポートされているコマンドを入力し、--cfg diann_config.cfg でこのファイルを参照します ( [追加オプション]テキスト ボックスまたはdiann.exe コマンド ライン ツールを呼び出すために使用されるコマンド)。
DIA-NN は 2 つの視覚化オプションを提供します。
スカイライン。 Skyline でクロマトグラム/スペクトルを視覚化するには、MBR と指定された FASTA データベースを使用して実験を分析し、[Skyline] ボタンをクリックします。 DIA-NN は Skyline を自動的に起動します (Skyline/Skyline Daily バージョン 23.1.1.459 以降が「管理者インストール」としてインストールされていることを確認してください)。現在、このワークフローは多重化をサポートしていないため、UniMod 以外の形式の変更では機能しません。
DIA-NNビューア。 「XIC」チェックボックスをオンにして実験を分析し、「ビューア」ボタンをクリックします。デフォルトの「XIC」オプションでは、DIA-NN が溶出頂点から 10 秒以内のライブラリーフラグメントイオンのみのクロマトグラムを抽出します。使用-Xixe [n]を使用して保持時間ウィンドウをn秒に設定します(例えば-xix 60は頂点から1分以内にクロマトグラムを抽出します)と - デキシ - 理論型FRを抽出して、すべての電荷1および2 y/bを抽出します - 一般的なニュートラル損失のあるものを含むシリーズフラグメント。特に大きな保持時間ウィンドウと組み合わせて、-xic-Theoretical-frを使用するには、出力フォルダーにかなりの量のディスクスペースが必要になる場合があることに注意してください。ただし、視覚化自体は、あらゆる実験サイズで事実上瞬間的です。
注:「XICS」で抽出されたクロマトグラムは、apache .Parquet形式( '.xic.parquet'で終了)で保存され、RまたはPythonを使用して容易にアクセスできます。これは、出版対象のフィギュアを準備するのに便利な場合があります(スカイラインまたはDIA-NNビューアでもできます)、またはLC-MSパフォーマンスの自動カスタム品質コントロールをセットアップすることさえできます。
タンパク質内のペプチドおよび修飾位置は、Mann Lab https://github.com/mannlabs/alphamapによってアルファマップを使用して視覚化できます。
DIA-NN GUI内のパイプラインウィンドウを使用すると、複数の分析ステップをパイプラインに組み合わせることができます。各パイプラインステップは、GUIによって表示される一連の設定です。このような手順をパイプラインに追加し、既存の手順を更新し、ステップを削除し、パイプラインでステップを上に移動し、パイプライン内の特定のステップを無効/有効にし、パイプラインを保存/ロードすることができます。さらに、個々のパイプラインステップは、異なるGUIタブ/ウィンドウの間でコピーペストすることができます(このためにボタンをコピーして貼り付けます)。私たちは常に、パイプラインで特定の出版物のためにすべてのDIA-NNランを組み立てます。 DIA-NNパイプラインを使用して、構成テンプレートを保存することもできます。
DIA-NN GUIは、メチオニン酸化、N末端タンパク質のアセチル化、リン酸化、ユビキチン化を検出するための組み込みのワークフロー(前駆体イオン生成ペイン)を特徴としています(リジン上のRemnant -GG付加物の検出を介して)。他のModificatonsは、追加のオプションで-Var-Modまたは-Fixed-Modを使用して宣言できます。
さまざまな修飾セットを持つペプチドホルムを区別することは、DIAでは非重要な問題です。特別なペプチドフォームがスコアリングすることがなければ、有効なペプチドフォームFDRは、ライブラリフリーの分析で5〜10%の範囲になります。 DIA-NNは、ペプチドフォームスコアリングの統計的ターゲットデコイアプローチを実装します。これは、 Peptidoformsオプション(アルゴリズムペイン)によって有効になり、GUI設定または-var-modコマンドを介して変数変更が宣言されるたびに自動的にアクティブ化されます。結果として生じるペプチドフォームQ値は、ペプチドについて報告された一連の修飾の正確性に対するDia-NNの信頼と同様に特定されたアミノ酸配列の正しさを反映しています。ただし、これらのQ値は、いくつかのアミノ酸置換または分離などの修飾による低質量シフトの欠如を保証するものではありません(DDAもこれを保証しないことに注意してください)。
さらに、DIA-NNは、.Parquet出力レポートに含まれるPTMのローカリゼーション信頼推定値(ペプチド上のすべての可変PTMサイトの正しいローカリゼーションの事後確率として)を報告するアルゴリズムを特徴としています(ペプチド上のすべての可変PTMサイトの正しいローカリゼーションと個々のサイトのスコアとして)。ホスホサイト_90およびホスホサイト_99 .TSVファイルには、トップ1メソッド(実験的)を使用して計算されたホスホサイト特異的量(実験)が含まれています。指定された実行中の量。 「上部1」アルゴリズムは、外れ値や誤解エラーに対して最も堅牢である可能性が高いため、ここで使用されます。ただし、これが実際に最良の選択肢であるかどうかを調査する必要があります。これは、既知のグラウンドトゥルースを備えたベンチマークがないために現在挑戦的です。
一般に、PTMを探すときは、次のことをお勧めします。
必須:探している変数の変更は、In Silico予測ライブラリを生成するときと、予測されたライブラリまたは経験的ライブラリを使用してRAWデータを分析するときに、変数として(GUIチェックボックスまたは追加オプションを介して)変数として指定する必要があります。
リン酸化の設定:最大3可変修正、最大1断reavage、リン酸化は指定された唯一の可変修飾、前駆体電荷範囲2〜3です。 RAMの使用量を減らすために、指定された前駆体質量範囲(予測ライブラリを生成するとき)が、DIAメソッドによってMS/MSに選択された前駆体質量範囲よりも幅が広くないことを確認してください。予測されたライブラリを使用するときに処理をスピードアップするには、最初に実験実行のサブセットからDIAベースのライブラリを生成し(たとえば10以上のベストラン)、次にMBRを無効にしてこのDIAベースのライブラリを使用してデータセット全体を分析します
上記が成功したら、Max 2を逃した裂け目も試してみてください
リン酸化以外のPTMを探している場合、最大1〜3の変動を使用するのが最適な症例の95%で、最大1は切断を逃しました
PTMを探していない場合、つまり目標が相対的なタンパク質の定量化である場合、変数の変更を有効にしても、通常、タンパク質の深さが高くなりません。通常も傷つくことはありませんが、処理が遅くなります。
私たちの知る限り、質量仕様が非常に高分解能で、緊密な質量精度/許容範囲がない限り、脱アミド化ペプチドの検出のための識別信頼性の公開された検証はありません(これはより重い同位体に混乱するのは簡単です。検索エンジンで使用)、DDAでも。分離ペプチドの識別に自信を得る1つの方法は、正しい値0.984016ではなく、脱アミド化の質量デルタが1.022694と宣言されているかどうかを確認することです。 DIA-NNは、このテストにいくつかのデータセットで正常に渡されます(この「デコイ変更質量」を指定するときにIDは報告されません)が、分析する実験からのいくつかの実行でこのような「デコイ変更質量」検索を試すことをお勧めします。 、脱アミド化されたペプチドを探している場合。それぞれの場合(正しいまたはおとりの質量)、-PTM-QValuesを使用して、ペプチドフォームスコアリング、およびPTM.Q.ValueまたはGlobal.Q.Value/libのいずれかに加えて、DeAmidationのPTM固有のスコアリングを有効にする必要があります。 Q.フィルタリングに使用される値。
注目すべきは、最終的な目標がタンパク質の識別である場合、別のペプチドホルムに由来するスペクトルに一致することにより、修正されたペプチドが誤認される場合、それはほとんど無関係です。したがって、実験の目的が特定のPTMS、アミノ酸置換を特定/定量化するか、シーケンス同一性が高いタンパク質を区別することである場合、ペプチドフォームスコアリングオプションが推奨されます。他のすべての場合、ペプチドホルムスコアリングは通常、使用することは問題ではありませんが、必要ではありません。通常、MBRを使用する場合、処理がやや遅いと識別数のわずかな減少につながります。
一般的にはそうです。ただし、ほとんどのワークフローは、変更を認識する必要なく機能します。ライブラリで不明な変更が検出された場合、DIA-NNはそれらをリストする警告を印刷し、 - modを使用してそれらを宣言することを強くお勧めします。 DIA-NNはすでに多くの一般的な変更を認識しており、UNIMODデータベース全体をロードできることに注意してください。-full-unimodオプションを参照してください。
Slavov Laboratoryと協力して、DIA-NNに基づいたPlexDiaを開発しました。Dia-NNは、DIAと組み合わせて非単位マルチプレックス(Mtraq、Dimethyl、Silac)の恩恵を受ける技術です。 PlexDiaの実験を分析するには、インシコの予測または経験的スペクトルライブラリが必要です。 Dia-NNには、分析シナリオに応じて、次のコマンドセットを提供する必要があります。
シナリオ1 。ライブラリは通常のラベルフリーライブラリ(経験的または予測)であり、多重化は純粋に同位体標識を使用して達成されます。 Dia-NNは、追加のオプションに追加するために次のオプションを必要とします。
KおよびRのL/H SILACラベルの例:
--fixed-mod SILAC,0.0,KR,label
--lib-fixed-mod SILAC
--channels SILAC,L,KR,0:0; SILAC,H,KR,8.014199:10.008269
--original-mods
上記のシラックはラベルとして宣言されていることに注意してください。つまり、ペプチドの保持時間を変更することは想定されていません。また、ここではゼロマスラベルです。これは、ラベルが付いているアミノ酸を指定するのに役立つためです。 -fixed-modと-lib-fixed-modの組み合わせは、Dia-nnが使用する内部ライブラリ表現に、前駆体IDシーケンスの各kまたはrの後に単純に(Silac)に配置されます。 - チャネルは各ライブラリのエントリを2つに分割し、1つはk(k)またはr(silac)の各発生時にそれぞれ0(k)および0(r)が追加され、それぞれシーケンスに、もう1つは8.014199(k)に分割されます(k )および10.008269(r)。
シナリオ2 。ライブラリは通常のラベルフリーライブラリ(経験的または予測)であり、Mtraqを使用した化学標識を介して多重化が達成されます。
シナリオ2:ステップ1。ライブラリにMtraqを使用してシリコにラベルを付け、Spectra/RTS/IMSを調整するために深い学習予測子を実行します。このために、スペクトルライブラリフィールドに入力ライブラリを使用してDIA-NNを実行します。指定されたディープラーニングベースのスペクトル、RTS、IMS予測が有効になっている出力ライブラリ、RAWデータファイルのリストが空になり、次のオプションが追加オプションであります。
--fixed-mod mTRAQ,140.0949630177,nK
--lib-fixed-mod mTRAQ
--channels mTRAQ,0,nK,0:0; mTRAQ,4,nK,4.0070994:4.0070994;mTRAQ,8,nK,8.0141988132:8.0141988132
--original-mods
次のステップのスペクトルライブラリとして、出力ライブラリに対応する名前を持つ.spedicted.speclibファイルを使用します。
シナリオ2:ステップ2。次のオプションを使用してDIA-NNを実行します。
--fixed-mod mTRAQ,140.0949630177,nK
--channels mTRAQ,0,nK,0:0; mTRAQ,4,nK,4.0070994:4.0070994;mTRAQ,8,nK,8.0141988132:8.0141988132
--original-mods
ステップ1で生成されたライブラリには、各ペプチドのn末端とリジンに既に(mtraq)が含まれているため、-libフィックスモッドはもはや必要ありません。
シナリオ3 。ライブラリは通常のラベルフリーライブラリ(経験的または予測)であり、Mtraq以外のラベルを使用した化学標識を介して多重化が達成されます。このシナリオがシナリオ2とは異なる方法で扱われる理由は、Dia-NNのシリコ予測子がMtraq以外のラベルのために特別に訓練されていないため、予測を生成するための追加ステップは必要ないためです。シナリオ1で行うようにDIA-NNを実行するだけですが、-fixed-mod宣言はこの場合はゼロ以外の質量があり、ラベルにはなりません。たとえば、Thielertらによって記述されている5チャンネルジメチルの場合:
‐‐fixed‐mod Dimethyl, 28.0313, nK
--lib-fixed-mod Dimethyl
‐‐channels Dimethyl,0,nK,0:0; Dimethyl,2,nK,2.0126:2.0126; Dimethyl,4,nK,4.0251:4.0251; Dimethyl,6,nK,6.0377:6.0377; Dimethyl,8,nK,8.0444:8.0444
--original-mods
シナリオ4 。ライブラリは、多重化されたDIAデータセットからDIA-NNによって生成された経験的DIAライブラリです。たとえば、これはMBRの最初のパスでDIA-NNによって生成されたライブラリである可能性があります(また、同じ実行または他の実行を分析するために再利用したい)。追加のオプションは、シナリオ1、シナリオ2:ステップ2またはシナリオ3と同じになります。
上記のすべてのシナリオで、正規化戦略を指定する追加オプションを追加のオプションに含める必要があります。これは、 - チャネルランノーム(パルスシラック、タンパク質の代謝回転)または - チャンネルスペックノーム(独立サンプルの多重化)のいずれかです。
出力。すべてのダウンストリーム分析には、.Parquet形式でメインレポートを使用することをお勧めします。メインレポートのPg.Q.ValueおよびGg.Q.Valueは、マルチプレックスを使用する場合、チャネル固有であることに注意してください。数量pg.maxlfq、genes.maxlfq、およびgenes.maxlfq.uniqueはチャネル固有の場合にのみ(i)Quantumsが使用され、(ii)MBRまたはMBRの2番目のパスに対応しています。または、マトリックスを使用することもできます(推奨されません)、これらは前駆体レベルのみです。マトリックスを使用する場合、合理的なしきい値0.01〜0.5で、-matrix-ch-qvalueを指定することが不可欠です。この設定は、抽出されたMS1マトリックスには影響しません。これは、各チャネルに対応するMS1信号を単純に報告します。これは、このマトリックスを使用して前駆体が識別されるたびに、通常は推奨されません。多重化データを分析するとき、タンパク質マトリックスは生成されません。
入力ペイン
前駆イオン生成ペイン
出力ペイン
アルゴリズムペイン
以下のいくつかのオプションは、パフォーマンスにとって非常に有害であり、ベンチマークの目的でのみ存在することに注意してください。したがって、推奨事項は、明確な根拠に基づいて、特定の実験(例:現在のドキュメントで推奨されているもの)に有益であると予想されるオプションのみを使用することです。