DIA-NN - 用於資料獨立採集 (DIA) 蛋白質組資料處理的通用軟體套件。 DIA-NN 在英國劍橋大學Kathryn Lilley(劍橋蛋白質組學中心)的實驗室中構思,開啟了蛋白質組學的新篇章,引入了多種演算法,使用這些演算法可以實現可靠、穩健和定量準確的大規模實驗高通量方法。 DIA-NN 目前正在 Charité(德國柏林大學醫學院)的 Vadim Demichev 實驗室中進一步開發。
DIA-NN 建立在以下原則之上:
下載:https://github.com/vdemichev/DiaNN/releases/tag/1.9.2(建議使用最新版本 - DIA-NN 1.9.2)
請引用:
DIA-NN:神經網路與乾擾校正
在高通量中實現深度蛋白質體覆蓋NatureMethods,2020
使用 DIA-NN 分析翻譯後修飾 (PTM),例如磷酸化或泛素化: DIA-MS 進行的時間分辨體內泛素組分析揭示了蛋白質組範圍內的 USP7 標靶Nature Communications,2021
使用 DIA-NN 的離子淌度模組進行 timsTOF 資料分析或將 DIA-NN 與 FragPipe 產生的譜庫結合使用:使用 FragPipe 和 DIA-NN 進行 dia-PASEF 資料分析,進行低樣本量的深度蛋白質體學Nature Communications,2022
使用 DIA-NN 分析多重樣本(SILAC、mTRAQ 等):透過 plexDIA Nature Biotechnology 提高敏感蛋白質體學的通量,2022 年
使用 DIA-NN 作為 CysQuant 工作流程的一部分: CysQuant:使用數據依賴或獨立採集質譜法同時定量半胱氨酸氧化和蛋白質豐度Redox Biology,2023
使用 DIA-NN 的 QuantUMS 模組進行定量: QuantUMS:不確定性最小化可實現蛋白質體學中的可靠定量biorxiv
使用 DIA-NN 處理 Slice-PASEF 數據: Slice-PASEF:片段化所有離子以獲得蛋白質組學中的最大靈敏度biorxiv
其他關鍵論文
R 套件包含一些用於處理 DIA-NN 輸出報告的有用函數:https://github.com/vdemichev/diann-rpackage
蛋白質中勝肽位置的可視化:https://github.com/MannLabs/alphamap(AlphaMap by Mann lab)
關於蛋白質體學的一般註釋和討論以及 DIA-NN 的使用:https://github.com/vdemichev/DiaNN/discussions/categories/dia-proteomics-in-detail(本節將進一步擴展)。
安裝
入門
原始資料格式
光譜庫格式
輸出
無圖書館搜索
創建光譜庫
輪次之間的比賽
更改預設設定
命令列工具
視覺化
自動化管道
PTM 和勝肽型
使用 plexDIA 進行多路復用
GUI設定參考
命令列參考
主要輸出參考
常見問題 (FAQ)
支援
在Windows上,下載 .exe 安裝程式並執行它。確保不要從網路磁碟機執行安裝程式。建議將 DIA-NN 安裝到安裝程式建議的預設資料夾中。或者,只需將 .binaries.zip 檔案解壓縮到您選擇的位置。
在Linux上,下載並解壓縮 .Linux.zip 檔案。 Linux 版本的 DIA-NN 在 Linux Mint 21.2 上生成,目標系統必須具有至少最新的標準函式庫。但是,如果您製作 Docker 或 Apptainer/Singularity 容器映像,則沒有這樣的要求。要產生任一容器,我們建議從最新的 debian docker 映像開始 - 在這種情況下,您只需安裝sudo apt install libgomp1
即可在其中執行 DIA-NN。另請參閱羅傑·奧利維拉 (Roger Olivella) 撰寫的精彩詳細指南。為了獲得最佳效能,請使用具有動態覆蓋的 mimalloc,如 https://github.com/microsoft/mimalloc 中所述。
也可以使用Wine 6.8 或更高版本在 Linux 上執行 DIA-NN。
DIA 質譜數據可以透過兩種方式進行分析:透過搜尋序列資料庫(無文庫模式),或使用「光譜庫」——一組選定勝肽的已知光譜和保留時間。我們在無庫搜尋部分詳細討論了何時使用這些方法。對於這兩種分析,使用 DIA-NN 都非常簡單:
現在,以上資訊足以開始使用 DIA-NN,確實就是這麼簡單!本文檔的其餘部分可能會有所幫助,但對於 99% 的項目來說並不是必需的。
以上是如何使用預設設定來運行 DIA-NN,對於大多數實驗來說,這些都會產生最佳或幾乎最佳的效能。但在某些情況下,最好調整設置,請參閱更改預設設定以了解更多詳細資訊。
DIA-NN 也為奇特的實驗提供強大的調整選項。 DIA-NN 作為使用者友好的圖形介面實現,可自動呼叫命令列工具。但使用者也可以透過介面中的「其他選項」文字方塊直接將選項/命令傳遞給命令列工具。所有這些選項均以雙破折號開頭,後面跟著選項名稱以及一些要設定的參數(如果適用)。因此,如果您看到本文檔中提到的某些選項/命令的名稱中帶有 -- ,則表示該命令應在「其他選項」文字方塊中鍵入。
支援的格式:Sciex .wiff、Bruker .d、Thermo .raw、.mzML 和 .dia(DIA-NN 用於儲存光譜的格式)。可以從任何支援的格式轉換為 .dia。在 Linux(本機版本,而不是 Wine)上運行時,僅支援 .d、.mzML 和 .dia 資料。
如需 .wiff 支持,請下載並安裝 ProteoWizard - 選擇支援「供應商檔案」的版本(64 位元)。然後將名稱中包含“Clearcore”或“Sciex”的所有檔案(這些將是 .dll 檔案)從 ProteoWizard 資料夾複製到 DIA-NN 安裝資料夾(包含 diann.exe、DIA-NN.exe 和一個一堆其他文件)。
讀取 Thermo .raw 檔案需要安裝 Thermo MS File Reader。必須專門使用上面連結中的版本(3.0 SP3)。
.mzML 檔案應為質心並包含光譜資料(例如 SWATH/DIA)而不是色譜圖。
許多質譜格式(包括 DIA-NN 不直接支援的少數格式)可以使用 ProteoWizard 的 MSConvertGUI 應用程式轉換為 .mzML。這適用於除 Bruker .d 和 SCIEX Scanning SWATH 之外的所有支援的格式 - 這些需要由 DIA-NN 直接存取。必須使用以下 MSConvert 設定轉換:
DIA-NN 支援逗號分隔 (.csv)、製表符分隔(.tsv、.xls 或 .txt)或 .parquet 表作為光譜庫,以及 .speclib(DIA-NN 使用的緊湊格式)、.sptxt (SpectraST ,實驗性)和.msp(NIST,實驗性)庫檔。重要提示:文庫不得包含未碎片化的前驅離子作為「碎片」:每個碎片離子實際上必須由勝肽主鏈碎片產生。
PeakView 格式的庫以及由 FragPipe、TargetedFileConverter(OpenMS 的一部分)生成的庫、以 .xls 格式從 Spectronaut (Biognosys) 導出或由 DIA-NN 本身生成的庫均「按原樣」支援。
對於透過其他方式產生的 .tsv/.xls/.txt 函式庫,DIA-NN 可能需要使用 --library-headers 指令指定標頭名稱(以逗號分隔)(對於它需要的欄位)。使用 * 符號代替標題名稱以保持其自動識別。請參閱下面各列的描述(依照需要指定標題的順序)。
必填欄目:
強烈建議庫中也包含包含以下內容的欄位:
例如,指定除「Decoy」列之外的所有欄位名稱的 --library-headers 命令可能如下所示:
--library-headers ModifiedPeptide、PrecursorCharge、PrecursorMz、Tr_recaliblated、ProductMz、LibraryIntensity、UniprotID、ProteinName、Genes、Proteotypic、*、FragmentCharge、FmentType、FragmentSeriesNumber、FragmentSeriesNumber、Ftendyge、FmuledalidmentSeries
使用 --sptxt-acc 設定讀取 .sptxt/.msp 函式庫時的片段過濾品質精度(以 ppm 為單位)。
MaxQuant msms.txt 也可以(實驗性)用作 DIA-NN 中的譜庫,儘管固定修改可能無法正確讀取。
DIA-NN 可以將其支援的任何庫轉換為其自己的 .parquet 格式。為此,請按一下光譜庫(輸入窗格),選擇要轉換的庫,選擇輸出庫檔案名稱(輸出窗格),按一下執行。如果您使用某種奇特的庫格式,最好將其轉換為 DIA-NN 的 .parquet,然後檢查生成的庫(使用 R“arrow”或 Python“pyarrow”套件)以查看內容是否有意義。
所有 .tsv/.xls/.txt/.csv/.parquet 庫只是包含人類可讀資料的簡單表格,如有必要,可以使用 Excel 或(最好是)R/Python 進行探索/編輯。
重要的是,當任何庫轉換為不同的格式時,所有數字都可以使用特定的小數精度進行舍入,這意味著它們可能與原始庫中的不完全相同(可能存在微小差異)。因此,儘管使用轉換後的庫進行分析時的效能具有可比性,但結果不會完全匹配。
輸出窗格允許指定輸出的保存位置以及主輸出報告和(可選)輸出光譜庫的檔案名稱。 DIA-NN 使用這些檔名來衍生其所有輸出檔的名稱。下面可以找到不同類型 DIA-NN 輸出的資訊。對於大多數工作流程,只需要主報告(建議使用 R 或 Python 進行分析)或矩陣(MS Excel 的簡化輸出)。當啟用輸出矩陣產生時,DIA-NN 也會產生一個 .manifest.txt 文件,其中包含產生的輸出檔的簡要描述。
包含前驅物和蛋白質 ID 以及大量相關資訊的文字表。大多數列名稱都是不言自明的,完整的參考可以在主輸出參考中找到。命名列時使用以下關鍵字:
注意:自版本 1.9 起,DIA-NN 產生 Apache .parquet 格式的報告。這是一種壓縮文字表格式(大小減少約 10 倍),可以使用 R“arrow”套件或 Python“pyarrow”套件在單行程式碼中載入。大多數新功能(在 DIA-NN 1.9 中引入)僅反映在 parquet 報告中,因此建議在所有情況下都使用它來代替舊的 .tsv 報告,而 .tsv 報告仍然生成只是為了兼容舊的分析工作流程。可以使用 --no-main-report 關閉舊版 .tsv 報告的產生。除了使用 R 或 Python 之外,您還可以使用 TAD 檢視器檢視 .parquet 檔案。
這些包含蛋白質組(「pg_matrix」)、基因組(「gg_matrix」)、獨特基因(「unique_genes_matrix」;即僅使用蛋白質(即基因特異性)勝肽來識別和量化的基因)以及標準化的 MaxLFQ 數量。的數量('pr_matrix')。它們以 1% FDR 進行過濾,使用蛋白質組的全局 q 值以及前體的全局和特定於運行的 q 值。額外的 5% 運行特定的蛋白質水平 FDR 過濾器應用於蛋白質矩陣,使用 --matrix-spec-q 進行調整。有時,DIA-NN 會報告零作為前體或蛋白質數量的最佳估計。蛋白質/基因矩陣中省略了此類零數量。當磷酸化 (UniMod:21) 被宣告為變數修飾時,會產生特殊的磷酸位點定量矩陣(磷酸位點_90 和磷酸位點_99 .tsv),請參閱 PTM 和勝肽型。
. Protein_description.tsv 檔案與矩陣一起生成,包含 DIA-NN 已知的基本蛋白質資訊(序列 ID、名稱、基因名稱、描述、序列)。 DIA-NN 的未來版本將包含更多信息,例如蛋白質分子量。
包含許多可用於資料過濾的 QC 指標,例如排除失敗的運行或作為方法優化的讀取。請注意,此處報告的蛋白質數量對應於給定運行中 1% 獨特蛋白質 q 值的獨特蛋白質(即用蛋白型前體鑑定)的數量。這個數字可以從使用100% 的前體FDR 閾值產生的主報告中複製,並使用Protein.Q.Value <= 0.01 & Proteotypic == 1 進行過濾。 "設定.
基於主報告和統計報告的許多品質控制指標的可視化。 PDF 報告應僅用於數據的快速初步評估,不應在出版物中使用。
輸出窗格允許控制如何處理「.quant 檔案」。現在,為了解釋這些是什麼,讓我們考慮 DIA-NN 如何處理原始資料。它首先對實驗中每個單獨運行的計算要求較高的部分進行單獨的處理,並將鑑定和定量資訊保存到單獨的 .quant 文件中。處理完所有運行後,它會從所有 .quant 檔案收集資訊並執行一些交叉運行步驟,例如全局 q 值計算、蛋白質推斷、最終數量計算和歸一化。這使得 DIA-NN 能夠以非常靈活的方式使用。例如,您可以隨時停止處理,然後從停止處開始恢復處理。或者,您可以從實驗中刪除一些運行,添加一些額外的運行,然後快速重新運行分析,而無需對已處理的運行重新進行分析。所有這些都是透過使用現有的 .quant 檔案(可用時)選項啟用的。 .quant 檔案儲存到Temp/.dia 目錄(或與原始檔案相同的位置,如果沒有指定暫存資料夾)或從中讀取。使用此選項時,使用者必須確保使用與當前分析中應用的完全相同的設定來產生 .quant 文件,但Precursor FDR除外(前提是 <= 5%)、 Threads 、 Log level 、 MBR 、交叉運行規範化和庫生成- 這些設定可以不同。實際上甚至可以將 .quant 檔案傳輸到另一台電腦並在那裡重複使用它們 - 而無需傳輸原始原始檔案。重要提示:強烈建議僅在品質精度和掃描視窗都固定為某些值(非零)時重用 .quant 文件,否則 DIA-NN 將使用 .quant 文件的第一次運行再次對這些文件進行優化。找到Quant 檔。此外,當使用 MBR 或從 DIA 資料建立光譜庫並將庫產生設為智慧或完整分析時,僅當 .quant 檔案的生成順序與原始檔案的當前順序完全相同時,才應重複使用它們,即MBR DIA -NN 目前無法將多個單獨的分析組合在一起。
注意: .parquet 格式的主報告提供任何類型下游處理的完整輸出資訊。所有其他輸出類型都是為了簡化使用 MS Excel 或類似軟體時的分析。由於用於產生這些文件的過濾不同,不同類型的輸出文件中報告的前體和蛋白質的數量可能會有所不同,請參閱上面的描述。如果使用 R 或 Python 將前體 FDR 設定為 5% 生成,則可以從主 .parquet 報告複製所有「矩陣」。
DIA-NN 擁有非常先進的無庫模組,對於某些類型的實驗,它比使用高品質的專案特定光譜庫更好。一般來說,與光譜庫相比,以下因素使無庫搜尋表現更好(而相反的情況則有利於光譜庫):
請注意,在 99% 的情況下,必須啟用 MBR 才能進行定量無文庫分析。使用 DIA-NN GUI 時預設啟動它。
對於大多數實驗來說,嘗試無庫搜尋確實有意義。對於中型和大規模實驗,首先嘗試對資料子集進行無庫分析可能是有意義的,以查看效能是否正常(在整個資料集上,它通常會好得多,因此無需這裡太嚴格了)。我們自己也經常使用一些公共圖書館對實驗進行快速的初步品質控制評估。
通常可以方便地分兩步驟執行無庫分析:首先從序列資料庫建立電腦預測光譜庫,然後使用該庫進行分析。除了快速初步分析之外,這是在所有情況下都必須使用的策略。請注意,DIA-NN 中的管道功能允許輕鬆安排任務序列,例如建立預測庫,然後使用該庫進行多次分析。
請注意,搜尋空間(考慮的前驅總數)越大,分析軟體辨識勝肽的難度就越大,搜尋所需的時間就越長。 DIA-NN 非常擅長處理非常大的搜尋空間,但即使是 DIA-NN 也無法發揮魔法,無法在 1 億搜尋空間下產生與 200 萬個搜尋空間一樣好的結果。因此,需要小心地同時啟用所有可能的變數修改。例如,允許最多 5 個可變修飾,同時同時啟用蛋氨酸氧化、磷酸化和脫酰胺化,可能不是一個好主意。
這是 DIA 和 DDA 數據分析之間的一個重要區別。在 DDA 中,允許所有可能的變數修飾也很有意義,因為搜尋引擎需要將光譜與某些內容進行匹配 - 如果它與正確的修飾勝肽不匹配,則會錯誤匹配。在 DIA 中,方法從根本上不同:在所考慮的每個前驅離子的數據中找到最佳匹配光譜(這是一個非常簡化的視圖,只是為了說明概念)。因此,在 DIA 中,無法識別特定光譜從來都不是問題(事實上,DIA 中的大多數光譜都是高度多重的——源自多種勝肽——並且只能識別其中的一小部分)。因此,只有當您對特定變數特別感興趣或修改確實普遍存在時,啟用特定變數修改才有意義。
有關區分具有不同修飾組的勝肽型的信息,請參閱 PTM 和勝肽型。
DIA-NN 可以從任何 DIA 資料集建立光譜庫。這可以在基於光譜庫和無庫模式下完成:只需在輸出窗格中選擇生成光譜庫選項。
DIA-NN 可以進一步從序列資料庫(確保啟用FASTA 摘要)或另一個光譜庫(通常對公共圖書館有用)建立電腦預測光譜庫:只需執行 DIA-NN,無需指定任何原始文件,在母離子生成窗格中啟用基於深度學習的光譜、RT 和 IM 預測選項。深度學習預測器目前支援的修改有:C(cam)、M(ox)、N-term 乙醯基、N/Q(dea)、S/T/Y(phos)、K(-GG)、nK( mTRAQ) 和nK(TMT)。值得注意的是,如果 DIA-NN 中的預測器模組無法識別某些修改,它仍然會執行預測,只是忽略它。若要讓 DIA-NN 丟棄預測器未知的任何修飾的勝肽,請使用 --skip-unknown-mods。
光譜文庫也可以從 DDA 資料創建,事實上,自從 SWATH/DIA 蛋白質組學引入以來,離線分級分離 + DDA 一直是創建文庫的「黃金標準」方式。為此,我們建議使用 FragPipe,它基於超快且高度穩健的 MSFragger 搜尋引擎。 FragPipe 也可用於從 DIA 資料建立 DIA-NN 相容庫,類似於 DIA-NN 本身。
MBR是 DIA-NN 中的強大模式,對於大多數定量實驗都有好處,無論是有譜庫還是無譜庫模式。 MBR 通常會帶來更高的平均 ID 數,而且還會帶來更好的資料完整性,即缺失值要少得多。
在處理任何資料集時,DIA-NN 會收集大量有用的信息,這些資訊可用於更好地處理資料。這就是 MBR 所實現的。透過 MBR,DIA-NN 首先根據 DIA 資料建立光譜庫,然後用該光譜庫重新處理相同的資料集。 DIA-NN 中實施的演算法創新確保了 FDR 受到嚴格控制:MBR 已在從 2 次運行到超過 1000 次運行的資料集上進行了驗證。
應為任何定量實驗啟用 MBR,除非您有一個非常高品質的特定於專案的譜庫,您認為 (i) 可能提供幾乎完全覆蓋的可檢測勝肽,也就是說嘗試無庫是沒有意義的搜尋+ MBR,並且(ii) 文庫中的大多數勝肽實際上可以在DIA 實驗中檢測到。如果只有 (i) 為真,則可能仍然值得嘗試 MBR 以及將庫生成設為ID 分析。
MBR 不應用於非定量實驗,即當您只想建立光譜庫,然後將其用於其他一些資料集時。
人們可以使用兩步驟方法手動「模仿」MBR,這將產生可比較的效能。首先,運行 DIA-NN 以從 DIA 運行(整個實驗或只是其子集,這對於大規模實驗或包括空白/失敗運行的實驗)創建光譜庫。然後使用這個庫來分析整個實驗。無論哪種情況,都請在禁用 MBR 的情況下執行 DIA-NN。
當使用 MBR(或其仿製品)並依賴主 .parquet 報告(建議)而不是定量矩陣時,請使用以下 q 值過濾器:
DIA-NN 可以成功地用於處理幾乎所有使用預設值的實驗。一般來說,建議僅在本文檔中特別建議(如下所示)、針對特定實驗類型或有非常明確且令人信服的更改理由時才更改設定。
在許多情況下,人們可能想要更改「演算法」窗格中的多個參數。
如果這些與您的實驗相關,請另參閱有關無文庫搜尋、PTM 和勝肽型以及使用 plexDIA 進行多重分析的指南。
請注意,一旦您在 DIA-NN GUI 中選擇特定選項,其他一些設定可能會自動啟動。例如,每當您選擇執行電腦 FASTA 資料庫摘要(用於無庫搜尋),或只是從 DIA 資料產生光譜庫時,MBR 也會自動選擇 - 因為在 99% 的情況下它是有益的。
DIA-NN 作為圖形使用者介面 (GUI) 實現,它呼叫命令列工具 (diann.exe)。命令列工具也可以單獨使用,例如作為自訂自動化處理管道的一部分。此外,即使使用 GUI 時,也可以在其他選項文字方塊中將選項/命令傳遞給命令列工具。本文檔中提到了一些此類有用的選項,命令列參考中提供了完整的參考。
當 GUI 啟動命令列工具時,它會在日誌視窗中列印其使用的確切命令集。因此,為了重現使用 GUI 時觀察到的行為(例如,如果您想在 Linux 叢集上進行分析),可以直接將完全相同的命令傳遞給命令列工具。
diann.exe [commands]
命令按照提供的順序進行處理,並且對於大多數命令,此順序可以是任意的。
在 Linux 上,分號“;”字元被視為命令分隔符,因此“;”作為 DIA-NN 命令的一部分(例如 --channels)需要替換為 ';'在 Linux 上以獲得正確的行為。
為了方便起見,以及處理由數千個檔案組成的實驗,一些選項/命令可以儲存在設定檔中。為此,請建立一個具有任意副檔名的文字文件,例如 diann_config.cfg,在其中鍵入 DIA-NN 支援的任何命令,然後使用 --cfg diann_config.cfg 引用該檔案(在其他選項文字方塊中或在用於呼叫diann.exe命令列工具的命令)。
DIA-NN 提供兩種視覺化選項。
天際線。若要在 Skyline 中視覺化色譜圖/光譜,請使用指定的 MBR 和 FASTA 資料庫分析您的實驗,然後按一下「Skyline」按鈕。 DIA-NN 將自動啟動 Skyline(確保您已將 Skyline/Skyline daily 版本 23.1.1.459 或更高版本安裝為「管理員安裝」)。目前,此工作流程不支援多路復用,且不適用於 UniMod 以外的任何格式的修改。
DIA-NN 檢視器。選取“XIC”複選框後分析您的實驗,然後按一下“檢視器”按鈕。預設情況下,「XIC」選項將使 DIA-NN 僅提取庫碎片離子的色譜圖,並在從洗脫頂點開始的 10 秒內提取色譜圖。使用 - 毒性[n]將保留時間視窗設定為n秒(例如,毒性60將在距頂點一分鐘內提取色譜圖)和 - 毒性的預定率,以提取所有電荷1和2 y/b - 系列碎片,包括具有常見中性損失的碎片。請注意,使用 - 毒性預定率,尤其是與大保留時間視窗結合使用,可能需要大量的輸出資料夾中的磁碟空間。但是,對於任何實驗大小,視覺化本身實際上是瞬時的。
注意:以「 XIC」提取的色譜圖保存在apache .parquet格式中(檔案名稱以'。tox.parquet'結束),並且可以使用R或Python輕鬆存取。有時可以輕鬆準備出版物就緒的資料(儘管也可以使用Skyline或Dia-NN檢視器來做到這一點),甚至可以為LC-MS效能設定自動自訂品質控制。
可以使用Mann Lab https://github.com/mannlabs/alphamap使用Alphamap來視覺化蛋白質內的勝肽和修飾位置。
DIA-NN GUI中的管道視窗允許將多個分析步驟組合到管道中。每個管道步驟是GUI顯示的一組設定。一個人可以在管道中添加此類步驟,更新現有步驟,刪除步驟,向上/向上移動管道中的步驟,在管道中禁用/啟用(通過雙滑鼠單擊)某些步驟,並保存/加載管道。此外,可以在不同的GUI標籤/視窗之間複製單一管道步驟(為此使用複製和貼上按鈕)。我們總是組裝所有DIA-NN,用於管道中的特定出版物。一個人還可以使用DIA-NN管道儲存配置模板。
DIA-NN GUI具有內建工作流程(前驅離子產生窗格),用於檢測蛋氨酸氧化,N末端蛋白乙醯化,磷酸化和泛素化(透過檢測賴氨酸上的殘留-GG加合物) 。可以在其他選項中使用-var-mod或 - 固定模式來聲明其他修改。
區分具有不同修飾集的肽型是DIA中的一個非平凡問題:如果沒有特殊的肽型評分,則有效的肽型FDR可以在5-10%的範圍內用於無圖書館的分析。 DIA-NN實現了肽型評分的統計目標 - 指數方法,該方法由肽型選項(演算法窗格)啟用,並且每當透過GUI設定或-VAR-MOD命令聲明變數修改時,也會自動啟動。所得的勝肽型Q值反映了DIA-NN對勝肽報告的一組修飾的正確性以及所鑑定的胺基酸序列的正確性的信心。但是,這些Q值不能保證由於某些氨基酸取代或修改(例如脫氨酸)而沒有低品質轉移(請注意,DDA也不能保證這一點)。
此外,DIA-NN具有一種演算法,該演算法報告了PTM定位置信度估計(作為在.parquet輸出報告中包含的所有可變PTM位點正確定位的後驗機率以及單個位點的分數)。 Phosphosites_90和Phossites_99 .TSV檔案包含磷酸材料特異性的數量,該數量是使用Top 1方法(實驗)計算的,這是前體中最高的強度,該地點與指定的置信度(分別為0.9或0.99)被用作磷給定運行中的數量。這裡使用了“頂部1”演算法,因為它可能是對異常值和錯誤定位錯誤的最強大的。但是,是否確實需要調查這是最佳選擇,這是由於缺乏已知地面真相的基準而當前具有挑戰性的。
通常,在尋找PTM時,我們會建議以下內容:
必要:您要尋找的可變修改必須指定為變數(透過GUI複選框或其他選項)在產生在矽中預測的庫時,以及使用任何預測或經驗庫分析原始資料時
磷酸化的設定:最大3個變數修改,最大1缺失的裂解,磷酸化是指定的唯一變數修飾,前驅電荷範圍2-3;為了減少RAM使用情況,請確保指定的前驅質量範圍(產生預測庫時)不超過DIA方法選擇為MS/MS選擇的前驅質量範圍;為了加快使用預測庫時的加速處理,請先從實驗子集(例如10+運行量)中產生基於DIA的庫,然後使用MBR禁用的基於DIA的庫分析整個資料集
上述成功時,也可以嘗試最大2個錯過乳溝
在尋找磷酸化以外的其他PTM時,在95%的情況下,最好使用最大1至3個變量修改,而最大1丟失了裂解
當不尋找PTM時,即當目標是相對蛋白質定量時,啟用可變修飾通常不會產生更高的蛋白質體學深度。雖然通常也不會受到傷害,但它會使處理速度較慢。
據我們所知,沒有公開的驗證識別脫酰胺肽的識別信心(除非質量規格具有很高的分辨率和緊密的質量準確性/耐受性設置,否則很容易混淆為更重的同位素學搜尋引擎使用),甚至用於DDA。對脫膜肽識別的信心的一種方法是檢查是否確定了是否確定脫氨質量的質量三角洲是1.022694,而不是正確的值0.984016。 DIA-NN確實在幾個資料集上成功通過了此測試(指定此「誘餌修飾品質」時沒有報告ID),但是我們建議還要在實驗中進行幾次運行,請嘗試對實驗進行分析的幾項「誘餌修改品質」搜索,如果尋找脫酰胺的勝肽。在每種情況下(正確或誘餌品質),除肽型評分外,還應使用-pTM-QVALUES啟用PTM特異性評分進行脫氨酸,以及PTM.Q.Value或Global.Q.Value/Lib。 q。
值得注意的是,當最終目標是鑑定蛋白質時,如果修飾的勝肽被誤認為,則與源自不同勝肽型的光譜相匹配,這在很大程度上是無關緊要的。因此,如果實驗的目的是識別/量化特定的PTM,氨基酸取代或區分具有較高序列認同的蛋白質,則建議使用肽型成像型評分選項。在所有其他情況下,通常可以使用肽型評分,但不是必需的,並且通常會導致使用MBR時的處理速度較慢,並且識別率略有下降。
一般來說,是的。但是,大多數工作流程將無需識別修改而工作。儘管如果在庫中檢測到未知的修改,DIA-NN將列印出清單的警告,強烈建議使用模型來聲明它們。請注意,DIA-NN已經識別許多常見的修改,也可以載入整個Unimod資料庫,請參閱-full-unimod選項。
與Slavov實驗室合作,我們基於DIA-NN開發了PLEXDIA,該技術允許與DIA結合使用的非異種多路復用(Mtraq,Dimethyl,Silac)受益。為了分析叢實驗,需要一個在矽預測或經驗光譜庫。然後,根據分析方案,需要向DIA-NN提供以下一組命令。
方案1 。該庫是一個常規的無標籤庫(經驗或預測),並且純粹使用同位素標記實現多重庫,即沒有化學標記,帶有MTRAQ或Dimethyl等標籤。然後,DIA-NN需要以下選項添加到其他選項中:
K和R上的L/H Silac標籤的範例:
--fixed-mod SILAC,0.0,KR,label
--lib-fixed-mod SILAC
--channels SILAC,L,KR,0:0; SILAC,H,KR,8.014199:10.008269
--original-mods
請注意,在上面的Silac被聲明為標籤,即不應該改變勝肽的保留時間。它也是這裡的零品質標籤,因為它僅用於指定將標記的氨基酸。在dia-nn使用的內部庫表示中,在每個k或r之後,在每個k或r之後,將(固定模式和 - 固定模式)的組合簡單地放在(silac)。 - 隨後,渠道分別將每個庫的入口分別分為兩個,一個分別為k(silac)或r(silac)在序列中添加的質量0(k)和0(r),而另一個則具有8.014199(k)(k) )和10.008269(R)。
方案2 。該庫是一個常規的無標籤庫(經驗或預測),並且透過使用MTRAQ進行化學標記來實現多路復用。
方案2:步驟1。為此,在光譜庫字段中使用輸入庫運行DIA-NN,指定的輸出庫,基於深度學習的光譜,RTS和IMS預測,啟用了原始數據文件列表,在其他選項中,原始數據文件的列表和以下選項:
--fixed-mod mTRAQ,140.0949630177,nK
--lib-fixed-mod mTRAQ
--channels mTRAQ,0,nK,0:0; mTRAQ,4,nK,4.0070994:4.0070994;mTRAQ,8,nK,8.0141988132:8.0141988132
--original-mods
使用.preped.speclib文件,其中的名稱與輸出庫相對應作為下一步的光譜庫。
方案2:步驟2。
--fixed-mod mTRAQ,140.0949630177,nK
--channels mTRAQ,0,nK,0:0; mTRAQ,4,nK,4.0070994:4.0070994;mTRAQ,8,nK,8.0141988132:8.0141988132
--original-mods
請注意,不再需要 - 固定模型,因為步驟1中產生的庫已經包含(MTRAQ)在每個勝肽的N末端和賴氨酸處。
方案3 。該庫是一個常規的無標籤庫(經驗或預測),透過使用MTRAQ以外的其他標籤來實現多重庫。這種情況與方案2不同的治療方式不同的原因是,尚未專門針對MTRAQ以外的標籤進行專門訓練的DIA-NN,因此沒有必要產生預測的額外步驟。只需像在方案1中一樣運行DIA-NN,除非 - 固定模式聲明在這種情況下將具有非零質量,並且不會成為標籤。例如,對於Thielert等人所述的5通道二甲基:
‐‐fixed‐mod Dimethyl, 28.0313, nK
--lib-fixed-mod Dimethyl
‐‐channels Dimethyl,0,nK,0:0; Dimethyl,2,nK,2.0126:2.0126; Dimethyl,4,nK,4.0251:4.0251; Dimethyl,6,nK,6.0377:6.0377; Dimethyl,8,nK,8.0444:8.0444
--original-mods
方案4 。該庫是由DIA-NN從多重DIA資料集產生的經驗DIA庫。例如,這可能是DIA-NN在MBR的第一個通過中產生的庫(您想要重複使用它以分析相同的或其他運行)。然後,其他選項將與方案1,方案2:步驟2或方案3相同,除非(重要!) - 不得提供固定模式。
在上面的所有情況下,指定標準化策略的額外選項必須包括在其他選項中。這可以是 - 渠道運行 - - 脈衝 - SILAC,蛋白質週轉率)或 - 通道規格 - (獨立樣品的多重)。
輸出。我們建議使用.parquet格式的主要報告進行所有下游分析。請注意,當使用多路復用時,主報告中的pg.q.value和gg.q.value是通道特定的。如果使用(i)量子,且(ii)該報告對應於MBR或MBR的第二段,則數量pg.maxlfq,genes.maxlfq和genes.maxlfq.unique僅是通道特異性的。另外,可以使用矩陣(不建議),這些矩陣僅是前體層級。使用矩陣時,必須指定 - 矩陣-CH-QVALUE,合理閾值0.01至0.5。此設定不會影響提取的MS1矩陣,該矩陣僅報告與每個通道相對應的MS1訊號,每當在任何通道中識別前體時 - 通常不建議使用此矩陣。分析多路復用數據時不會產生蛋白質基質。
輸入窗格
前驅離子產生窗格
輸出窗格
演算法窗格
請注意,下面的某些選項對效能有很大損害,並且僅出於基準測試目的。因此,建議僅使用基於某些明確的理由的選項(例如本文檔中建議的那些(例如,在本文檔中建議的)有益的選項。