DIA-NN - 用于数据独立采集 (DIA) 蛋白质组数据处理的通用软件套件。 DIA-NN 在英国剑桥大学 Kathryn Lilley(剑桥蛋白质组学中心)的实验室中构思,开启了蛋白质组学的新篇章,引入了多种算法,使用这些算法可以实现可靠、稳健和定量准确的大规模实验高通量方法。 DIA-NN 目前正在 Charité(德国柏林大学医学院)的 Vadim Demichev 实验室中进一步开发。
DIA-NN 建立在以下原则之上:
下载:https://github.com/vdemichev/DiaNN/releases/tag/1.9.2(建议使用最新版本 - DIA-NN 1.9.2)
请引用:
DIA-NN:神经网络和干扰校正
在高通量中实现深度蛋白质组覆盖NatureMethods,2020
使用 DIA-NN 分析翻译后修饰 (PTM),例如磷酸化或泛素化: DIA-MS 进行的时间分辨体内泛素组分析揭示了蛋白质组范围内的 USP7 靶标Nature Communications,2021
使用 DIA-NN 的离子淌度模块进行 timsTOF 数据分析或将 DIA-NN 与 FragPipe 生成的谱库结合使用:使用 FragPipe 和 DIA-NN 进行 dia-PASEF 数据分析,进行低样本量的深度蛋白质组学Nature Communications,2022
使用 DIA-NN 分析多重样品(SILAC、mTRAQ 等):通过 plexDIA Nature Biotechnology 提高敏感蛋白质组学的通量,2022 年
使用 DIA-NN 作为 CysQuant 工作流程的一部分: CysQuant:使用数据依赖或独立采集质谱法同时定量半胱氨酸氧化和蛋白质丰度Redox Biology,2023
使用 DIA-NN 的 QuantUMS 模块进行定量: QuantUMS:不确定性最小化可实现蛋白质组学中的可靠定量biorxiv
使用 DIA-NN 处理 Slice-PASEF 数据: Slice-PASEF:片段化所有离子以获得蛋白质组学中的最大灵敏度biorxiv
其他关键论文
R 包包含一些用于处理 DIA-NN 输出报告的有用函数:https://github.com/vdemichev/diann-rpackage
蛋白质中肽位置的可视化:https://github.com/MannLabs/alphamap(AlphaMap by Mann lab)
关于蛋白质组学的一般注释和讨论以及 DIA-NN 的使用:https://github.com/vdemichev/DiaNN/discussions/categories/dia-proteomics-in-detail(本节将进一步扩展)。
安装
入门
原始数据格式
光谱库格式
输出
无图书馆搜索
创建光谱库
轮次之间的比赛
更改默认设置
命令行工具
可视化
自动化管道
PTM 和肽型
使用 plexDIA 进行多路复用
GUI设置参考
命令行参考
主要输出参考
常见问题 (FAQ)
支持
在Windows上,下载 .exe 安装程序并运行它。确保不要从网络驱动器运行安装程序。建议将 DIA-NN 安装到安装程序建议的默认文件夹中。或者,只需将 .binaries.zip 存档解压到您选择的位置。
在Linux上,下载并解压 .Linux.zip 文件。 Linux 版本的 DIA-NN 是在 Linux Mint 21.2 上生成的,目标系统必须具有至少最新的标准库。但是,如果您制作 Docker 或 Apptainer/Singularity 容器映像,则没有这样的要求。要生成任一容器,我们建议从最新的 debian docker 映像开始 - 在这种情况下,您只需安装sudo apt install libgomp1
即可在其中运行 DIA-NN。另请参阅罗杰·奥利维拉 (Roger Olivella) 撰写的精彩详细指南。为了获得最佳性能,请使用具有动态覆盖的 mimalloc,如 https://github.com/microsoft/mimalloc 中所述。
还可以使用Wine 6.8 或更高版本在 Linux 上运行 DIA-NN。
DIA 质谱数据可以通过两种方式进行分析:通过搜索序列数据库(无文库模式),或使用“光谱库”——一组选定肽的已知光谱和保留时间。我们在无库搜索部分详细讨论了何时使用这些方法。对于这两种分析,使用 DIA-NN 都非常简单:
现在,以上信息足以开始使用 DIA-NN,确实就是这么简单!本文档的其余部分可能会有所帮助,但对于 99% 的项目来说并不是必需的。
以上是如何使用默认设置运行 DIA-NN,对于大多数实验来说,这些都会产生最佳或几乎最佳的性能。但在某些情况下,最好调整设置,请参阅更改默认设置了解更多详细信息。
DIA-NN 还为奇特的实验提供强大的调整选项。 DIA-NN 作为用户友好的图形界面实现,可自动调用命令行工具。但用户也可以通过界面中的“其他选项”文本框直接将选项/命令传递给命令行工具。所有这些选项均以双破折号开头,后跟选项名称以及一些要设置的参数(如果适用)。因此,如果您看到本文档中提到的某些选项/命令的名称中带有 -- ,则意味着该命令应在“其他选项”文本框中键入。
支持的格式:Sciex .wiff、Bruker .d、Thermo .raw、.mzML 和 .dia(DIA-NN 用于存储光谱的格式)。可以从任何支持的格式转换为 .dia。在 Linux(本机版本,而不是 Wine)上运行时,仅支持 .d、.mzML 和 .dia 数据。
如需 .wiff 支持,请下载并安装 ProteoWizard - 选择支持“供应商文件”的版本(64 位)。然后将名称中包含“Clearcore”或“Sciex”的所有文件(这些文件为 .dll 文件)从 ProteoWizard 文件夹复制到 DIA-NN 安装文件夹(包含 diann.exe、DIA-NN.exe 和一个一堆其他文件)。
读取 Thermo .raw 文件需要安装 Thermo MS File Reader。必须专门使用上面链接中的版本(3.0 SP3)。
.mzML 文件应为质心并包含光谱数据(例如 SWATH/DIA)而不是色谱图。
许多质谱格式(包括 DIA-NN 不直接支持的少数格式)可以使用 ProteoWizard 的 MSConvertGUI 应用程序转换为 .mzML。这适用于除 Bruker .d 和 SCIEX Scanning SWATH 之外的所有受支持的格式 - 这些需要由 DIA-NN 直接访问。必须使用以下 MSConvert 设置进行转换:
DIA-NN 支持逗号分隔 (.csv)、制表符分隔(.tsv、.xls 或 .txt)或 .parquet 表作为光谱库,以及 .speclib(DIA-NN 使用的紧凑格式)、.sptxt (SpectraST,实验性)和 .msp(NIST,实验性)库文件。重要提示:文库不得包含未碎片化的前体离子作为“碎片”:每个碎片离子实际上必须由肽主链碎片产生。
“按原样”支持 PeakView 格式的库以及由 FragPipe、TargetedFileConverter(OpenMS 的一部分)生成的库、以 .xls 格式从 Spectronaut (Biognosys) 导出或由 DIA-NN 本身生成的库。
对于通过其他方式生成的 .tsv/.xls/.txt 库,DIA-NN 可能需要使用 --library-headers 命令指定标头名称(用逗号分隔)(对于它需要的列)。使用 * 符号代替标题名称以保持其自动识别。请参阅下面各列的描述(按照需要指定标题的顺序)。
必填栏目:
强烈建议库中也包含包含以下内容的列:
例如,指定除“Decoy”列之外的所有列名称的 --library-headers 命令可能如下所示:
--library-headers ModifiedPeptide、PrecursorCharge、PrecursorMz、Tr_recaliblated、ProductMz、LibraryIntensity、UniprotID、ProteinName、Genes、Proteotypic、*、FragmentCharge、FragmentType、FragmentSeriesNumber、FragmentLossType、QValue、ExcludeFromAssay、IonMobility
使用 --sptxt-acc 设置读取 .sptxt/.msp 库时的片段过滤质量精度(以 ppm 为单位)。
MaxQuant msms.txt 也可以(实验性)用作 DIA-NN 中的谱库,尽管固定修改可能无法正确读取。
DIA-NN 可以将其支持的任何库转换为其自己的 .parquet 格式。为此,单击光谱库(输入窗格),选择要转换的库,选择输出库文件名(输出窗格),单击运行。如果您使用某种奇特的库格式,最好将其转换为 DIA-NN 的 .parquet,然后检查生成的库(使用 R“arrow”或 Python“pyarrow”包)以查看内容是否有意义。
所有 .tsv/.xls/.txt/.csv/.parquet 库只是包含人类可读数据的简单表格,如有必要,可以使用 Excel 或(理想情况下)R/Python 进行探索/编辑。
重要的是,当任何库转换为不同的格式时,所有数字都可以使用特定的小数精度四舍五入,这意味着它们可能与原始库中的不完全相同(可能有微小的差异)。因此,尽管使用转换后的库进行分析时的性能具有可比性,但结果不会完全匹配。
输出窗格允许指定输出的保存位置以及主输出报告和(可选)输出光谱库的文件名。 DIA-NN 使用这些文件名来派生其所有输出文件的名称。下面可以找到有关不同类型 DIA-NN 输出的信息。对于大多数工作流程,只需要主报告(推荐使用 R 或 Python 进行分析)或矩阵(MS Excel 的简化输出)。当启用输出矩阵生成时,DIA-NN 还会生成一个 .manifest.txt 文件,其中包含生成的输出文件的简要描述。
包含前体和蛋白质 ID 以及大量相关信息的文本表。大多数列名称都是不言自明的,完整的参考可以在主输出参考中找到。命名列时使用以下关键字:
注意:自版本 1.9 起,DIA-NN 生成 Apache .parquet 格式的报告。这是一种压缩文本表格式(大小减少约 10 倍),可以使用 R“arrow”包或 Python“pyarrow”包在单行代码中加载。大多数新功能(在 DIA-NN 1.9 中引入)仅反映在 parquet 报告中,因此建议在所有情况下都使用它来代替旧的 .tsv 报告,而 .tsv 报告仍然生成只是为了兼容旧的分析工作流程。可以使用 --no-main-report 关闭旧版 .tsv 报告的生成。除了使用 R 或 Python 之外,您还可以使用 TAD 查看器查看 .parquet 文件。
这些包含蛋白质组(“pg_matrix”)、基因组(“gg_matrix”)、独特基因(“unique_genes_matrix”;即仅使用蛋白质(即基因特异性)肽来识别和量化的基因)以及标准化的 MaxLFQ 数量。前体的数量('pr_matrix')。它们以 1% FDR 进行过滤,使用蛋白质组的全局 q 值以及前体的全局和特定于运行的 q 值。额外的 5% 运行特定的蛋白质水平 FDR 过滤器应用于蛋白质矩阵,使用 --matrix-spec-q 进行调整。有时,DIA-NN 会报告零作为前体或蛋白质数量的最佳估计。蛋白质/基因矩阵中省略了此类零数量。当磷酸化 (UniMod:21) 被声明为变量修饰时,会生成特殊的磷酸位点定量矩阵(磷酸位点_90 和磷酸位点_99 .tsv),请参阅 PTM 和肽型。
. Protein_description.tsv 文件与矩阵一起生成,包含 DIA-NN 已知的基本蛋白质信息(序列 ID、名称、基因名称、描述、序列)。 DIA-NN 的未来版本将包含更多信息,例如蛋白质分子量。
包含许多可用于数据过滤的 QC 指标,例如排除失败的运行或作为方法优化的读数。请注意,此处报告的蛋白质数量对应于给定运行中 1% 独特蛋白质 q 值的独特蛋白质(即用蛋白型前体鉴定)的数量。该数字可以从使用 100% 的前体 FDR 阈值生成的主报告中复制,并使用 Protein.Q.Value <= 0.01 & Proteotypic == 1 进行过滤。这里算作“蛋白质”的内容取决于“蛋白质推断”设置。
基于主报告和统计报告的许多质量控制指标的可视化。 PDF 报告应仅用于数据的快速初步评估,不应在出版物中使用。
输出窗格允许控制如何处理“.quant 文件”。现在,为了解释这些是什么,让我们考虑一下 DIA-NN 如何处理原始数据。它首先为实验中的每个单独运行单独执行计算要求较高的处理部分,并将鉴定和定量信息保存到单独的 .quant 文件中。处理完所有运行后,它会从所有 .quant 文件收集信息并执行一些交叉运行步骤,例如全局 q 值计算、蛋白质推断、最终数量计算和归一化。这使得 DIA-NN 能够以非常灵活的方式使用。例如,您可以随时停止处理,然后从停止处开始恢复处理。或者,您可以从实验中删除一些运行,添加一些额外的运行,然后快速重新运行分析,而无需对已处理的运行重新进行分析。所有这些都是通过使用现有的 .quant 文件(可用时)选项启用的。 .quant 文件保存到Temp/.dia 目录(或者与原始文件相同的位置,如果没有指定临时文件夹)或从中读取。使用此选项时,用户必须确保使用与当前分析中应用的完全相同的设置生成 .quant 文件,但Precursor FDR除外(前提是 <= 5%)、 Threads 、 Log level 、 MBR 、交叉运行规范化和库生成- 这些设置可以不同。实际上甚至可以将 .quant 文件传输到另一台计算机并在那里重复使用它们 - 而无需传输原始原始文件。重要提示:强烈建议仅在质量精度和扫描窗口都固定为某些值(非零)时重用 .quant 文件,否则 DIA-NN 将使用 .quant 文件的第一次运行再次对这些文件进行优化。尚未找到 Quant 文件。此外,当使用 MBR 或从 DIA 数据创建光谱库并将库生成设置为智能或完整分析时,仅当 .quant 文件的生成顺序与原始文件的当前顺序完全相同时,才应重用它们,即MBR DIA-NN 目前无法将多个单独的分析组合在一起。
注意: .parquet 格式的主报告提供任何类型下游处理的完整输出信息。所有其他输出类型都是为了简化使用 MS Excel 或类似软件时的分析。由于用于生成这些文件的过滤不同,不同类型的输出文件中报告的前体和蛋白质的数量可能会有所不同,请参阅上面的描述。如果使用 R 或 Python 在前体 FDR 设置为 5% 的情况下生成,则所有“矩阵”都可以从主 .parquet 报告中重现。
DIA-NN 拥有非常先进的无库模块,对于某些类型的实验,它比使用高质量的项目特定光谱库更好。一般来说,与光谱库相比,以下因素使无库搜索表现更好(而相反的情况则有利于光谱库):
请注意,在 99% 的情况下,启用 MBR 来进行无文库定量分析至关重要。使用 DIA-NN GUI 时默认激活它。
对于大多数实验来说,尝试无库搜索确实有意义。对于中型和大规模实验,首先尝试对数据子集进行无库分析可能是有意义的,以查看性能是否正常(在整个数据集上,它通常会好得多,因此不需要这里太严格了)。我们自己也经常使用一些公共图书馆对实验进行快速的初步质量控制评估。
通常可以方便地分两步执行无库分析:首先从序列数据库创建计算机预测光谱库,然后使用该库进行分析。除了快速初步分析之外,这是在所有情况下都必须使用的策略。请注意,DIA-NN 中的管道功能允许轻松安排任务序列,例如创建预测库,然后使用该库进行多次分析。
请注意,搜索空间(考虑的前体总数)越大,分析软件识别肽的难度就越大,搜索所需的时间也就越长。 DIA-NN 非常擅长处理非常大的搜索空间,但即使是 DIA-NN 也无法发挥魔法,无法在 1 亿搜索空间下产生与 200 万搜索空间一样好的结果。因此,需要小心地同时启用所有可能的变量修改。例如,允许最多 5 个可变修饰,同时同时启用蛋氨酸氧化、磷酸化和脱酰胺化,可能不是一个好主意。
这是 DIA 和 DDA 数据分析之间的一个重要区别。在 DDA 中,允许所有可能的变量修饰也很有意义,因为搜索引擎需要将光谱与某些内容进行匹配 - 如果它与正确的修饰肽不匹配,则会错误匹配。在 DIA 中,方法从根本上不同:在所考虑的每个前体离子的数据中找到最佳匹配光谱(这是一个非常简化的视图,只是为了说明概念)。因此,在 DIA 中,无法识别特定光谱从来都不是问题(事实上,DIA 中的大多数光谱都是高度多重的——源自多种肽——并且只能识别其中的一小部分)。因此,只有当您对某个特定变量修改特别感兴趣或者该修改确实普遍存在时,启用该变量修改才有意义。
有关区分具有不同修饰组的肽型的信息,请参阅 PTM 和肽型。
DIA-NN 可以从任何 DIA 数据集创建光谱库。这可以在基于光谱库和无库模式下完成:只需在输出窗格中选择生成光谱库选项。
DIA-NN 可以进一步从序列数据库(确保启用FASTA 摘要)或另一个光谱库(通常对公共图书馆有用)创建计算机预测光谱库:只需运行 DIA-NN,无需指定任何原始文件,在母离子生成窗格中启用基于深度学习的光谱、RT 和 IM 预测选项。深度学习预测器目前支持的修改有:C(cam)、M(ox)、N-term 乙酰基、N/Q(dea)、S/T/Y(phos)、K(-GG)、nK( mTRAQ) 和 nK(TMT)。值得注意的是,如果 DIA-NN 中的预测器模块无法识别某些修改,它仍然会执行预测,只是忽略它。要使 DIA-NN 丢弃预测器未知的任何修饰的肽,请使用 --skip-unknown-mods。
光谱文库也可以从 DDA 数据创建,事实上,自 SWATH/DIA 蛋白质组学引入以来,离线分级分离 + DDA 一直是创建文库的“黄金标准”方式。为此,我们建议使用 FragPipe,它基于超快且高度稳健的 MSFragger 搜索引擎。 FragPipe 还可用于从 DIA 数据创建 DIA-NN 兼容库,类似于 DIA-NN 本身。
MBR是 DIA-NN 中的一种强大模式,对于大多数定量实验都有好处,无论是有谱库还是无谱库模式。 MBR 通常会带来更高的平均 ID 数,而且还会带来更好的数据完整性,即缺失值要少得多。
在处理任何数据集时,DIA-NN 会收集大量有用的信息,这些信息可用于更好地处理数据。这就是 MBR 所实现的。通过 MBR,DIA-NN 首先根据 DIA 数据创建光谱库,然后用该光谱库重新处理相同的数据集。 DIA-NN 中实现的算法创新确保了 FDR 受到严格控制:MBR 已在从 2 次运行到超过 1000 次运行的数据集上进行了验证。
应为任何定量实验启用 MBR,除非您有一个非常高质量的特定于项目的谱库,您认为 (i) 可能提供几乎完全覆盖的可检测肽,也就是说尝试无库是没有意义的搜索 + MBR,并且 (ii) 文库中的大多数肽实际上可以在 DIA 实验中检测到。如果只有 (i) 为真,则可能仍然值得尝试 MBR 以及将库生成设置为ID 分析。
MBR 不应用于非定量实验,即当您只想创建光谱库,然后将其用于其他一些数据集时。
人们可以使用两步方法手动“模仿”MBR,这将产生可比较的性能。首先,运行 DIA-NN 从 DIA 运行(整个实验或只是其子集,对于大规模实验或包括空白/失败运行的实验)创建光谱库。然后使用这个库来分析整个实验。无论哪种情况,都请在禁用 MBR 的情况下运行 DIA-NN。
当使用 MBR(或其仿制品)并依赖主 .parquet 报告(推荐)而不是定量矩阵时,请使用以下 q 值过滤器:
DIA-NN 可以成功地用于处理几乎所有使用默认设置的实验。一般来说,建议仅在本文档中特别建议(如下所示)、针对特定实验类型或有非常明确且令人信服的更改理由时才更改设置。
在许多情况下,人们可能想要更改“算法”窗格中的多个参数。
如果这些与您的实验相关,另请参阅有关无文库搜索、PTM 和肽型以及使用 plexDIA 进行多重分析的指南。
请注意,一旦您在 DIA-NN GUI 中选择特定选项,其他一些设置可能会自动激活。例如,每当您选择执行计算机 FASTA 数据库摘要(用于无库搜索),或者只是从 DIA 数据生成光谱库时,MBR 也会自动选择 - 因为在 99% 的情况下它是有益的。
DIA-NN 作为图形用户界面 (GUI) 实现,它调用命令行工具 (diann.exe)。命令行工具也可以单独使用,例如作为自定义自动化处理管道的一部分。此外,即使在使用 GUI 时,也可以在其他选项文本框中将选项/命令传递给命令行工具。本文档中提到了一些此类有用的选项,命令行参考中提供了完整的参考。
当 GUI 启动命令行工具时,它会在日志窗口中打印其使用的确切命令集。因此,为了重现使用 GUI 时观察到的行为(例如,如果您想在 Linux 集群上进行分析),可以直接将完全相同的命令传递给命令行工具。
diann.exe [commands]
命令按照提供的顺序进行处理,并且对于大多数命令,此顺序可以是任意的。
在 Linux 上,分号“;”字符被视为命令分隔符,因此“;”作为 DIA-NN 命令的一部分(例如 --channels)需要替换为 ';'在 Linux 上以获得正确的行为。
为了方便起见,以及处理由数千个文件组成的实验,一些选项/命令可以存储在配置文件中。为此,创建一个具有任意扩展名的文本文件,例如 diann_config.cfg,在其中键入 DIA-NN 支持的任何命令,然后使用 --cfg diann_config.cfg 引用该文件(在其他选项文本框中或在用于调用diann.exe命令行工具的命令)。
DIA-NN 提供两种可视化选项。
天际线。要在 Skyline 中可视化色谱图/光谱,请使用指定的 MBR 和 FASTA 数据库分析您的实验,然后单击“Skyline”按钮。 DIA-NN 将自动启动 Skyline(确保您已将 Skyline/Skyline daily 版本 23.1.1.459 或更高版本安装为“管理员安装”)。目前,此工作流程不支持多路复用,并且不适用于 UniMod 以外的任何格式的修改。
DIA-NN 查看器。选中“XIC”复选框后分析您的实验,然后单击“查看器”按钮。默认情况下,“XIC”选项将使 DIA-NN 仅提取库碎片离子的色谱图,并在从洗脱顶点开始的 10 秒内提取色谱图。使用 - 毒性[n]将保留时间窗口设置为n秒(例如,毒性60将在距顶点一分钟内提取色谱图)和 - 毒性的预定率,以提取所有电荷1和2 y/b - 系列碎片,包括具有常见中性损失的碎片。请注意,使用 - 毒性预定率,尤其是与大保留时间窗口结合使用,可能需要大量的输出文件夹中的磁盘空间。但是,对于任何实验大小,可视化本身实际上是瞬时的。
注意:用“ XIC”提取的色谱图保存在apache .parquet格式中(文件名以'。tox.parquet'结束),并且可以使用R或Python轻松访问。有时可以方便地准备出版物就绪的数据(尽管也可以使用Skyline或Dia-NN查看器来做到这一点),甚至可以为LC-MS性能设置自动自定义质量控制。
可以使用Mann Lab https://github.com/mannlabs/alphamap使用Alphamap来可视化蛋白质内的肽和修饰位置。
DIA-NN GUI中的管道窗口允许将多个分析步骤组合到管道中。每个管道步骤是GUI显示的一组设置。一个人可以在管道中添加此类步骤,更新现有步骤,删除步骤,向上/向上移动管道中的步骤,在管道中禁用/启用(通过双鼠标单击)某些步骤,并保存/加载管道。此外,可以在不同的GUI选项卡/窗口之间复制单个管道步骤(为此使用复制和粘贴按钮)。我们总是组装所有DIA-NN,用于管道中的特定出版物。一个人还可以使用DIA-NN管道存储配置模板。
DIA-NN GUI具有内置工作流(前体离子产生窗格),用于检测蛋氨酸氧化,N末端蛋白乙酰化,磷酸化和泛素化(通过检测赖氨酸上的残留-GG加合物)。可以在其他选项中使用-var-mod或 - 固定模式来声明其他修改。
区分带有不同修饰集的肽型是DIA中的一个非平凡问题:如果没有特殊的肽型评分,则有效的肽型FDR可以在5-10%的范围内用于无图书馆的分析。 DIA-NN实现了肽型评分的统计目标 - 指数方法,该方法由肽型选项(算法窗格)启用,并且每当通过GUI设置或-VAR-MOD命令声明变量修改时,也会自动激活。所得的肽型Q值反映了DIA-NN对肽报告的一组修饰的正确性以及所鉴定的氨基酸序列的正确性的信心。但是,这些Q值不能保证由于某些氨基酸取代或修改(例如脱氨酸)而没有低质量转移(请注意,DDA也不能保证这一点)。
此外,DIA-NN具有一种算法,该算法报告了PTM定位置信度估计(作为在.parquet输出报告中包含的所有可变PTM位点正确定位的后验概率以及单个位点的分数)。 Phosphosites_90和Phossites_99 .TSV文件包含磷酸材料特异性的数量,该数量是使用Top 1方法(实验)计算的,这是前体中最高的强度,该地点与指定的置信度(分别为0.9或0.99)被用作磷给定运行中的数量。这里使用了“顶部1”算法,因为它可能是对异常值和错误定位错误的最强大的。但是,是否确实需要调查这是最佳选择,这是由于缺乏已知地面真相的基准而当前具有挑战性的。
通常,在寻找PTM时,我们建议以下内容:
必需:您要查找的可变修改必须指定为变量(通过GUI复选框或其他选项)在生成在硅中预测的库时,以及使用任何预测或经验库分析原始数据时
磷酸化的设置:最大3个变量修改,最大1丢失的裂解,磷酸化是指定的唯一变量修饰,前体电荷范围2-3;为了减少RAM使用情况,请确保指定的前体质量范围(生成预测库时)不超过DIA方法选择为MS/MS选择的前体质量范围;为了加快使用预测库时的加速处理,请先从实验子集(例如10+运行量)中生成基于DIA的库,然后使用MBR禁用的基于DIA的库分析整个数据集
上述成功时,也可以尝试最大2个错过乳沟
在寻找磷酸化以外的其他PTM时,在95%的情况下,最好使用最大1至3个变量修改,而最大1丢失了裂解
当不寻找PTM时,即当目标是相对蛋白质定量时,启用可变修饰通常不会产生更高的蛋白质组学深度。虽然通常也不会受到伤害,但它会使处理速度较慢。
据我们所知,没有公开的验证识别脱酰胺肽的识别信心(除非质量规格具有很高的分辨率和紧密的质量准确性/耐受性设置,否则很容易混淆为更重的同位素学搜索引擎使用),甚至用于DDA。对脱膜肽识别的信心的一种方法是检查是否确定了是否确定脱氨质量的质量三角洲是1.022694,而不是正确的值0.984016。 DIA-NN确实在几个数据集上成功通过了此测试(指定此“诱饵修饰质量”时没有报告ID),但是我们建议还要在实验中进行几次运行,请尝试对实验进行分析的几项“诱饵修改质量”搜索,如果寻找脱酰胺的肽。在每种情况下(正确或诱饵质量),除肽型评分外,还应使用-pTM-QVALUES启用PTM特异性评分进行脱氨酸,以及PTM.Q.Value或Global.Q.Value/Lib。 q。用于过滤的值。
值得注意的是,当最终目标是鉴定蛋白质时,如果修饰的肽被误认为,则与源自来自不同肽型的光谱相匹配,这在很大程度上是无关紧要的。因此,如果实验的目的是识别/量化特定的PTM,氨基酸取代或区分具有较高序列认同的蛋白质,则建议使用肽型成像型评分选项。在所有其他情况下,通常可以使用肽型评分,但不是必需的,并且通常会导致使用MBR时的处理速度较慢,并且识别率略有下降。
一般来说,是的。但是,大多数工作流将无需识别修改而工作。尽管如果在库中检测到未知的修改,DIA-NN将打印出列表的警告,强烈建议使用模型来声明它们。请注意,DIA-NN已经识别许多常见的修改,还可以加载整个Unimod数据库,请参阅-full-unimod选项。
与Slavov实验室合作,我们基于DIA-NN开发了PLEXDIA,该技术允许与DIA结合使用的非异种多路复用(Mtraq,Dimethyl,Silac)受益。为了分析丛实验,需要一个在硅预测或经验光谱库中。然后,根据分析方案,需要向DIA-NN提供以下一组命令。
方案1 。该库是一个常规的无标签库(经验或预测),并且纯粹使用同位素标记实现多重库,即没有化学标记,带有MTRAQ或Dimethyl等标签。然后,DIA-NN需要以下选项添加到其他选项中:
K和R上的L/H Silac标签的示例:
--fixed-mod SILAC,0.0,KR,label
--lib-fixed-mod SILAC
--channels SILAC,L,KR,0:0; SILAC,H,KR,8.014199:10.008269
--original-mods
请注意,在上面的Silac被声明为标签,即不应该改变肽的保留时间。它也是这里的零质量标签,因为它仅用于指定将标记的氨基酸。在dia-nn使用的内部库表示中,在每个k或r之后,在每个k或r之后,将(固定模式和 - 固定模式)的组合简单地放在(silac)。 - 随后,渠道分别将每个库的入口分别分为两个,一个分别为k(silac)或r(silac)在序列中添加的质量0(k)和0(r),而另一个则具有8.014199(k)(k) )和10.008269(R)。
方案2 。该库是一个常规的无标签库(经验或预测),并且通过使用MTRAQ进行化学标记来实现多路复用。
方案2:步骤1。用MTRAQ将库标记,并运行深度学习预测指标以调整光谱/RTS/IMS。为此,在光谱库字段中使用输入库运行DIA-NN,指定的输出库,基于深度学习的光谱,RTS和IMS预测,启用了原始数据文件列表,在其他选项中,原始数据文件的列表和以下选项:
--fixed-mod mTRAQ,140.0949630177,nK
--lib-fixed-mod mTRAQ
--channels mTRAQ,0,nK,0:0; mTRAQ,4,nK,4.0070994:4.0070994;mTRAQ,8,nK,8.0141988132:8.0141988132
--original-mods
使用.preped.speclib文件,其中的名称与输出库相对应作为下一步的光谱库。
方案2:步骤2。运行DIA-NN,具有以下选项:
--fixed-mod mTRAQ,140.0949630177,nK
--channels mTRAQ,0,nK,0:0; mTRAQ,4,nK,4.0070994:4.0070994;mTRAQ,8,nK,8.0141988132:8.0141988132
--original-mods
请注意,不再需要 - 固定模型,因为步骤1中生成的库已经包含(MTRAQ)在每个肽的N末端和赖氨酸处。
方案3 。该库是一个常规的无标签库(经验或预测),通过使用MTRAQ以外的其他标签来实现多重库。这种情况与方案2不同的治疗方式不同的原因是,尚未专门针对MTRAQ以外的标签进行专门培训的DIA-NN,因此没有必要生成预测的额外步骤。只需像在方案1中一样运行DIA-NN,除非 - 固定模式声明在这种情况下将具有非零质量,并且不会成为标签。例如,对于Thielert等人所述的5通道二甲基:
‐‐fixed‐mod Dimethyl, 28.0313, nK
--lib-fixed-mod Dimethyl
‐‐channels Dimethyl,0,nK,0:0; Dimethyl,2,nK,2.0126:2.0126; Dimethyl,4,nK,4.0251:4.0251; Dimethyl,6,nK,6.0377:6.0377; Dimethyl,8,nK,8.0444:8.0444
--original-mods
方案4 。该库是由DIA-NN从多重DIA数据集生成的经验DIA库。例如,这可能是DIA-NN在MBR的第一个通过中生成的库(您想重用它以分析相同的或其他运行)。然后,其他选项将与方案1,方案2:步骤2或方案3相同,除非(重要!) - 不得提供固定模式。
在上面的所有情况下,指定标准化策略的额外选项必须包括在其他选项中。这可以是 - 渠道运行 - - 脉冲 - SILAC,蛋白质周转率)或 - 通道规格 - (独立样品的多重)。
输出。我们建议使用.parquet格式的主要报告进行所有下游分析。请注意,当使用多路复用时,主报告中的pg.q.value和gg.q.value是通道特定的。如果使用(i)量子,并且(ii)该报告对应于MBR或MBR的第二段,则数量pg.maxlfq,genes.maxlfq和genes.maxlfq.unique仅是通道特异性的。另外,可以使用矩阵(不建议),这些矩阵仅是前体级别。使用矩阵时,必须指定 - 矩阵-CH-QVALUE,合理阈值0.01至0.5。此设置不会影响提取的MS1矩阵,该矩阵仅报告与每个通道相对应的MS1信号,每当在任何通道中识别前体时 - 通常不建议使用此矩阵。分析多路复用数据时不会产生蛋白质基质。
输入窗格
前体离子产生窗格
输出窗格
算法窗格
请注意,下面的某些选项对性能有很大损害,并且仅出于基准测试目的。因此,建议仅使用基于某些明确理由的特定实验(例如本文档中推荐的内容)有利于特定实验的选项。