DiaNN下载 - DiaNN源代码下载

DiaNN

其他源码

DIA-NN 1.9.2

下载

DIA-NN

DIA-NN - 用于数据独立采集 (DIA) 蛋白质组数据处理的通用软件套件。 DIA-NN 在英国剑桥大学 Kathryn Lilley（剑桥蛋白质组学中心）的实验室中构思，开启了蛋白质组学的新篇章，引入了多种算法，使用这些算法可以实现可靠、稳健和定量准确的大规模实验高通量方法。 DIA-NN 目前正在 Charité（德国柏林大学医学院）的 Vadim Demichev 实验室中进一步开发。

DIA-NN 建立在以下原则之上：

通过严格的统计控制实现可靠性
通过灵活的数据建模和自动参数选择实现稳健性
通过彻底记录所有分析步骤提高可重复性
易于使用：自动化程度高，只需点击几下鼠标即可进行分析，无需生物信息学专业知识
强大的调整选项可实现非常规实验
可扩展性和速度：每小时最多处理 1000 次质谱运行

下载：https://github.com/vdemichev/DiaNN/releases/tag/1.9.2（建议使用最新版本 - DIA-NN 1.9.2）

请引用：
DIA-NN：神经网络和干扰校正
在高通量中实现深度蛋白质组覆盖NatureMethods，2020

使用 DIA-NN 分析翻译后修饰 (PTM)，例如磷酸化或泛素化： DIA-MS 进行的时间分辨体内泛素组分析揭示了蛋白质组范围内的 USP7 靶标Nature Communications，2021

使用 DIA-NN 的离子淌度模块进行 timsTOF 数据分析或将 DIA-NN 与 FragPipe 生成的谱库结合使用：使用 FragPipe 和 DIA-NN 进行 dia-PASEF 数据分析，进行低样本量的深度蛋白质组学Nature Communications，2022

使用 DIA-NN 分析多重样品（SILAC、mTRAQ 等）：通过 plexDIA Nature Biotechnology 提高敏感蛋白质组学的通量，2022 年

使用 DIA-NN 作为 CysQuant 工作流程的一部分： CysQuant：使用数据依赖或独立采集质谱法同时定量半胱氨酸氧化和蛋白质丰度Redox Biology，2023

使用 DIA-NN 的 QuantUMS 模块进行定量： QuantUMS：不确定性最小化可实现蛋白质组学中的可靠定量biorxiv

使用 DIA-NN 处理 Slice-PASEF 数据： Slice-PASEF：片段化所有离子以获得蛋白质组学中的最大灵敏度biorxiv

其他关键论文

使用 DIA-NN 进行大规模血浆和血清蛋白质组学：
细胞系统，2020 年和细胞系统，2021 年
使用 DIA-NN 和 Scanning SWATH 进行超快速蛋白质组学：
自然生物技术，2021

R 包包含一些用于处理 DIA-NN 输出报告的有用函数：https://github.com/vdemichev/diann-rpackage

蛋白质中肽位置的可视化：https://github.com/MannLabs/alphamap（AlphaMap by Mann lab）

关于蛋白质组学的一般注释和讨论以及 DIA-NN 的使用：https://github.com/vdemichev/DiaNN/discussions/categories/dia-proteomics-in-detail（本节将进一步扩展）。

安装
入门
原始数据格式
光谱库格式
输出
无图书馆搜索
创建光谱库
轮次之间的比赛
更改默认设置
命令行工具
可视化
自动化管道
PTM 和肽型
使用 plexDIA 进行多路复用
GUI设置参考
命令行参考
主要输出参考
常见问题 (FAQ)
支持

安装

在Windows上，下载 .exe 安装程序并运行它。确保不要从网络驱动器运行安装程序。建议将 DIA-NN 安装到安装程序建议的默认文件夹中。或者，只需将 .binaries.zip 存档解压到您选择的位置。

在Linux上，下载并解压 .Linux.zip 文件。 Linux 版本的 DIA-NN 是在 Linux Mint 21.2 上生成的，目标系统必须具有至少最新的标准库。但是，如果您制作 Docker 或 Apptainer/Singularity 容器映像，则没有这样的要求。要生成任一容器，我们建议从最新的 debian docker 映像开始 - 在这种情况下，您只需安装sudo apt install libgomp1即可在其中运行 DIA-NN。另请参阅罗杰·奥利维拉 (Roger Olivella) 撰写的精彩详细指南。为了获得最佳性能，请使用具有动态覆盖的 mimalloc，如 https://github.com/microsoft/mimalloc 中所述。

还可以使用Wine 6.8 或更高版本在 Linux 上运行 DIA-NN。

入门

DIA 质谱数据可以通过两种方式进行分析：通过搜索序列数据库（无文库模式），或使用“光谱库”——一组选定肽的已知光谱和保留时间。我们在无库搜索部分详细讨论了何时使用这些方法。对于这两种分析，使用 DIA-NN 都非常简单：

单击“原始” （在“输入”窗格中），选择原始质谱数据文件。有关支持格式的信息，请参阅原始数据格式。
单击“添加 FASTA” ，添加一个或多个 UniProt 格式的序列数据库。
如果要使用光谱库，请单击光谱库并选择该库。或者，对于无文库分析，选择FASTA 摘要进行无文库搜索/文库生成（在母离子生成窗格中）。
在“输出”窗格中指定主输出文件名，然后单击“运行” 。
如果您将“report.tsv”保留为主要输出（默认情况下位于 DIA-NN 安装文件夹中），它将包含已识别的所有前体离子的列表，以及不同类型的数量、质量指标和注释。输出文件report.pg_matrix.tsv将包含蛋白质组数量、report.gg_matrix.tsv - 基因组数量、report.pr_matrix.tsv - 前体离子数量。

现在，以上信息足以开始使用 DIA-NN，确实就是这么简单！本文档的其余部分可能会有所帮助，但对于 99% 的项目来说并不是必需的。

以上是如何使用默认设置运行 DIA-NN，对于大多数实验来说，这些都会产生最佳或几乎最佳的性能。但在某些情况下，最好调整设置，请参阅更改默认设置了解更多详细信息。

DIA-NN 还为奇特的实验提供强大的调整选项。 DIA-NN 作为用户友好的图形界面实现，可自动调用命令行工具。但用户也可以通过界面中的“其他选项”文本框直接将选项/命令传递给命令行工具。所有这些选项均以双破折号开头，后跟选项名称以及一些要设置的参数（如果适用）。因此，如果您看到本文档中提到的某些选项/命令的名称中带有 -- ，则意味着该命令应在“其他选项”文本框中键入。

原始数据格式

支持的格式：Sciex .wiff、Bruker .d、Thermo .raw、.mzML 和 .dia（DIA-NN 用于存储光谱的格式）。可以从任何支持的格式转换为 .dia。在 Linux（本机版本，而不是 Wine）上运行时，仅支持 .d、.mzML 和 .dia 数据。

如需 .wiff 支持，请下载并安装 ProteoWizard - 选择支持“供应商文件”的版本（64 位）。然后将名称中包含“Clearcore”或“Sciex”的所有文件（这些文件为 .dll 文件）从 ProteoWizard 文件夹复制到 DIA-NN 安装文件夹（包含 diann.exe、DIA-NN.exe 和一个一堆其他文件）。

读取 Thermo .raw 文件需要安装 Thermo MS File Reader。必须专门使用上面链接中的版本（3.0 SP3）。

.mzML 文件应为质心并包含光谱数据（例如 SWATH/DIA）而不是色谱图。

技术支持

支持 DIA 和 SWATH
支持具有重叠窗口的采集方案
支持气相分馏
支持扫描SWATH
支持 dia-PASEF/py-diAID
支持 Slice-PASEF（将 --tims-scan 添加到其他选项）
支持 midia-PASEF 和 Synchro-PASEF（将 --tims-scan 添加到附加选项），但 DIA-NN 目前无法从 Q1 维度反卷积中受益
支持 Orbitrap Astral
支持具有恒定 CV 的 FAIMS
拆分运行后支持具有多个 CV 的 FAIMS，请参阅此处
支持 BoxCar-DIA，但 DIA-NN 尚未针对其进行优化
转换为 .mzML 后支持 Bruker Impact II DIA 数据
支持与非同量异序标签和 SILAC 的复用
不支持 MSX-DIA

转换

许多质谱格式（包括 DIA-NN 不直接支持的少数格式）可以使用 ProteoWizard 的 MSConvertGUI 应用程序转换为 .mzML。这适用于除 Bruker .d 和 SCIEX Scanning SWATH 之外的所有受支持的格式 - 这些需要由 DIA-NN 直接访问。必须使用以下 MSConvert 设置进行转换：

光谱库格式

DIA-NN 支持逗号分隔 (.csv)、制表符分隔（.tsv、.xls 或 .txt）或 .parquet 表作为光谱库，以及 .speclib（DIA-NN 使用的紧凑格式）、.sptxt （SpectraST，实验性）和 .msp（NIST，实验性）库文件。重要提示：文库不得包含未碎片化的前体离子作为“碎片”：每个碎片离子实际上必须由肽主链碎片产生。

详细

“按原样”支持 PeakView 格式的库以及由 FragPipe、TargetedFileConverter（OpenMS 的一部分）生成的库、以 .xls 格式从 Spectronaut (Biognosys) 导出或由 DIA-NN 本身生成的库。

对于通过其他方式生成的 .tsv/.xls/.txt 库，DIA-NN 可能需要使用 --library-headers 命令指定标头名称（用逗号分隔）（对于它需要的列）。使用 * 符号代替标题名称以保持其自动识别。请参阅下面各列的描述（按照需要指定标题的顺序）。

必填栏目：

修饰和标记的肽序列
前体电荷
前体 m/z
参考保留时间- 可以使用任意 RT 标度
碎片离子 m/z
碎片离子的相对强度

强烈建议库中也包含包含以下内容的列：

蛋白质 ID - 蛋白质亚型的标识符
蛋白质名称
基因名称
蛋白质型- 包含 0/1 值的列，具体取决于所讨论的肽是否是“蛋白质型”，即特定于特定蛋白质亚型、蛋白质名称或基因
诱饵- 指示肽是否为诱饵。如果文库中有诱饵肽，DIA-NN 会使用这些诱饵肽，并且不会生成自己的诱饵肽。强烈建议文库中不要包含任何诱饵肽。
碎片离子电荷
碎片离子类型- y 或 b；对于 x 和 z 片段，还将片段类型指定为 y，对于 a 和 c - 指定片段类型为 b
片段系列号
碎片中性丢失类型
Q值
洗脱组标识符- 如果未指定，DIA-NN 将自动推断洗脱组；大多数工作流程不需要
排除碎片指示符- 包含 0/1 值的列，其中 1 表示碎片离子不应用于定量；大多数工作流程不需要
离子淌度- 前驱体的 1/K0 值，可以使用任意 IM 比例

例如，指定除“Decoy”列之外的所有列名称的 --library-headers 命令可能如下所示：

--library-headers ModifiedPeptide、PrecursorCharge、PrecursorMz、Tr_recaliblated、ProductMz、LibraryIntensity、UniprotID、ProteinName、Genes、Proteotypic、*、FragmentCharge、FragmentType、FragmentSeriesNumber、FragmentLossType、QValue、ExcludeFromAssay、IonMobility

使用 --sptxt-acc 设置读取 .sptxt/.msp 库时的片段过滤质量精度（以 ppm 为单位）。

MaxQuant msms.txt 也可以（实验性）用作 DIA-NN 中的谱库，尽管固定修改可能无法正确读取。

DIA-NN 可以将其支持的任何库转换为其自己的 .parquet 格式。为此，单击光谱库（输入窗格），选择要转换的库，选择输出库文件名（输出窗格），单击运行。如果您使用某种奇特的库格式，最好将其转换为 DIA-NN 的 .parquet，然后检查生成的库（使用 R“arrow”或 Python“pyarrow”包）以查看内容是否有意义。

所有 .tsv/.xls/.txt/.csv/.parquet 库只是包含人类可读数据的简单表格，如有必要，可以使用 Excel 或（理想情况下）R/Python 进行探索/编辑。

重要的是，当任何库转换为不同的格式时，所有数字都可以使用特定的小数精度四舍五入，这意味着它们可能与原始库中的不完全相同（可能有微小的差异）。因此，尽管使用转换后的库进行分析时的性能具有可比性，但结果不会完全匹配。

输出

输出窗格允许指定输出的保存位置以及主输出报告和（可选）输出光谱库的文件名。 DIA-NN 使用这些文件名来派生其所有输出文件的名称。下面可以找到有关不同类型 DIA-NN 输出的信息。对于大多数工作流程，只需要主报告（推荐使用 R 或 Python 进行分析）或矩阵（MS Excel 的简化输出）。当启用输出矩阵生成时，DIA-NN 还会生成一个 .manifest.txt 文件，其中包含生成的输出文件的简要描述。

主要报告

包含前体和蛋白质 ID 以及大量相关信息的文本表。大多数列名称都是不言自明的，完整的参考可以在主输出参考中找到。命名列时使用以下关键字：

PG代表蛋白质组
GG表示基因组
数量是指非标准化数量
归一化是指归一化数量
MaxLFQ表示使用 MaxLFQ 算法计算的标准化蛋白质数量 - 强烈建议使用这些 MaxLFQ 数量而不是常规数量（DIA-NN 也报告）
Global是指针对整个实验计算的全局 q 值
Lib指光谱库中保存的相应值，例如 Lib.Q.Value 表示相应库前体的 q 值

注意：自版本 1.9 起，DIA-NN 生成 Apache .parquet 格式的报告。这是一种压缩文本表格式（大小减少约 10 倍），可以使用 R“arrow”包或 Python“pyarrow”包在单行代码中加载。大多数新功能（在 DIA-NN 1.9 中引入）仅反映在 parquet 报告中，因此建议在所有情况下都使用它来代替旧的 .tsv 报告，而 .tsv 报告仍然生成只是为了兼容旧的分析工作流程。可以使用 --no-main-report 关闭旧版 .tsv 报告的生成。除了使用 R 或 Python 之外，您还可以使用 TAD 查看器查看 .parquet 文件。

矩阵

这些包含蛋白质组（“pg_matrix”）、基因组（“gg_matrix”）、独特基因（“unique_genes_matrix”；即仅使用蛋白质（即基因特异性）肽来识别和量化的基因）以及标准化的 MaxLFQ 数量。前体的数量（'pr_matrix'）。它们以 1% FDR 进行过滤，使用蛋白质组的全局 q 值以及前体的全局和特定于运行的 q 值。额外的 5% 运行特定的蛋白质水平 FDR 过滤器应用于蛋白质矩阵，使用 --matrix-spec-q 进行调整。有时，DIA-NN 会报告零作为前体或蛋白质数量的最佳估计。蛋白质/基因矩阵中省略了此类零数量。当磷酸化 (UniMod:21) 被声明为变量修饰时，会生成特殊的磷酸位点定量矩阵（磷酸位点_90 和磷酸位点_99 .tsv），请参阅 PTM 和肽型。

蛋白质描述

. Protein_description.tsv 文件与矩阵一起生成，包含 DIA-NN 已知的基本蛋白质信息（序列 ID、名称、基因名称、描述、序列）。 DIA-NN 的未来版本将包含更多信息，例如蛋白质分子量。

统计报告

包含许多可用于数据过滤的 QC 指标，例如排除失败的运行或作为方法优化的读数。请注意，此处报告的蛋白质数量对应于给定运行中 1% 独特蛋白质 q 值的独特蛋白质（即用蛋白型前体鉴定）的数量。该数字可以从使用 100% 的前体 FDR 阈值生成的主报告中复制，并使用 Protein.Q.Value <= 0.01 & Proteotypic == 1 进行过滤。这里算作“蛋白质”的内容取决于“蛋白质推断”设置。

PDF报告

基于主报告和统计报告的许多质量控制指标的可视化。 PDF 报告应仅用于数据的快速初步评估，不应在出版物中使用。

灵活的再分析

输出窗格允许控制如何处理“.quant 文件”。现在，为了解释这些是什么，让我们考虑一下 DIA-NN 如何处理原始数据。它首先为实验中的每个单独运行单独执行计算要求较高的处理部分，并将鉴定和定量信息保存到单独的 .quant 文件中。处理完所有运行后，它会从所有 .quant 文件收集信息并执行一些交叉运行步骤，例如全局 q 值计算、蛋白质推断、最终数量计算和归一化。这使得 DIA-NN 能够以非常灵活的方式使用。例如，您可以随时停止处理，然后从停止处开始恢复处理。或者，您可以从实验中删除一些运行，添加一些额外的运行，然后快速重新运行分析，而无需对已处理的运行重新进行分析。所有这些都是通过使用现有的 .quant 文件（可用时）选项启用的。 .quant 文件保存到Temp/.dia 目录（或者与原始文件相同的位置，如果没有指定临时文件夹）或从中读取。使用此选项时，用户必须确保使用与当前分析中应用的完全相同的设置生成 .quant 文件，但Precursor FDR除外（前提是 <= 5%）、 Threads 、 Log level 、 MBR 、交叉运行规范化和库生成- 这些设置可以不同。实际上甚至可以将 .quant 文件传输到另一台计算机并在那里重复使用它们 - 而无需传输原始原始文件。重要提示：强烈建议仅在质量精度和扫描窗口都固定为某些值（非零）时重用 .quant 文件，否则 DIA-NN 将使用 .quant 文件的第一次运行再次对这些文件进行优化。尚未找到 Quant 文件。此外，当使用 MBR 或从 DIA 数据创建光谱库并将库生成设置为智能或完整分析时，仅当 .quant 文件的生成顺序与原始文件的当前顺序完全相同时，才应重用它们，即MBR DIA-NN 目前无法将多个单独的分析组合在一起。

注意： .parquet 格式的主报告提供任何类型下游处理的完整输出信息。所有其他输出类型都是为了简化使用 MS Excel 或类似软件时的分析。由于用于生成这些文件的过滤不同，不同类型的输出文件中报告的前体和蛋白质的数量可能会有所不同，请参阅上面的描述。如果使用 R 或 Python 在前体 FDR 设置为 5% 的情况下生成，则所有“矩阵”都可以从主 .parquet 报告中重现。

无图书馆搜索

DIA-NN 拥有非常先进的无库模块，对于某些类型的实验，它比使用高质量的项目特定光谱库更好。一般来说，与光谱库相比，以下因素使无库搜索表现更好（而相反的情况则有利于光谱库）：

每次运行可检测到高肽数量；
异质数据（例如，癌症组织样本相当异质，而同一样本的重复注射则不然）；
长色谱梯度以及在离子淌度维度上良好的肽分离；
大型数据集（尽管在无库模式下处理大型数据集可能需要时间）。

请注意，在 99% 的情况下，启用 MBR 来进行无文库定量分析至关重要。使用 DIA-NN GUI 时默认激活它。

对于大多数实验来说，尝试无库搜索确实有意义。对于中型和大规模实验，首先尝试对数据子集进行无库分析可能是有意义的，以查看性能是否正常（在整个数据集上，它通常会好得多，因此不需要这里太严格了）。我们自己也经常使用一些公共图书馆对实验进行快速的初步质量控制评估。

通常可以方便地分两步执行无库分析：首先从序列数据库创建计算机预测光谱库，然后使用该库进行分析。除了快速初步分析之外，这是在所有情况下都必须使用的策略。请注意，DIA-NN 中的管道功能允许轻松安排任务序列，例如创建预测库，然后使用该库进行多次分析。

请注意，搜索空间（考虑的前体总数）越大，分析软件识别肽的难度就越大，搜索所需的时间也就越长。 DIA-NN 非常擅长处理非常大的搜索空间，但即使是 DIA-NN 也无法发挥魔法，无法在 1 亿搜索空间下产生与 200 万搜索空间一样好的结果。因此，需要小心地同时启用所有可能的变量修改。例如，允许最多 5 个可变修饰，同时同时启用蛋氨酸氧化、磷酸化和脱酰胺化，可能不是一个好主意。

这是 DIA 和 DDA 数据分析之间的一个重要区别。在 DDA 中，允许所有可能的变量修饰也很有意义，因为搜索引擎需要将光谱与某些内容进行匹配 - 如果它与正确的修饰肽不匹配，则会错误匹配。在 DIA 中，方法从根本上不同：在所考虑的每个前体离子的数据中找到最佳匹配光谱（这是一个非常简化的视图，只是为了说明概念）。因此，在 DIA 中，无法识别特定光谱从来都不是问题（事实上，DIA 中的大多数光谱都是高度多重的——源自多种肽——并且只能识别其中的一小部分）。因此，只有当您对某个特定变量修改特别感兴趣或者该修改确实普遍存在时，启用该变量修改才有意义。

有关区分具有不同修饰组的肽型的信息，请参阅 PTM 和肽型。

创建光谱库

DIA-NN 可以从任何 DIA 数据集创建光谱库。这可以在基于光谱库和无库模式下完成：只需在输出窗格中选择生成光谱库选项。

DIA-NN 可以进一步从序列数据库（确保启用FASTA 摘要）或另一个光谱库（通常对公共图书馆有用）创建计算机预测光谱库：只需运行 DIA-NN，无需指定任何原始文件，在母离子生成窗格中启用基于深度学习的光谱、RT 和 IM 预测选项。深度学习预测器目前支持的修改有：C(cam)、M(ox)、N-term 乙酰基、N/Q(dea)、S/T/Y(phos)、K(-GG)、nK( mTRAQ) 和 nK(TMT)。值得注意的是，如果 DIA-NN 中的预测器模块无法识别某些修改，它仍然会执行预测，只是忽略它。要使 DIA-NN 丢弃预测器未知的任何修饰的肽，请使用 --skip-unknown-mods。

光谱文库也可以从 DDA 数据创建，事实上，自 SWATH/DIA 蛋白质组学引入以来，离线分级分离 + DDA 一直是创建文库的“黄金标准”方式。为此，我们建议使用 FragPipe，它基于超快且高度稳健的 MSFragger 搜索引擎。 FragPipe 还可用于从 DIA 数据创建 DIA-NN 兼容库，类似于 DIA-NN 本身。

轮次之间的比赛

MBR是 DIA-NN 中的一种强大模式，对于大多数定量实验都有好处，无论是有谱库还是无谱库模式。 MBR 通常会带来更高的平均 ID 数，而且还会带来更好的数据完整性，即缺失值要少得多。

在处理任何数据集时，DIA-NN 会收集大量有用的信息，这些信息可用于更好地处理数据。这就是 MBR 所实现的。通过 MBR，DIA-NN 首先根据 DIA 数据创建光谱库，然后用该光谱库重新处理相同的数据集。 DIA-NN 中实现的算法创新确保了 FDR 受到严格控制：MBR 已在从 2 次运行到超过 1000 次运行的数据集上进行了验证。

应为任何定量实验启用 MBR，除非您有一个非常高质量的特定于项目的谱库，您认为 (i) 可能提供几乎完全覆盖的可检测肽，也就是说尝试无库是没有意义的搜索 + MBR，并且 (ii) 文库中的大多数肽实际上可以在 DIA 实验中检测到。如果只有 (i) 为真，则可能仍然值得尝试 MBR 以及将库生成设置为ID 分析。

MBR 不应用于非定量实验，即当您只想创建光谱库，然后将其用于其他一些数据集时。

人们可以使用两步方法手动“模仿”MBR，这将产生可比较的性能。首先，运行 DIA-NN 从 DIA 运行（整个实验或只是其子集，对于大规模实验或包括空白/失败运行的实验）创建光谱库。然后使用这个库来分析整个实验。无论哪种情况，都请在禁用 MBR 的情况下运行 DIA-NN。

当使用 MBR（或其仿制品）并依赖主 .parquet 报告（推荐）而不是定量矩阵时，请使用以下 q 值过滤器：

Lib.Q.Value 而不是 Global.Q.Value
当对 Q.Value 应用比用于生成 DIA 库的 FDR 阈值更严格的过滤器（例如 Q.Value < 0.001 过滤器）时，请始终对 Lib.Q.Value 应用相同的过滤器
Lib.PG.Q.Value 而不是 Global.PG.Q.Value
使用肽型评分时，使用 Lib.Peptidoform.Q.Value 代替 Global.Peptidoform.Q.Value

更改默认设置

DIA-NN 可以成功地用于处理几乎所有使用默认设置的实验。一般来说，建议仅在本文档中特别建议（如下所示）、针对特定实验类型或有非常明确且令人信服的更改理由时才更改设置。

在许多情况下，人们可能想要更改“算法”窗格中的多个参数。

大多数情况下应启用MBR ，请参阅运行之间的匹配。
质量精度：当设置为 0.0 时，DIA-NN 根据实验中的第一次运行（默认）自动确定质量公差，或者如果选择了“不相关的运行”选项，则为每次运行单独确定质量公差。然而，自动算法可能会受到数据中噪声的影响，因此即使对于重复进样（例如在 TripleTOF 6600 上采集），它也可以轻松产生建议的 MS2 质量精度公差在 15ppm - 25ppm 范围内 - 这完全没问题。因此，在大多数情况下，我们更喜欢做的是，在实验中的多次采集中运行 DIA-NN，使用任何谱库（可以选择一些小的谱库，以便快速分析），看看 DIA-NN 自动设置的质量精度（它打印其建议），并将值设置为这些值的近似平均值。此外，通常已经知道哪些 DIA-NN 参数对于特定的 LC-MS 设置是最佳的。
扫描窗口：理想情况下应对应于每个峰的数据点的近似平均数。与质量精度类似，可以通过 DIA-NN 自动确定，但我们更喜欢将其固定为某个平均值。

如果这些与您的实验相关，另请参阅有关无文库搜索、PTM 和肽型以及使用 plexDIA 进行多重分析的指南。

请注意，一旦您在 DIA-NN GUI 中选择特定选项，其他一些设置可能会自动激活。例如，每当您选择执行计算机 FASTA 数据库摘要（用于无库搜索），或者只是从 DIA 数据生成光谱库时，MBR 也会自动选择 - 因为在 99% 的情况下它是有益的。

命令行工具

DIA-NN 作为图形用户界面 (GUI) 实现，它调用命令行工具 (diann.exe)。命令行工具也可以单独使用，例如作为自定义自动化处理管道的一部分。此外，即使在使用 GUI 时，也可以在其他选项文本框中将选项/命令传递给命令行工具。本文档中提到了一些此类有用的选项，命令行参考中提供了完整的参考。

当 GUI 启动命令行工具时，它会在日志窗口中打印其使用的确切命令集。因此，为了重现使用 GUI 时观察到的行为（例如，如果您想在 Linux 集群上进行分析），可以直接将完全相同的命令传递给命令行工具。

 diann.exe [commands]

命令按照提供的顺序进行处理，并且对于大多数命令，此顺序可以是任意的。

在 Linux 上，分号“;”字符被视为命令分隔符，因此“;”作为 DIA-NN 命令的一部分（例如 --channels）需要替换为 ';'在 Linux 上以获得正确的行为。

为了方便起见，以及处理由数千个文件组成的实验，一些选项/命令可以存储在配置文件中。为此，创建一个具有任意扩展名的文本文件，例如 diann_config.cfg，在其中键入 DIA-NN 支持的任何命令，然后使用 --cfg diann_config.cfg 引用该文件（在其他选项文本框中或在用于调用diann.exe命令行工具的命令）。

可视化

DIA-NN 提供两种可视化选项。

天际线。要在 Skyline 中可视化色谱图/光谱，请使用指定的 MBR 和 FASTA 数据库分析您的实验，然后单击“Skyline”按钮。 DIA-NN 将自动启动 Skyline（确保您已将 Skyline/Skyline daily 版本 23.1.1.459 或更高版本安装为“管理员安装”）。目前，此工作流程不支持多路复用，并且不适用于 UniMod 以外的任何格式的修改。

DIA-NN 查看器。选中“XIC”复选框后分析您的实验，然后单击“查看器”按钮。默认情况下，“XIC”选项将使 DIA-NN 仅提取库碎片离子的色谱图，并在从洗脱顶点开始的 10 秒内提取色谱图。使用 - 毒性[n]将保留时间窗口设置为n秒（例如，毒性60将在距顶点一分钟内提取色谱图）和 - 毒性的预定率，以提取所有电荷1和2 y/b - 系列碎片，包括具有常见中性损失的碎片。请注意，使用 - 毒性预定率，尤其是与大保留时间窗口结合使用，可能需要大量的输出文件夹中的磁盘空间。但是，对于任何实验大小，可视化本身实际上是瞬时的。

注意：用“ XIC”提取的色谱图保存在apache .parquet格式中（文件名以'。tox.parquet'结束），并且可以使用R或Python轻松访问。有时可以方便地准备出版物就绪的数据（尽管也可以使用Skyline或Dia-NN查看器来做到这一点），甚至可以为LC-MS性能设置自动自定义质量控制。

可以使用Mann Lab https://github.com/mannlabs/alphamap使用Alphamap来可视化蛋白质内的肽和修饰位置。

自动化管道

DIA-NN GUI中的管道窗口允许将多个分析步骤组合到管道中。每个管道步骤是GUI显示的一组设置。一个人可以在管道中添加此类步骤，更新现有步骤，删除步骤，向上/向上移动管道中的步骤，在管道中禁用/启用（通过双鼠标单击）某些步骤，并保存/加载管道。此外，可以在不同的GUI选项卡/窗口之间复制单个管道步骤（为此使用复制和粘贴按钮）。我们总是组装所有DIA-NN，用于管道中的特定出版物。一个人还可以使用DIA-NN管道存储配置模板。

PTM和肽类型

DIA-NN GUI具有内置工作流（前体离子产生窗格），用于检测蛋氨酸氧化，N末端蛋白乙酰化，磷酸化和泛素化（通过检测赖氨酸上的残留-GG加合物）。可以在其他选项中使用-var-mod或 - 固定模式来声明其他修改。

区分带有不同修饰集的肽型是DIA中的一个非平凡问题：如果没有特殊的肽型评分，则有效的肽型FDR可以在5-10％的范围内用于无图书馆的分析。 DIA-NN实现了肽型评分的统计目标 - 指数方法，该方法由肽型选项（算法窗格）启用，并且每当通过GUI设置或-VAR-MOD命令声明变量修改时，也会自动激活。所得的肽型Q值反映了DIA-NN对肽报告的一组修饰的正确性以及所鉴定的氨基酸序列的正确性的信心。但是，这些Q值不能保证由于某些氨基酸取代或修改（例如脱氨酸）而没有低质量转移（请注意，DDA也不能保证这一点）。

此外，DIA-NN具有一种算法，该算法报告了PTM定位置信度估计（作为在.parquet输出报告中包含的所有可变PTM位点正确定位的后验概率以及单个位点的分数）。 Phosphosites_90和Phossites_99 .TSV文件包含磷酸材料特异性的数量，该数量是使用Top 1方法（实验）计算的，这是前体中最高的强度，该地点与指定的置信度（分别为0.9或0.99）被用作磷给定运行中的数量。这里使用了“顶部1”算法，因为它可能是对异常值和错误定位错误的最强大的。但是，是否确实需要调查这是最佳选择，这是由于缺乏已知地面真相的基准而当前具有挑战性的。

通常，在寻找PTM时，我们建议以下内容：

必需：您要查找的可变修改必须指定为变量（通过GUI复选框或其他选项）在生成在硅中预测的库时，以及使用任何预测或经验库分析原始数据时
磷酸化的设置：最大3个变量修改，最大1丢失的裂解，磷酸化是指定的唯一变量修饰，前体电荷范围2-3；为了减少RAM使用情况，请确保指定的前体质量范围（生成预测库时）不超过DIA方法选择为MS/MS选择的前体质量范围；为了加快使用预测库时的加速处理，请先从实验子集（例如10+运行量）中生成基于DIA的库，然后使用MBR禁用的基于DIA的库分析整个数据集
上述成功时，也可以尝试最大2个错过乳沟
在寻找磷酸化以外的其他PTM时，在95％的情况下，最好使用最大1至3个变量修改，而最大1丢失了裂解
当不寻找PTM时，即当目标是相对蛋白质定量时，启用可变修饰通常不会产生更高的蛋白质组学深度。虽然通常也不会受到伤害，但它会使处理速度较慢。

据我们所知，没有公开的验证识别脱酰胺肽的识别信心（除非质量规格具有很高的分辨率和紧密的质量准确性/耐受性设置，否则很容易混淆为更重的同位素学搜索引擎使用），甚至用于DDA。对脱膜肽识别的信心的一种方法是检查是否确定了是否确定脱氨质量的质量三角洲是1.022694，而不是正确的值0.984016。 DIA-NN确实在几个数据集上成功通过了此测试（指定此“诱饵修饰质量”时没有报告ID），但是我们建议还要在实验中进行几次运行，请尝试对实验进行分析的几项“诱饵修改质量”搜索，如果寻找脱酰胺的肽。在每种情况下（正确或诱饵质量），除肽型评分外，还应使用-pTM-QVALUES启用PTM特异性评分进行脱氨酸，以及PTM.Q.Value或Global.Q.Value/Lib。 q。用于过滤的值。

值得注意的是，当最终目标是鉴定蛋白质时，如果修饰的肽被误认为，则与源自来自不同肽型的光谱相匹配，这在很大程度上是无关紧要的。因此，如果实验的目的是识别/量化特定的PTM，氨基酸取代或区分具有较高序列认同的蛋白质，则建议使用肽型成像型评分选项。在所有其他情况下，通常可以使用肽型评分，但不是必需的，并且通常会导致使用MBR时的处理速度较慢，并且识别率略有下降。

DIA-NN是否需要识别光谱库中的修改？

一般来说，是的。但是，大多数工作流将无需识别修改而工作。尽管如果在库中检测到未知的修改，DIA-NN将打印出列表的警告，强烈建议使用模型来声明它们。请注意，DIA-NN已经识别许多常见的修改，还可以加载整个Unimod数据库，请参阅-full-unimod选项。

使用plexdia多路复用

与Slavov实验室合作，我们基于DIA-NN开发了PLEXDIA，该技术允许与DIA结合使用的非异种多路复用（Mtraq，Dimethyl，Silac）受益。为了分析丛实验，需要一个在硅预测或经验光谱库中。然后，根据分析方案，需要向DIA-NN提供以下一组命令。

方案1 。该库是一个常规的无标签库（经验或预测），并且纯粹使用同位素标记实现多重库，即没有化学标记，带有MTRAQ或Dimethyl等标签。然后，DIA-NN需要以下选项添加到其他选项中：

- 固定模型，以声明通道标签的基本名称和相关的氨基酸
- 固定模型，在硅中应用 - 用 - 固定模型声明的修改到库
- 渠道，声明所有考虑的渠道的质量变化
- 原始模式，以防止DIA-NN转换为Unimod的声明的修改

K和R上的L/H Silac标签的示例：

 --fixed-mod SILAC,0.0,KR,label
--lib-fixed-mod SILAC
--channels SILAC,L,KR,0:0; SILAC,H,KR,8.014199:10.008269
--original-mods

请注意，在上面的Silac被声明为标签，即不应该改变肽的保留时间。它也是这里的零质量标签，因为它仅用于指定将标记的氨基酸。在dia-nn使用的内部库表示中，在每个k或r之后，在每个k或r之后，将（固定模式和 - 固定模式）的组合简单地放在（silac）。 - 随后，渠道分别将每个库的入口分别分为两个，一个分别为k（silac）或r（silac）在序列中添加的质量0（k）和0（r），而另一个则具有8.014199（k）（k））和10.008269（R）。

方案2 。该库是一个常规的无标签库（经验或预测），并且通过使用MTRAQ进行化学标记来实现多路复用。

方案2：步骤1。用MTRAQ将库标记，并运行深度学习预测指标以调整光谱/RTS/IMS。为此，在光谱库字段中使用输入库运行DIA-NN，指定的输出库，基于深度学习的光谱，RTS和IMS预测，启用了原始数据文件列表，在其他选项中，原始数据文件的列表和以下选项：

 --fixed-mod mTRAQ,140.0949630177,nK
--lib-fixed-mod mTRAQ
--channels mTRAQ,0,nK,0:0; mTRAQ,4,nK,4.0070994:4.0070994;mTRAQ,8,nK,8.0141988132:8.0141988132
--original-mods

使用.preped.speclib文件，其中的名称与输出库相对应作为下一步的光谱库。

方案2：步骤2。运行DIA-NN，具有以下选项：

 --fixed-mod mTRAQ,140.0949630177,nK
--channels mTRAQ,0,nK,0:0; mTRAQ,4,nK,4.0070994:4.0070994;mTRAQ,8,nK,8.0141988132:8.0141988132
--original-mods

请注意，不再需要 - 固定模型，因为步骤1中生成的库已经包含（MTRAQ）在每个肽的N末端和赖氨酸处。

方案3 。该库是一个常规的无标签库（经验或预测），通过使用MTRAQ以外的其他标签来实现多重库。这种情况与方案2不同的治疗方式不同的原因是，尚未专门针对MTRAQ以外的标签进行专门培训的DIA-NN，因此没有必要生成预测的额外步骤。只需像在方案1中一样运行DIA-NN，除非 - 固定模式声明在这种情况下将具有非零质量，并且不会成为标签。例如，对于Thielert等人所述的5通道二甲基：

 ‐‐fixed‐mod Dimethyl, 28.0313, nK
--lib-fixed-mod Dimethyl
‐‐channels Dimethyl,0,nK,0:0; Dimethyl,2,nK,2.0126:2.0126; Dimethyl,4,nK,4.0251:4.0251; Dimethyl,6,nK,6.0377:6.0377; Dimethyl,8,nK,8.0444:8.0444
--original-mods

方案4 。该库是由DIA-NN从多重DIA数据集生成的经验DIA库。例如，这可能是DIA-NN在MBR的第一个通过中生成的库（您想重用它以分析相同的或其他运行）。然后，其他选项将与方案1，方案2：步骤2或方案3相同，除非（重要！） - 不得提供固定模式。

在上面的所有情况下，指定标准化策略的额外选项必须包括在其他选项中。这可以是 - 渠道运行 - - 脉冲 - SILAC，蛋白质周转率）或 - 通道规格 - （独立样品的多重）。

输出。我们建议使用.parquet格式的主要报告进行所有下游分析。请注意，当使用多路复用时，主报告中的pg.q.value和gg.q.value是通道特定的。如果使用（i）量子，并且（ii）该报告对应于MBR或MBR的第二段，则数量pg.maxlfq，genes.maxlfq和genes.maxlfq.unique仅是通道特异性的。另外，可以使用矩阵（不建议），这些矩阵仅是前体级别。使用矩阵时，必须指定 - 矩阵-CH-QVALUE，合理阈值0.01至0.5。此设置不会影响提取的MS1矩阵，该矩阵仅报告与每个通道相对应的MS1信号，每当在任何通道中识别前体时 - 通常不建议使用此矩阵。分析多路复用数据时不会产生蛋白质基质。

GUI设置参考

选定选项的描述

输入窗格

转换为.dia将所选的RAW文件转换为DIA-NN的.DIA格式，以更快地进行处理，并将它们保存到与相应源的RAW文件的同一文件夹中，或者将其保存到temp/.dia dir （输出窗格），指定后者。建议用于SCIEX文件的转换，通常对Thermo文件几乎没有区别，不建议用于Bruker文件。
Reannotate选项允许使用指定的Digest特异性从FastA数据库中使用蛋白质信息来重新注释光谱库
污染物添加了剑桥蛋白质组学中心（CCP）数据库中的常见污染物，并自动将其排除在量化之外，请参见 - 量音 - 量词 - 隔离选项的描述。此选项在从FASTA数据库中生成预测的光谱库或使用此类库进行分析时适用，如果启用了污染物。

前体离子产生窗格

Fasta Digest指示DIA-NN在硅摘要中序列数据库，无库搜索或在计算机中生成光谱库
基于深度学习的光谱，RT和IMS预测指示DIA-NN对光谱，保留时间和离子迁移率值进行深度学习的预测。这不仅允许通过序列数据库中的计算机光谱库中的形式制作，而且还可以替换具有预测值的现有库中的Spectra/rts/ims

输出窗格

在可用的重复使用ID/量化信息中使用现有的.quant文件，请参阅输出
temp/.dia dir指定将保存的文件或转换为.dia文件的位置，请参阅输出

算法窗格

质量精度设置MS2质量公差（在ppm中），请参阅更改默认设置
质量精度MS1设置MS1质量公差（在PPM中），请参阅更改默认设置
扫描窗口将扫描窗口半径设置为特定值。理想情况下，应大约等于每个峰值数据点的平均数量，请参见更改默认设置
无关运行确定质量精度和扫描窗口，如果自动，则独立于不同的运行，请参见[更改默认设置]（＃更改默认设置
肽型激活肽型置信度的评分，请参阅PTM和肽型
MBR启用MBR，应启用大多数定量实验，请参阅MBR
没有共享光谱是否使用以频谱为中心的算法去除干扰前体。在考虑可变修改时，该算法尤其重要，应始终启用
此处的神经网络分类器“单通道”模式是默认选项，建议使用。在某些情况下，“双通”模式可能会更好，但是速度几乎慢了两倍，可能会使报告的FDR值略有保守。在决定使用它之前，必须针对特定数据集上的单个通用模式进行双通道模式。
蛋白质推断此环境主要影响蛋白质型定义，只要基因级信息实际上存在于数据库中（非无剥离数据库可能缺乏基因级信息），建议几乎所有应用程序使用默认的“基因”。设置为“关闭”时，使用光谱库中的蛋白质组 - 如果在库生成期间已经进行了蛋白质推断，这是有道理的
对于大多数情况，建议使用量化策略量子（高精度），将消除任何比率压缩偏置的量子（高临界段）进行实验是至关重要的
交叉归一化是使用全局，依赖RT依赖性（建议）还是信号依赖性（实验，非常小心）交叉横向归一化。也可以使用-NO-NORM完全禁用归一化
库生成此设置确定了如何以及如何将经验RTS/IM和光谱添加到新生成的库中，而不是理论值。对于几乎所有工作流程，强烈建议对ID，RT＆IM分析。在使用高质量项目特定库进行分析时，可以切换到IDS分析。完整的分析是指始终使用经验信息，并且只有在每次运行识别的约1000个肽时才可能是有益的（在极少数情况下），并且仅当下游处理对FDR的敏感不太敏感时。
速度和RAM使用此设置主要用于无图书馆分析。前三个模式通常在ID号方面几乎没有差异，而超快速模式则相当极端：快5倍，但是ID号不那么好，有效的FDR可能更高。使用MBR时，设置仅影响第一段

命令行引用

可用选项/命令的描述

请注意，下面的某些选项对性能有很大损害，并且仅出于基准测试目的。因此，建议仅使用基于某些明确理由的特定实验（例如本文档中推荐的内容）有利于特定实验的选项。

-CFG [文件名]指定一个文件以从
- 多路复用样本的渠道运行 - 符号归一化将以运行特异性进行，即执行归一化，因为每个前体离子DIA-NN都会在每次运行中总和每个运行中的各个通道，并将跨运行范围使这些总和归一化：使用：使用EG EG用于蛋白质周转的SILAC实验
- 将以通道特异性进行多路复用样本的渠道特异性标准，即每次运行中的每个通道都被视为要归一化的单独样本：用于分析实验，其中使用独立样品的多路复用来增强吞吐量
- 通道[频道1]； [频道2]; ...列出多路复用通道，其中每个通道声明具有[channel] = [label group]，[channel name]，[stite]，[mass1：mass2：...]的表单，其中[sites]具有相同的语法至于 - var-mod，如果列出了n个站点，则在频道声明的末尾列出了n个群众。光谱库将自动分为多个通道，以实现[标签组]修改的前体。为了将后者添加到无标签的光谱库中，可以使用 - 固定模型，例如 - 固定模型Silac，0.0，KR，Label-label-lib-cixed-mod-mod silac。请参阅使用plexdia的多路复用示例
- 清晰的模式使所有内置修改（PTM）名称使Dia-nn“忘记”名称
- 紧凑型报告指示DIA-NN在Main .TSV报告中提供更少的信息
- 与指定标签标记的蛋白质序列ID相对应的cont-Quant-exclude [TAG]肽将被排除在标准化之外，以及不包含具有标签蛋白质的蛋白质基团的定量
- Convert使DIA-NN将质量规格文件转换为.dia格式。如果指定了文件，则将文件保存到与输入文件相同的位置，或者在temp/.dia dir中保存（在GUI中或使用-TEMP选项中）
- 切割[特定于1]，[特异性2]，...指定硅摘要中的切割特异性。裂解位点（对氨基酸对）被逗号分隔，“*”表示任何氨基酸，并且'！'表明各自的位点不会被裂解。示例：“ - 切割k*，r*，！*p” - 典型的胰蛋白酶特异性， - cut” - digest禁用
- 通道通道[频道]指定诱饵通道质量，其中[频道]具有与 - 通道相同的语法
- Decoys Preserve-spectrum告诉DIA-NN，图书馆中的诱饵肽已经用“诱饵”光谱注释
- dir [文件夹]指定一个包含要处理的原始文件的文件夹。文件夹中的所有文件都必须在.raw，.mzml或.dia格式中
- 直接施加禁用量子并使用遗留DIAN NN定量算法，在分析多路复用样品时，也可以禁用通道特定的蛋白质定量
-使用深度学习预测指标时，将不会执行离子迁移率的预测
-使用深度学习预测指标时，将不会执行保留时间的预测
- duplate-Proteins指示DIA-NN不要在序列数据库中跳过具有重复ID的条目（默认情况下，如果几个条目具有相同的蛋白质ID，则除了第一个条目外，所有其他条目都将跳过）
-将禁用基于参数建模的自由肽的范围近似FDR估计
- 特克斯特（Export-Quant）向.parquet输出报告添加片段数量和质量信息
- ext [string]将字符串添加到每个文件名的末尾（用-f指定）
-f [文件名]指定要分析的运行，使用多个-f命令指定多个运行
- fasta [文件名]指定fasta格式的序列数据库（对uniprot蛋白质组的全部支持），使用多个-fasta命令指定多个数据库
- fasta-filter [文件名]仅考虑匹配所提供文本文件中指定的剥离序列（每行序列一个序列），当处理序列数据库时
- -Fasta-Search指示DIA-NN执行序列数据库的硅摘要
- 固定模式[name]，[mass]，[sites]，[可选：'label'] - 将修改名称添加到识别名称列表中，并将修改指定为固定的修改。与 - var-mod相同的语法。
- 处理序列数据库时，仅考虑瑞士语（即用'> sp |'）序列标记的瑞士语（即用'> sp |'）
- 外国人告知DIA-NN，图书馆中包含的任何诱饵都是由此版本的DIA-NN生成的
- Full-Unimod加载完整的UniMod修改数据库，并禁用修改名称的自动转换为Unimod格式
- 基本规格LIB指示DIA-NN生成光谱库
- 基于分析的运行（选择受干扰影响最少的片段以进行量化，其余部分被排除在外），限制为片段以片段排除信息注释库。
- 全球质量量限制RT依赖性质量校准
- 全球范围指示DIA-NN使用简单的全局归一化而不是依赖RT的归一化
- 高-ACC量子设置将被限制以获得最大的精度，即最大程度地减少任何比率压缩定量偏差
- IDS对名称蛋白序列ID也将用作蛋白质名称和基因，有关实际蛋白质名称或基因的任何信息将被忽略
-IL-EQ （实验）使用“ reannotate”功能时，肽将与蛋白质相匹配，同时考虑异亮氨酸和亮氨酸等效。
- im-window [x]将IM提取窗口修复到特定值
- im-窗口因子[x]控制IM提取窗口的最小尺寸，默认为2.0
- 个人质量ACC质量精确度（如果设置为自动），将独立确定不同的运行
- 个人报告将为每次运行创建一个单独的输出报告
- 个体窗口扫描窗口，如果设置为自动，则将针对不同的运行独立确定
- Int-Removal 0禁用去除干扰前体
- lib [文件名]指定光谱库。使用多个-lib命令（实验）允许以.tsv格式加载多个库