DIA-NN - универсальный программный комплекс для независимой от данных обработки (DIA) протеомных данных. Задуманный в Кембриджском университете, Великобритания, в лаборатории Кэтрин Лилли (Кембриджский центр протеомики), DIA-NN открыл новую главу в протеомике, представив ряд алгоритмов, которые позволили провести надежные, надежные и количественно точные крупномасштабные эксперименты с использованием высокопроизводительные методы. В настоящее время DIA-NN находится в стадии дальнейшей разработки в лаборатории Вадима Демичева в Шарите (Медицинский университет Берлина, Германия).
ДИА-НН построена на следующих принципах:
Скачать : https://github.com/vdemichev/DiaNN/releases/tag/1.9.2 (рекомендуется использовать последнюю версию - DIA-NN 1.9.2)
Пожалуйста, укажите:
ДИА-НН: нейронные сети и коррекция помех
обеспечить глубокое покрытие протеома с помощью высокопроизводительных методов Nature, 2020 г.
Использование DIA-NN для анализа посттрансляционных модификаций (PTM), таких как фосфорилирование или убиквитинирование: профилирование убиквитинома с временным разрешением in vivo с помощью DIA-MS выявляет мишени USP7 в масштабе всего протеома. Nature Communications, 2021
Использование модуля ионной подвижности DIA-NN для анализа данных timsTOF или использование DIA-NN в сочетании со спектральными библиотеками, сгенерированными FragPipe: анализ данных диа-PASEF с использованием FragPipe и DIA-NN для глубокой протеомики небольших количеств образцов Nature Communications, 2022
Использование DIA-NN для анализа мультиплексированных образцов (SILAC, mTRAQ и т. д.): увеличение производительности чувствительной протеомики с помощью plexDIA Nature Biotechnology, 2022 г.
Использование DIA-NN как часть рабочего процесса CysQuant: CysQuant: одновременная количественная оценка окисления цистеина и содержания белка с использованием масс-спектрометрии с зависимым или независимым сбором данных Redox Biology, 2023
Использование модуля QuantUMS DIA-NN для количественного анализа: QuantUMS: минимизация неопределенности обеспечивает уверенный количественный анализ в протеомике biorxiv
Использование DIA-NN для обработки данных Slice-PASEF: Slice-PASEF: фрагментация всех ионов для максимальной чувствительности в протеомике biorxiv
Другие ключевые документы
Пакет R с некоторыми полезными функциями для работы с выходными отчетами DIA-NN: https://github.com/vdemichev/diann-rpackage
Визуализация положений пептидов в белке: https://github.com/MannLabs/alphamap (AlphaMap от лаборатории Манна)
Заметки и обсуждения по протеомике в целом и использованию DIA-NN: https://github.com/vdemichev/DiaNN/discussions/categories/dia-proteomics-in-detail (этот раздел будет расширяться).
Установка
Начиная
Форматы необработанных данных
Форматы спектральных библиотек
Выход
Поиск без библиотеки
Создание спектральных библиотек
Матч между пробегами
Изменение настроек по умолчанию
Инструмент командной строки
Визуализация
Автоматизированные трубопроводы
ПТМ и пептидоформы
Мультиплексирование с использованием plexDIA
Справочник по настройкам графического интерфейса
Справочник по командной строке
Основной выходной эталон
Часто задаваемые вопросы (FAQ)
Поддерживать
В Windows загрузите установщик .exe и запустите его. Обязательно не запускайте установщик с сетевого диска. Рекомендуется устанавливать DIA-NN в папку по умолчанию, предложенную установщиком. Альтернативно, просто распакуйте архив .binaries.zip в выбранное вами место.
В Linux загрузите и распакуйте файл .Linux.zip. Версия DIA-NN для Linux создается в Linux Mint 21.2, и целевая система должна иметь как минимум недавние стандартные библиотеки. Однако такого требования нет, если вы создаете образ контейнера Docker или Apptainer/Singularity. Чтобы создать любой из контейнеров, мы рекомендуем начать с последнего образа Docker Debian — в этом случае вам нужно всего лишь установить sudo apt install libgomp1
прежде чем вы сможете запустить в нем DIA-NN. Также ознакомьтесь с отличным подробным руководством Роджера Оливеллы. Для достижения наилучшей производительности используйте mimalloc с динамическим переопределением, как описано здесь https://github.com/microsoft/mimalloc.
Также возможно запустить DIA-NN в Linux с использованием Wine 6.8 или более поздней версии.
Данные масс-спектрометрии DIA можно анализировать двумя способами: путем поиска в базе данных последовательностей (безбиблиотекный режим) или с использованием «спектральной библиотеки» - набора известных спектров и времен удерживания для выбранных пептидов. Мы подробно обсуждаем, когда использовать каждый из этих подходов, в разделе «Поиск без библиотеки». Для обоих видов анализа использовать DIA-NN очень просто:
Теперь приведенной выше информации достаточно, чтобы начать использовать DIA-NN, это действительно так просто! Остальная часть этой документации может быть полезна, но не является существенной для 99% проектов.
Выше описано, как запустить DIA-NN с настройками по умолчанию, и они обеспечивают оптимальную или почти оптимальную производительность для большинства экспериментов. Однако в некоторых случаях лучше отрегулировать настройки. Подробную информацию см. в разделе Изменение настроек по умолчанию.
DIA-NN также предлагает мощные возможности настройки для необычных экспериментов. DIA-NN реализован как удобный графический интерфейс, который автоматически вызывает инструмент командной строки. Но пользователь также может передавать параметры/команды в инструмент командной строки напрямую, через текстовое поле «Дополнительные параметры» в интерфейсе. Все эти параметры начинаются с двойной черточки, за которой следует имя параметра и, если применимо, некоторые параметры, которые необходимо установить. Поэтому, если вы видите какой-либо параметр/команду с -- в названии, упомянутый в этой документации, это означает, что эту команду следует вводить в текстовое поле «Дополнительные параметры» .
Поддерживаемые форматы: Sciex .wiff, Bruker .d, Thermo .raw, .mzML и .dia (формат, используемый DIA-NN для хранения спектров). Возможна конвертация из любого поддерживаемого формата в .dia. При работе в Linux (собственные сборки, а не Wine) поддерживаются только данные .d, .mzML и .dia.
Для поддержки .wiff загрузите и установите ProteoWizard — выберите версию (64-разрядную), поддерживающую «файлы поставщиков»). Затем скопируйте все файлы с именем «Clearcore» или «Sciex» (это будут файлы .dll) из папки ProteoWizard в папку установки DIA-NN (ту, которая содержит diann.exe, DIA-NN.exe и куча других файлов).
Для чтения файлов Thermo .raw требуется установка Thermo MS File Reader. Обязательно использовать именно версию по ссылке выше (3.0 SP3).
Файлы .mzML должны быть центрированы и содержать данные в виде спектров (например, SWATH/DIA), а не хроматограмм.
Многие форматы массовой спецификации, включая те немногие, которые не поддерживаются напрямую DIA-NN, можно преобразовать в .mzML с помощью приложения MSConvertGUI от ProteoWizard. Это работает для всех поддерживаемых форматов, кроме Bruker .d и SCIEX Scanning SWATH — к ним необходим прямой доступ через DIA-NN. Для преобразования необходимо использовать следующие настройки MSConvert:
DIA-NN поддерживает таблицы, разделенные запятыми (.csv), табуляцией (.tsv, .xls или .txt) или .parquet в качестве спектральных библиотек, а также .speclib (компактный формат, используемый DIA-NN), .sptxt. (SpectraST, экспериментальный) и файлы библиотек .msp (NIST, экспериментальный). Важно: библиотека не должна содержать нефрагментированные ионы-предшественники в качестве «фрагментов»: каждый ион-фрагмент фактически должен быть получен в результате фрагментации пептидного остова.
Библиотеки в формате PeakView, а также библиотеки, созданные FragPipe, TargetedFileConverter (часть OpenMS), экспортированные из Spectronaut (Biognosys) в формате .xls или созданные самой DIA-NN, поддерживаются «как есть».
Для библиотек .tsv/.xls/.txt, созданных другими способами, DIA-NN может потребовать указать имена заголовков (разделенные запятыми) (для требуемых столбцов) с помощью команды --library-headers. Используйте символ * вместо названия заголовка, чтобы обеспечить его автоматическое распознавание. Ниже приведены описания соответствующих столбцов (в том порядке, в котором необходимо указывать заголовки).
Обязательные столбцы:
Настоятельно рекомендуется, чтобы в библиотеке также присутствовали столбцы, содержащие следующее:
Например, команда --library-headers, указывающая все имена столбцов, кроме столбца «Приманка», может выглядеть так:
--library-headers ModifiedPeptide, PrecursorCharge, PrecursorMz, Tr_reкалиброванный, ProductMz, LibraryIntensity, UniprotID, ProteinName, Genes, Proteotypic, *, FragmentCharge, FragmentType, FragmentSeriesNumber, FragmentLossType, QValue, ExcludeFromAssay, IonMobility
Используйте --sptxt-acc, чтобы установить точность массовой фильтрации фрагментов (в ppm) при чтении библиотек .sptxt/.msp.
MaxQuant msms.txt также можно использовать (экспериментально) в качестве спектральной библиотеки в DIA-NN, хотя фиксированные модификации могут считываться неправильно.
DIA-NN может конвертировать любую поддерживаемую библиотеку в собственный формат .parquet. Для этого нажмите «Спектральная библиотека» (панель «Ввод» ), выберите библиотеку, которую хотите преобразовать, выберите имя файла выходной библиотеки (панель «Вывод» ), нажмите «Выполнить» . Если вы используете какой-то экзотический формат библиотеки, рекомендуется преобразовать его в .parquet DIA-NN, а затем проверить полученную библиотеку (используя пакет R 'arrow' или Python 'pyarrow'), чтобы увидеть, имеет ли ее содержимое смысл.
Все библиотеки .tsv/.xls/.txt/.csv/.parquet представляют собой простые таблицы с удобочитаемыми данными, которые при необходимости можно исследовать/редактировать с помощью Excel или (в идеале) R/Python.
Важно отметить, что при преобразовании любой библиотеки в другой формат все числа могут быть округлены с использованием определенной десятичной точности, а это означает, что они могут не быть точно такими же, как в исходной библиотеке (может быть небольшая разница). Таким образом, хотя производительность при анализе с использованием конвертированной библиотеки будет сопоставима, результаты не будут точно совпадать.
Панель «Вывод» позволяет указать, где следует сохранить выходные данные, а также имена файлов для основного выходного отчета и (необязательно) выходной спектральной библиотеки. DIA-NN использует эти имена файлов для получения имен всех своих выходных файлов. Ниже можно найти информацию о различных типах вывода DIA-NN. Для большинства рабочих процессов нужен только основной отчет (рекомендуется для анализа в R или Python) или матрицы (упрощенный вывод для MS Excel). Когда генерация выходных матриц включена, DIA-NN также создает файл .manifest.txt с кратким описанием сгенерированных выходных файлов.
Текстовая таблица, содержащая идентификаторы предшественников и белков, а также множество сопутствующей информации. Названия большинства столбцов говорят сами за себя, а полную ссылку можно найти в справочнике по основным выводам. При именовании столбцов используются следующие ключевые слова:
Примечание. Начиная с версии 1.9, DIA-NN создает отчет в формате Apache .parquet. Это формат сжатой текстовой таблицы (уменьшение размера примерно в 10 раз), который можно загрузить в одной строке кода с помощью пакета R 'arrow' или пакета Python 'pyarrow'. Большая часть новых функций (представленных в DIA-NN 1.9) отражается только в отчете паркета, поэтому во всех случаях рекомендуется использовать его вместо устаревшего отчета .tsv, тогда как отчет .tsv по-прежнему генерируется только для совместимости с старые рабочие процессы анализа. Генерацию устаревшего отчета .tsv можно отключить с помощью --no-main-report. Помимо использования R или Python, вы также можете просматривать файлы .parquet с помощью TAD Viewer.
Они содержат нормализованные количества MaxLFQ для групп белков («pg_matrix»), групп генов («gg_matrix»), уникальных генов («unique_genes_matrix»; т. е. генов, идентифицированных и количественно оцененных с использованием только протеотипических, то есть геноспецифичных пептидов), а также нормализованных количества прекурсоров («pr_matrix»). Они фильтруются с уровнем FDR 1%, используя глобальные значения q для групп белков, а также глобальные и специфичные для серии значения q для предшественников. К белковым матрицам применяется дополнительный 5%-ный фильтр FDR на уровне белка, для которого используется параметр --matrix-spec-q. Иногда DIA-NN сообщает ноль как наилучшую оценку количества предшественника или белка. Такие нулевые количества исключаются из матриц белков/генов. Специальные матрицы количественного определения фосфозитов (фосфозиты_90 и фосфозиты_99 .tsv) генерируются, когда фосфорилирование (UniMod:21) объявляется как переменная модификация, см. PTM и пептидоформы.
Файл .protein_description.tsv создается вместе с матрицами и содержит основную информацию о белках, известную DIA-NN (идентификаторы последовательностей, имена, имена генов, описание, последовательность). Будущие версии DIA-NN будут включать больше информации, например, о молекулярной массе белка.
Содержит ряд показателей контроля качества, которые можно использовать для фильтрации данных, например, для исключения неудачных запусков или в качестве показаний для оптимизации метода. Обратите внимание, что количество белков, о которых сообщается здесь, соответствует количеству уникальных белков (т.е. идентифицированных с протеотипическими предшественниками) в данном эксперименте при 1% уникальном значении q белка. Это число можно воспроизвести из основного отчета, созданного с использованием порогового значения FDR предшественника, равного 100 %, и отфильтрованного с использованием Protein.Q.Value <= 0,01 и Proteotypic == 1. То, что здесь считается «белком», зависит от настройки «Вывод белка».
Визуализация ряда показателей контроля качества на основе основного отчета, а также статистического отчета. Отчет в формате PDF следует использовать только для быстрой предварительной оценки данных и не следует использовать в публикациях.
Панель «Вывод» позволяет контролировать обработку файлов «.quant». Теперь, чтобы объяснить, что это такое, давайте рассмотрим, как DIA-NN обрабатывает необработанные данные. Сначала он выполняет часть обработки, требующую вычислительных затрат, отдельно для каждого отдельного запуска эксперимента и сохраняет идентификацию и количественную информацию в отдельный файл .quant. После того как все прогоны обработаны, он собирает информацию из всех файлов .quant и выполняет некоторые перекрестные шаги, такие как расчет глобального значения q, вывод белка, расчет конечных количеств и нормализацию. Это позволяет использовать DIA-NN очень гибко. Например, вы можете остановить обработку в любой момент, а затем возобновить обработку, начиная с того прогона, на котором вы остановились. Или вы можете удалить некоторые прогоны из эксперимента, добавить несколько дополнительных прогонов и быстро повторно запустить анализ без необходимости повторного анализа уже обработанных прогонов. Все это включается с помощью параметра «Использовать существующие файлы .quant, если они доступны ». Файлы .quant сохраняются или читаются из каталога Temp/.dia (или в том же месте, что и необработанные файлы, если временная папка не указана). При использовании этой опции пользователь должен убедиться, что файлы .quant были созданы с теми же настройками, которые применялись в текущем анализе, за исключением Precursor FDR (при условии, что он <= 5%), Threads , Log level , MBR , нормализация кросс-прогона и генерация библиотеки — эти настройки могут быть разными. На самом деле можно даже перенести файлы .quant на другой компьютер и повторно использовать их там, не передавая исходные необработанные файлы. Важно: настоятельно рекомендуется повторно использовать файлы .quant только в том случае, если и точность массы, и окно сканирования зафиксированы на некоторых значениях (отличных от нуля), в противном случае DIA-NN выполнит их оптимизацию еще раз, используя первый прогон, для которого файл .quant. Файл квантования не найден. Кроме того, при использовании MBR или создании спектральной библиотеки из данных DIA с параметром «Создание библиотеки» , установленным на интеллектуальное или полное профилирование, файлы .quant следует использовать повторно только в том случае, если они были сгенерированы точно в том же порядке, что и текущий порядок необработанных файлов, то есть с MBR DIA-NN в настоящее время невозможно объединить несколько отдельных анализов вместе.
Примечание. Основной отчет в формате .parquet предоставляет полную выходную информацию для любого вида последующей обработки. Все остальные типы вывода предназначены для упрощения анализа при использовании MS Excel или аналогичного программного обеспечения. Количество предшественников и белков, указанное в выходных файлах разных типов, может отличаться из-за различной фильтрации, используемой для их создания, см. описания выше. Все «матрицы» могут быть воспроизведены из основного отчета .parquet, если он создан с FDR-предшественником, установленным на 5%, с использованием R или Python.
DIA-NN имеет очень продвинутый модуль без библиотек, который для определенных типов экспериментов лучше, чем использование высококачественной спектральной библиотеки для конкретного проекта. В целом, следующее делает поиск без библиотек более эффективным по сравнению со спектральными библиотеками (в то время как противоположное преимущество в пользу спектральных библиотек):
Обратите внимание, что в 99% случаев важно, чтобы MBR был включен для количественного анализа без использования библиотеки. Он активируется по умолчанию при использовании графического интерфейса DIA-NN.
Для большинства экспериментов действительно имеет смысл попробовать поиск без библиотек. Для средних и крупномасштабных экспериментов может иметь смысл сначала попробовать анализ подмножества данных без использования библиотек, чтобы увидеть, в порядке ли производительность (для всего набора данных обычно результат будет намного лучше, поэтому нет необходимости здесь слишком строго). Мы сами часто проводим быструю предварительную оценку эксперимента по контролю качества, используя какую-нибудь публичную библиотеку.
Часто бывает удобно выполнить анализ без использования библиотек в два этапа: сначала создав предсказанную in silico спектральную библиотеку из базы данных последовательностей, а затем проанализировав ее с помощью этой библиотеки. Эту стратегию необходимо использовать во всех случаях, за исключением быстрого предварительного анализа. Обратите внимание, что функциональность конвейера в DIA-NN позволяет легко планировать последовательности задач, таких как создание прогнозируемой библиотеки с последующим множественным анализом с использованием этой библиотеки.
Обратите внимание, что чем больше пространство поиска (общее количество рассматриваемых предшественников), тем сложнее программному обеспечению для анализа идентифицировать пептиды и тем больше времени занимает поиск. DIA-NN очень хорошо справляется с очень большими пространствами поиска, но даже DIA-NN не может творить чудеса и давать такие же хорошие результаты при пространстве поиска в 100 миллионов, как при пространстве поиска в 2 миллиона. Поэтому нужно быть осторожным при одновременном включении всех возможных модификаций переменных. Например, разрешать максимум 5 модификаций переменных при одновременном включении окисления метионина, фосфо и деамидирования, вероятно, не является хорошей идеей.
В этом заключается важное различие между анализом данных DIA и DDA. В DDA разрешение всех возможных модификаций переменных имеет большой смысл еще и потому, что поисковой системе необходимо сопоставить спектр с чем-то - и если он не сопоставлен с правильным модифицированным пептидом, он будет сопоставлен ложно. В DIA подход принципиально иной: наиболее соответствующий спектр находится в данных для каждого рассматриваемого иона-предшественника (это очень упрощенное представление, просто чтобы проиллюстрировать концепцию). Таким образом, невозможность идентифицировать конкретный спектр никогда не является проблемой в DIA (фактически большинство спектров в DIA сильно мультиплексированы, то есть происходят от множества пептидов, и только часть из них можно идентифицировать). И поэтому имеет смысл включать конкретную модификацию переменной только в том случае, если вы в ней конкретно заинтересованы или если модификация действительно повсеместно распространена.
См. PTM и пептидоформы для получения информации о различении пептидоформ, несущих разные наборы модификаций.
DIA-NN может создать библиотеку спектров из любого набора данных DIA. Это можно сделать как в режиме на основе библиотеки спектров, так и в режиме без библиотеки: просто выберите параметр «Создать спектральную библиотеку» на панели вывода.
DIA-NN может дополнительно создать предсказанную in silico спектральную библиотеку либо из базы данных последовательностей (убедитесь, что дайджест FASTA включен), либо из другой спектральной библиотеки (часто полезной для публичных библиотек): просто запустите DIA-NN без указания каких-либо необработанных файлов и включите опцию прогнозирования спектров, RT и IM на основе глубокого обучения на панели «Генерация ионов-предшественников» . Модификации, которые в настоящее время поддерживаются предиктором глубокого обучения: C(cam), M(ox), N-концевой ацетил, N/Q(dea), S/T/Y(phos), K(-GG), nK( mTRAQ) и nK(TMT). Следует отметить, что если модуль прогнозирования в DIA-NN не распознает какую-либо модификацию, он все равно выполнит прогноз, просто игнорируя ее. Чтобы заставить DIA-NN вместо этого отбросить любые пептиды с модификациями, неизвестными предиктору, используйте --skip-unknown-mods.
Спектральные библиотеки также могут быть созданы на основе данных DDA, и фактически автономное фракционирование + DDA стало «золотым стандартом» создания библиотек с момента появления протеомики SWATH/DIA. Для этого мы рекомендуем использовать FragPipe, основанный на сверхбыстрой и надежной поисковой системе MSFragger. FragPipe также можно использовать для создания DIA-NN-совместимых библиотек также из данных DIA, аналогично самому DIA-NN.
MBR — это мощный режим в DIA-NN, который полезен для большинства количественных экспериментов как со спектральной библиотекой, так и в режиме без библиотеки. MBR обычно приводит как к более высоким средним числам идентификаторов, так и к гораздо большей полноте данных, то есть к гораздо меньшему количеству пропущенных значений.
При обработке любого набора данных DIA-NN собирает много полезной информации, которую можно было бы использовать для лучшей обработки данных. И это то, что позволяет MBR. С помощью MBR DIA-NN сначала создает спектральную библиотеку из данных DIA, а затем повторно обрабатывает тот же набор данных с помощью этой спектральной библиотеки. Алгоритмические инновации, реализованные в DIA-NN, гарантируют строгий контроль FDR: MBR был проверен на наборах данных от 2 до более чем 1000 запусков.
MBR должен быть включен для любого количественного эксперимента, если только у вас нет высококачественной спектральной библиотеки для конкретного проекта, которая, по вашему мнению (i), вероятно, обеспечит почти полный охват обнаруживаемых пептидов, то есть нет смысла пытаться использовать библиотеку без библиотеки. поиск + MBR, и (ii) большинство пептидов в библиотеке действительно обнаруживаются в эксперименте DIA. Если верно только (i), возможно, стоит попробовать MBR вместе с созданием библиотеки, настроенным на профилирование идентификаторов .
MBR не следует использовать для неколичественных экспериментов, то есть когда вы хотите создать только библиотеку спектров, которую затем можно было бы использовать с каким-либо другим набором данных.
Можно вручную «имитировать» MBR, используя двухэтапный подход, который приведет к сопоставимой производительности. Сначала запустите DIA-NN, чтобы создать спектральную библиотеку из прогонов DIA (весь эксперимент или только его подмножество, что может быть намного быстрее для крупномасштабных экспериментов или экспериментов, включающих холостые/неудачные прогоны). Затем используйте эту библиотеку для анализа всего эксперимента. В любом случае запустите DIA-NN с отключенным MBR.
При использовании MBR (или его имитации) и использовании основного отчета .parquet (рекомендуется) вместо количественных матриц используйте следующие фильтры q-value:
DIA-NN можно успешно использовать для обработки практически любого эксперимента с настройками по умолчанию. В общем, рекомендуется изменять настройки только тогда, когда это специально рекомендовано в этой документации (например, ниже), для определенного типа эксперимента или если для изменения имеется очень четкое и убедительное обоснование.
Во многих случаях может потребоваться изменить несколько параметров на панели «Алгоритм» .
Также ознакомьтесь с руководством по поиску без библиотеки, PTM и пептидоформам и мультиплексированию с использованием plexDIA, если они имеют отношение к вашему эксперименту.
Обратите внимание: как только вы выберете конкретную опцию в графическом интерфейсе DIA-NN, некоторые другие настройки могут активироваться автоматически. Например, всякий раз, когда вы решите выполнить дайджест базы данных FASTA in silico (для поиска без библиотек) или просто сгенерировать спектральную библиотеку на основе данных DIA, MBR также будет автоматически выбран, потому что в 99% случаев это полезно.
DIA-NN реализован как графический интерфейс пользователя (GUI), который вызывает инструмент командной строки (diann.exe). Инструмент командной строки также можно использовать отдельно, например, как часть пользовательских конвейеров автоматической обработки. Кроме того, даже при использовании графического пользовательского интерфейса можно передать параметры/команды инструменту командной строки в текстовом поле «Дополнительные параметры» . Некоторые из таких полезных опций упомянуты в этой документации, а полная ссылка представлена в разделе «Справочник по командной строке».
Когда графический интерфейс запускает инструмент командной строки, он печатает в окне журнала точный набор использованных команд. Таким образом, чтобы воспроизвести поведение, наблюдаемое при использовании графического интерфейса (например, если вы хотите провести анализ в кластере Linux), можно просто передать точно такие же команды напрямую в инструмент командной строки.
diann.exe [commands]
Команды обрабатываются в том порядке, в котором они предоставлены, и для большинства команд этот порядок может быть произвольным.
В Linux точка с запятой ';' символ рассматривается как разделитель команд, поэтому ';' как часть команд DIA-NN (например, --channels) необходимо заменить на ';' в Linux для правильного поведения.
Для удобства, а также для проведения экспериментов, состоящих из тысяч файлов, некоторые параметры/команды можно сохранить в файле конфигурации. Для этого создайте текстовый файл с любым расширением, скажем, diann_config.cfg, введите туда все команды, поддерживаемые DIA-NN, а затем создайте ссылку на этот файл с помощью --cfg diann_config.cfg (в текстовом поле Дополнительные параметры или в команда, используемая для вызова инструмента командной строки diann.exe).
DIA-NN предоставляет два варианта визуализации.
Горизонт . Чтобы визуализировать хроматограммы/спектры в Skyline, проанализируйте свой эксперимент с помощью MBR и указанной базы данных FASTA, а затем нажмите кнопку «Skyline». DIA-NN автоматически запустит Skyline (убедитесь, что у вас установлена версия Skyline/Skyline daily версии 23.1.1.459 или более поздняя в разделе «Установка администратором»). В настоящее время этот рабочий процесс не поддерживает мультиплексирование и не будет работать с модификациями в любом формате, кроме UniMod.
Просмотрщик ДИА-НН . Проанализируйте свой эксперимент, установив флажок «XICs» и нажав кнопку «Просмотр». По умолчанию опция "XICS" сделает диазиат издавных хроматограмм только для ионов фрагмента библиотеки и в пределах 10-х годов от вершины элюирования. Использовать-naxic [n] для установки окна временного удержания на n секунд (например, 60 человек извлекут хроматограммы в течение минуты от вершины) и-Теоретический ФР для извлечения всего заряда 1 и 2 y/b -Серы фрагментов, в том числе с общими нейтральными потерями. Обратите внимание, что использование-ОКСПОЛЬКО-теоретический FR, особенно в сочетании с большим временным окном, может потребовать значительного количества дискового пространства в выходной папке. Однако сама визуализация является эффективной мгновенной, для любого размера эксперимента.
ПРИМЕЧАНИЕ . Хроматограммы, извлеченные с помощью «xics», сохраняются в формате Apache .parquet (имена файлов заканчиваются '.xic.xy.parquet') и могут быть легко доступны с помощью R или Python. Иногда это может быть удобно для подготовки готовых к публикации фигур (хотя может сделать это с Skyline или DiA-NN Viewer) или даже для создания автоматического пользовательского контроля качества для производительности LC-MS.
Пептидные и модификационные положения в белке могут быть визуализированы с использованием Alphamap Lab Lab https://github.com/mannlabs/alphamap.
Окно трубопровода в графическом интерфейсе DiA-NN позволяет объединить несколько этапов анализа в трубопроводы. Каждый шаг трубопровода представляет собой набор настроек, отображаемых графическим интерфейсом. Можно добавить такие шаги к трубопроводу, обновить существующие шаги, удалять шаги, перемещать шаги вверх/вниз в трубопроводе, отключить/включить (двойным щелчком мыши) определенные шаги в трубопроводе и сохранить/нагружать трубопроводы. Кроме того, отдельные шаги трубопровода можно скопировать между различными вкладками с графическим интерфейсом/Windows (используйте кнопки копирования и вставки для этого). Мы всегда собираем все пробеги DIA-NN для конкретной публикации в трубопроводе. Можно также использовать конвейеры DiA-NN для хранения шаблонов конфигурации.
DiA-NN GUI оснащены встроенными рабочими процессами (панель генерации ионов-предшественников ) для обнаружения окисления метионина, ацетилирования N-концевого белка, фосфорилирования и убиквитинирования (посредством обнаружения аддуктов остатков -GG на лизинах). Другие модификации могут быть объявлены с использованием-var-mod или--фиксированный мод в дополнительных вариантах .
Различие между пептидоформами, несущими различные наборы модификаций, является нетривиальной проблемой в диапазоне: без специальной оценки пептидоформ. Эффективный пептидоформ FDR может быть в диапазоне 5-10% для бесконечных анализов. DIA-NN реализует статистический подход с декорацией целевого декоя для оценки пептидоформ, который включается опцией пептидоформ (панель алгоритма ), а также активируется автоматически всякий раз, когда будет объявлена переменная модификация, через настройки GUI или команду -Вар-мод. Результирующие значения Q пептидоформ отражают уверенность DiA-NN в правильности набора модификаций, сообщенных для пептида, а также правильность идентифицированной аминокислотной последовательности. Эти Q-значения, однако, не гарантируют отсутствие низких сдвигов массы из-за некоторых аминокислотных замен или модификаций, таких как деамидирование (обратите внимание, что DDA также не гарантирует это).
Кроме того, DiA-NN оснащен алгоритмом, который сообщает о оценках достоверности локализации PTM (как апостериорные вероятности для правильной локализации всех переменных сайтов PTM на пептиде, а также оценки для отдельных сайтов), включенные в выходной отчет .PARQUET. Файлы фосфозитов_90 и фосфозитов_99 .TSV содержат фосфозизированные величины, рассчитанные с использованием метода верхнего 1 (экспериментальный), то есть самая высокая интенсивность среди предшественников с местом, локализованным с указанной достоверностью (0,9 или 0,99, соответственно) используется в качестве фосфозиса. количество в данном забеге. Здесь используется алгоритм «Top 1 '», поскольку он, вероятно, является наиболее надежным против выбросов и ошибок неправильной локализации. Однако необходимо исследовать, является ли это действительно лучшим вариантом, что в настоящее время сложно из -за отсутствия критериев с известной наземной истиной.
В общем, при поиске PTMS мы рекомендуем следующее:
Основное: изменения переменных, которые вы ищете, должны быть указаны как переменная (через флажки GUI или дополнительные опции ) как при генерации библиотеки в силико, так и при анализе необработанных данных с использованием каких -либо прогнозируемых или эмпирических библиотеков
Настройки для фосфорилирования: MAX 3 переменные модификации, максимум 1 пропущенное расщепление, фосфорилирование является единственной указанной переменной модификацией, диапазон заряда предшественника 2-3; Чтобы уменьшить использование оперативной памяти, убедитесь, что указанный диапазон масс -предшественников (при генерации прогнозируемой библиотеки) не шире, чем диапазон масс -предшественников, выбранный для MS/MS методом DIA; Чтобы ускорить обработку при использовании прогнозируемой библиотеки, сначала сгенерируйте библиотеку на основе DIA из подмножества экспериментальных прогонов (например, 10+ лучших прогонов), а затем проанализируйте весь набор данных, используя эту библиотеку на основе DIA с MBR.
Когда вышеупомянутое преуспевает, также попробуйте Max 2 пропущенные расщепления
При поиске PTM, отличных от фосфорилирования, в 95% случаев лучше всего использовать переменные модификации MAX 1-3 и MAX 1 пропущенное расщепление
Когда не ищет PTM, то есть, когда целью является относительная количественная оценка белка, включение переменных модификаций обычно не дает более высокой протеомной глубины. Хотя это обычно не повредит, это делает обработку медленнее.
Насколько нам известно, нет опубликованного подтверждения уверенности идентификации для обнаружения деамидированных пептидов (которые легко запутаться с более тяжелыми изотопологами, если только массовая спецификация не имеет очень высокого разрешения, и плотная точность массы/настройка терпимости является используется поисковой системой), даже для DDA. Один из способов получить уверенность в идентификации деамидированных пептидов - это проверить, идентифицируется ли что -либо, если массовая дельта для деамидирования объявлена 1,022694, вместо правильного значения 0,984016. DiA-NN успешно проходит этот тест на нескольких наборах данных (то есть идентификаторы, не сообщается, при указании этой «массы модификации приманки»), но мы рекомендуем также попробовать такой поиск «Масса модификации приманки» на нескольких прогонах из эксперимента, который будет проанализирован , если искать дезамидированные пептиды. В каждом случае (правильная или приманка масса) следует использовать-PTM-QValues для включения PTM-специфического оценки для деамидирования, в дополнение к оценке пептидоформ, и либо PTM.Q.value, либо Global.Q.value/lib. Q.value используется для фильтрации.
Следует отметить, что когда конечной целью является идентификация белков, она в значительной степени не имеет значения, если модифицированный пептид неправильно идентифицируется, согласно спектру, происходящему из другой пептидоформы. Следовательно, если цель эксперимента состоит в том, чтобы идентифицировать/количественно оценить специфические PTM, аминокислотные замены или различать белки с высокой идентичностью последовательности, то рекомендуется вариант оценки пептидоформ . Во всех других случаях оценка пептидоформ, как правило, нормально для использования, но не требуется, и обычно приводит к несколько более медленной обработке и небольшому уменьшению идентификационных чисел при использовании MBR.
В целом да. Тем не менее, большинство рабочих процессов будут работать без необходимости распознавать модификации. Хотя, если в библиотеке обнаруживаются неизвестные модификации, DiA-NN печатает предупреждение, в котором их перечисляют, и настоятельно рекомендуется объявить их с помощью--мод. Обратите внимание, что DIA-NN уже распознает много общих модификаций, а также может загрузить всю базу данных UNIMOD, см. Опцию-Unimod.
В сотрудничестве с лабораторией Slavov мы разработали Plexdia на основе DiA-NN, технологии, которая позволяет извлечь выгоду из неизобарического мультиплексирования (MTRAQ, Dimethyl, SILAC) в сочетании с DIA. Чтобы проанализировать эксперимент с Plexdia, нужен предсказанная или эмпирическая спектральная библиотека в Silico. Затем DIA-NN должен быть поставлен со следующими наборами команд, в зависимости от сценария анализа.
Сценарий 1 . Библиотека представляет собой обычную библиотеку без метки (эмпирическую или предсказанную), а мультиплексирование достигается исключительно с изотопной маркировкой, т.е. без химической маркировки с такими метками, как MTRAQ или диметил. DiA-NN затем нуждаются в следующих параметрах, которые будут добавлены в дополнительные параметры :
Пример для метки L/H Silac на k и r:
--fixed-mod SILAC,0.0,KR,label
--lib-fixed-mod SILAC
--channels SILAC,L,KR,0:0; SILAC,H,KR,8.014199:10.008269
--original-mods
Обратите внимание, что в приведенном выше Silac объявлен как этикетка, то есть он не должен менять время удержания пептида. Здесь также является меткой с нулевой массой, поскольку он служит только для обозначения аминокислот, которые будут помечены. То, что комбинация-фиксированного мода и-lib-фиксированного мода, здесь просто полон (SILAC) после каждого k или R в последовательности ID-предшественника, во внутренней библиотеке, используемом DiA-NN. -каналы затем расщепляют каждую запись библиотеки на два, один с массами 0 (k) и 0 (r), добавленным при каждом появлении k (silac) или r (silac) в последовательности, соответственно, и другой с 8.014199 (k ) и 10.008269 (r).
Сценарий 2 . Библиотека является обычной библиотекой без метки (эмпирической или прогнозируемой), и мультиплексирование достигается с помощью химической маркировки с помощью MTRAQ.
Сценарий 2: Шаг 1. Забегайте библиотеку в Silico MTRAQ и запустите предиктор глубокого обучения для корректировки спектра/RTS/IMS. Для этого запустите DiA-NN с библиотекой вводов в поле Spectral Library , указанной библиотеке вывода , Spectra на основе глубокого обучения, включены прогнозы RTS и IMS , список необработанных файлов данных и следующие параметры в дополнительных параметрах :
--fixed-mod mTRAQ,140.0949630177,nK
--lib-fixed-mod mTRAQ
--channels mTRAQ,0,nK,0:0; mTRAQ,4,nK,4.0070994:4.0070994;mTRAQ,8,nK,8.0141988132:8.0141988132
--original-mods
Используйте файл .predicted.speclib с именем, соответствующим библиотеке вывода в качестве спектральной библиотеки для следующего шага.
Сценарий 2: Шаг 2. Запустите DiA-NN со следующими параметрами:
--fixed-mod mTRAQ,140.0949630177,nK
--channels mTRAQ,0,nK,0:0; mTRAQ,4,nK,4.0070994:4.0070994;mTRAQ,8,nK,8.0141988132:8.0141988132
--original-mods
Обратите внимание, что-lib-фиксированный мод больше не необходим, так как библиотека, сгенерированная на шаге 1, уже содержит (MTRAQ) на N-конце и лизинах каждого пептида.
Сценарий 3 . Библиотека представляет собой обычную библиотеку без меток (эмпирическую или прогнозируемую), и мультиплексирование достигается с помощью химической маркировки с помощью метки, отличной от MTRAQ. Причина, по которой этот сценарий обрабатывается не так, как сценарий 2, заключается в том, что Di-NN в Silico Predictor не был специально обучен для меток, отличных от MTRAQ, и, следовательно, дополнительный шаг для получения прогнозов не является необходимым. Просто запустите DiA-NN, как это было бы в сценарии 1, за исключением того, что в этом случае заявление об выпуске мода будет иметь ненулевую массу и не будет ярлыком. Например, для 5-канального диметил, как описано Thielert et al:
‐‐fixed‐mod Dimethyl, 28.0313, nK
--lib-fixed-mod Dimethyl
‐‐channels Dimethyl,0,nK,0:0; Dimethyl,2,nK,2.0126:2.0126; Dimethyl,4,nK,4.0251:4.0251; Dimethyl,6,nK,6.0377:6.0377; Dimethyl,8,nK,8.0444:8.0444
--original-mods
Сценарий 4 . Библиотека представляет собой эмпирическую библиотеку DIA, сгенерированную DIA-NN из мультиплексированного набора данных DIA. Например, это может быть библиотека, сгенерированная DIA-NN в первом проходе MBR (и вы хотели бы повторно использовать ее, чтобы проанализировать те же или другие прогоны). Дополнительные варианты будут такими же, как в сценарии 1, сценарий 2: Шаг 2 или сценарий 3, за исключением (важно!)-либ-фиксированный мод не должен быть предоставлен.
Во всех приведенных выше сценариях дополнительный вариант с указанием стратегии нормализации должен быть включен в дополнительные варианты . Это может быть либо-канал-ручной норм (импульсный SILAC, оборот белка) или -канал-spec-норм (мультиплексирование независимых образцов).
Выход . Мы рекомендуем использовать основной отчет в формате .parquet для всех нижестоящих анализов. Обратите внимание, что pg.q.value и gg.q.value в основном отчете являются специфичными для канала при использовании мультиплексирования. Количество pg.maxlfq, genes.maxlfq и genes.maxlfq.unique являются лишь специфичными для канала, если (i) кванты используются, и (ii) либо отчет соответствует второму проходу MBR или MBR, не используется. В качестве альтернативы можно использовать матрицы (не рекомендуется), они только на уровне предшественника. При использовании матриц важно указать-Matrix-CH-QValue, с разумными порогами от 0,01 до 0,5. Эта настройка не будет влиять на извлеченную матрицу MS1, которая просто сообщает о сигналах MS1, соответствующих каждому каналу, всякий раз, когда предшественник идентифицируется в любом из каналов - использование этой матрицы обычно не рекомендуется. Белковые матрицы не продуцируются при анализе мультиплексных данных.
Входная панель
Панель предшественника ионной генерации
Выходной панель
Алгоритм панель
Обратите внимание, что некоторые варианты ниже наносят ущерб производительности и находятся только для целей сравнительного анализа. Таким образом, рекомендация состоит в том, чтобы использовать только опции, которые, как ожидается, будут полезны для конкретного эксперимента (например, рекомендованные в настоящей документации) на основе некоторого явного обоснования.