Загрузка DiaNN - Загрузка исходного кода DiaNN

ДИА-НН

DIA-NN - универсальный программный комплекс для независимой от данных обработки (DIA) протеомных данных. Задуманный в Кембриджском университете, Великобритания, в лаборатории Кэтрин Лилли (Кембриджский центр протеомики), DIA-NN открыл новую главу в протеомике, представив ряд алгоритмов, которые позволили провести надежные, надежные и количественно точные крупномасштабные эксперименты с использованием высокопроизводительные методы. В настоящее время DIA-NN находится в стадии дальнейшей разработки в лаборатории Вадима Демичева в Шарите (Медицинский университет Берлина, Германия).

ДИА-НН построена на следующих принципах:

Надежность достигается за счет строгого статистического контроля
Надежность достигается за счет гибкого моделирования данных и автоматического выбора параметров.
Воспроизводимость обеспечивается тщательной записью всех этапов анализа.
Простота использования : высокая степень автоматизации, анализ можно настроить в несколько щелчков мыши, не требуются знания в области биоинформатики.
Мощные возможности настройки для проведения нетрадиционных экспериментов.
Масштабируемость и скорость : обработка до 1000 массовых анализов в час.

Скачать : https://github.com/vdemichev/DiaNN/releases/tag/1.9.2 (рекомендуется использовать последнюю версию - DIA-NN 1.9.2)

Пожалуйста, укажите:
ДИА-НН: нейронные сети и коррекция помех
обеспечить глубокое покрытие протеома с помощью высокопроизводительных методов Nature, 2020 г.

Использование DIA-NN для анализа посттрансляционных модификаций (PTM), таких как фосфорилирование или убиквитинирование: профилирование убиквитинома с временным разрешением in vivo с помощью DIA-MS выявляет мишени USP7 в масштабе всего протеома. Nature Communications, 2021

Использование модуля ионной подвижности DIA-NN для анализа данных timsTOF или использование DIA-NN в сочетании со спектральными библиотеками, сгенерированными FragPipe: анализ данных диа-PASEF с использованием FragPipe и DIA-NN для глубокой протеомики небольших количеств образцов Nature Communications, 2022

Использование DIA-NN для анализа мультиплексированных образцов (SILAC, mTRAQ и т. д.): увеличение производительности чувствительной протеомики с помощью plexDIA Nature Biotechnology, 2022 г.

Использование DIA-NN как часть рабочего процесса CysQuant: CysQuant: одновременная количественная оценка окисления цистеина и содержания белка с использованием масс-спектрометрии с зависимым или независимым сбором данных Redox Biology, 2023

Использование модуля QuantUMS DIA-NN для количественного анализа: QuantUMS: минимизация неопределенности обеспечивает уверенный количественный анализ в протеомике biorxiv

Использование DIA-NN для обработки данных Slice-PASEF: Slice-PASEF: фрагментация всех ионов для максимальной чувствительности в протеомике biorxiv

Другие ключевые документы

Использование DIA-NN для крупномасштабной протеомики плазмы и сыворотки:
Клеточные системы, 2020 г. и клеточные системы, 2021 г.
Сверхбыстрая протеомика с помощью DIA-NN и Scanning SWATH:
Природная биотехнология, 2021 г.

Пакет R с некоторыми полезными функциями для работы с выходными отчетами DIA-NN: https://github.com/vdemichev/diann-rpackage

Визуализация положений пептидов в белке: https://github.com/MannLabs/alphamap (AlphaMap от лаборатории Манна)

Заметки и обсуждения по протеомике в целом и использованию DIA-NN: https://github.com/vdemichev/DiaNN/discussions/categories/dia-proteomics-in-detail (этот раздел будет расширяться).

Установка
Начиная
Форматы необработанных данных
Форматы спектральных библиотек
Выход
Поиск без библиотеки
Создание спектральных библиотек
Матч между пробегами
Изменение настроек по умолчанию
Инструмент командной строки
Визуализация
Автоматизированные трубопроводы
ПТМ и пептидоформы
Мультиплексирование с использованием plexDIA
Справочник по настройкам графического интерфейса
Справочник по командной строке
Основной выходной эталон
Часто задаваемые вопросы (FAQ)
Поддерживать

Установка

В Windows загрузите установщик .exe и запустите его. Обязательно не запускайте установщик с сетевого диска. Рекомендуется устанавливать DIA-NN в папку по умолчанию, предложенную установщиком. Альтернативно, просто распакуйте архив .binaries.zip в выбранное вами место.

В Linux загрузите и распакуйте файл .Linux.zip. Версия DIA-NN для Linux создается в Linux Mint 21.2, и целевая система должна иметь как минимум недавние стандартные библиотеки. Однако такого требования нет, если вы создаете образ контейнера Docker или Apptainer/Singularity. Чтобы создать любой из контейнеров, мы рекомендуем начать с последнего образа Docker Debian — в этом случае вам нужно всего лишь установить sudo apt install libgomp1 прежде чем вы сможете запустить в нем DIA-NN. Также ознакомьтесь с отличным подробным руководством Роджера Оливеллы. Для достижения наилучшей производительности используйте mimalloc с динамическим переопределением, как описано здесь https://github.com/microsoft/mimalloc.

Также возможно запустить DIA-NN в Linux с использованием Wine 6.8 или более поздней версии.

Начиная

Данные масс-спектрометрии DIA можно анализировать двумя способами: путем поиска в базе данных последовательностей (безбиблиотекный режим) или с использованием «спектральной библиотеки» - набора известных спектров и времен удерживания для выбранных пептидов. Мы подробно обсуждаем, когда использовать каждый из этих подходов, в разделе «Поиск без библиотеки». Для обоих видов анализа использовать DIA-NN очень просто:

Нажмите «Необработанные» (на панели «Ввод» ) и выберите файлы необработанных данных масс-спектрометрии. См. Форматы необработанных данных для получения информации о поддерживаемых форматах.
Нажмите «Добавить FASTA» , добавьте одну или несколько баз данных последовательностей в формате UniProt.
Если вы хотите использовать спектральную библиотеку, нажмите «Спектральная библиотека» и выберите библиотеку. В качестве альтернативы для анализа без использования библиотек выберите дайджест FASTA для поиска/генерации библиотек без использования библиотек (на панели «Генерация ионов-предшественников» ).
Укажите имя основного выходного файла на панели «Вывод» и нажмите « Выполнить» .
Если вы сохранили «report.tsv» в качестве основного вывода (по умолчанию он расположен в папке установки DIA-NN), он будет содержать список всех идентифицированных ионов-предшественников, а также различные виды количеств, показателей качества и аннотаций. Выходной файл report.pg_matrix.tsv будет содержать количества групп белков, report.gg_matrix.tsv — количества групп генов, report.pr_matrix.tsv — количества ионов-предшественников.

Теперь приведенной выше информации достаточно, чтобы начать использовать DIA-NN, это действительно так просто! Остальная часть этой документации может быть полезна, но не является существенной для 99% проектов.

Выше описано, как запустить DIA-NN с настройками по умолчанию, и они обеспечивают оптимальную или почти оптимальную производительность для большинства экспериментов. Однако в некоторых случаях лучше отрегулировать настройки. Подробную информацию см. в разделе Изменение настроек по умолчанию.

DIA-NN также предлагает мощные возможности настройки для необычных экспериментов. DIA-NN реализован как удобный графический интерфейс, который автоматически вызывает инструмент командной строки. Но пользователь также может передавать параметры/команды в инструмент командной строки напрямую, через текстовое поле «Дополнительные параметры» в интерфейсе. Все эти параметры начинаются с двойной черточки, за которой следует имя параметра и, если применимо, некоторые параметры, которые необходимо установить. Поэтому, если вы видите какой-либо параметр/команду с -- в названии, упомянутый в этой документации, это означает, что эту команду следует вводить в текстовое поле «Дополнительные параметры» .

Форматы необработанных данных

Поддерживаемые форматы: Sciex .wiff, Bruker .d, Thermo .raw, .mzML и .dia (формат, используемый DIA-NN для хранения спектров). Возможна конвертация из любого поддерживаемого формата в .dia. При работе в Linux (собственные сборки, а не Wine) поддерживаются только данные .d, .mzML и .dia.

Для поддержки .wiff загрузите и установите ProteoWizard — выберите версию (64-разрядную), поддерживающую «файлы поставщиков»). Затем скопируйте все файлы с именем «Clearcore» или «Sciex» (это будут файлы .dll) из папки ProteoWizard в папку установки DIA-NN (ту, которая содержит diann.exe, DIA-NN.exe и куча других файлов).

Для чтения файлов Thermo .raw требуется установка Thermo MS File Reader. Обязательно использовать именно версию по ссылке выше (3.0 SP3).

Файлы .mzML должны быть центрированы и содержать данные в виде спектров (например, SWATH/DIA), а не хроматограмм.

Технологическая поддержка

Поддерживаются DIA и SWATH
Поддерживаются схемы сбора данных с перекрывающимися окнами.
Поддерживается газофазное фракционирование
Поддерживается сканирование SWATH
поддерживается диа-PASEF/py-diAID
Поддерживается Slice-PASEF (добавьте --tims-scan в дополнительные параметры)
Midia-PASEF и Synchro-PASEF поддерживаются (добавьте --tims-scan в дополнительные параметры), но DIA-NN в настоящее время не использует деконволюцию измерения Q1.
Поддерживается Orbitrap Astral
Поддерживается FAIMS с постоянным CV.
FAIMS с несколькими CV поддерживается после разделения прогонов, см. здесь.
BoxCar-DIA поддерживается, но DIA-NN не оптимизирован для него.
Данные DIA Bruker Impact II поддерживаются после преобразования в .mzML.
поддерживается мультиплексирование с неизобарическими тегами и SILAC
MSX-DIA не поддерживается.

Конверсия

Многие форматы массовой спецификации, включая те немногие, которые не поддерживаются напрямую DIA-NN, можно преобразовать в .mzML с помощью приложения MSConvertGUI от ProteoWizard. Это работает для всех поддерживаемых форматов, кроме Bruker .d и SCIEX Scanning SWATH — к ним необходим прямой доступ через DIA-NN. Для преобразования необходимо использовать следующие настройки MSConvert:

Форматы спектральных библиотек

DIA-NN поддерживает таблицы, разделенные запятыми (.csv), табуляцией (.tsv, .xls или .txt) или .parquet в качестве спектральных библиотек, а также .speclib (компактный формат, используемый DIA-NN), .sptxt. (SpectraST, экспериментальный) и файлы библиотек .msp (NIST, экспериментальный). Важно: библиотека не должна содержать нефрагментированные ионы-предшественники в качестве «фрагментов»: каждый ион-фрагмент фактически должен быть получен в результате фрагментации пептидного остова.

Подробно

Библиотеки в формате PeakView, а также библиотеки, созданные FragPipe, TargetedFileConverter (часть OpenMS), экспортированные из Spectronaut (Biognosys) в формате .xls или созданные самой DIA-NN, поддерживаются «как есть».

Для библиотек .tsv/.xls/.txt, созданных другими способами, DIA-NN может потребовать указать имена заголовков (разделенные запятыми) (для требуемых столбцов) с помощью команды --library-headers. Используйте символ * вместо названия заголовка, чтобы обеспечить его автоматическое распознавание. Ниже приведены описания соответствующих столбцов (в том порядке, в котором необходимо указывать заголовки).

Обязательные столбцы:

Модифицированная и меченая пептидная последовательность
Заряд прекурсора
Предшественник м/з
Эталонное время удерживания — можно использовать произвольную шкалу RT
Фрагмент иона m/z
Относительная интенсивность фрагментного иона

Настоятельно рекомендуется, чтобы в библиотеке также присутствовали столбцы, содержащие следующее:

Идентификаторы белков — идентификаторы изоформ белка.
Названия белков
Имена генов
Протеотипичность - столбец, содержащий значения 0/1, в зависимости от того, является ли рассматриваемый пептид «протеотипическим», то есть специфичным для конкретной изоформы белка, названия белка или гена.
Приманка – указывает, является ли пептид приманкой. Если в библиотеке есть пептиды-ловушки, DIA-NN использует их и не создает свои собственные пептиды-ловушки. Настоятельно рекомендуется не включать в библиотеку какие-либо пептиды-ловушки.
Заряд фрагментированного иона
Тип иона фрагмента – либо y, либо b; для фрагментов x и z также укажите тип фрагмента как y, а для a и c - как b
Номер серии фрагмента
Тип нейтральных потерь фрагмента
Q-значение
Идентификатор группы элюирования — если не указан, DIA-NN автоматически определит группы элюирования; не требуется для большинства рабочих процессов
Индикатор исключения фрагмента – столбец, содержащий значения 0/1, где 1 означает, что ион-фрагмент не следует использовать для количественного определения; не требуется для большинства рабочих процессов
Подвижность ионов — значение 1/K0 для прекурсора, можно использовать произвольную шкалу IM.

Например, команда --library-headers, указывающая все имена столбцов, кроме столбца «Приманка», может выглядеть так:

--library-headers ModifiedPeptide, PrecursorCharge, PrecursorMz, Tr_reкалиброванный, ProductMz, LibraryIntensity, UniprotID, ProteinName, Genes, Proteotypic, *, FragmentCharge, FragmentType, FragmentSeriesNumber, FragmentLossType, QValue, ExcludeFromAssay, IonMobility

Используйте --sptxt-acc, чтобы установить точность массовой фильтрации фрагментов (в ppm) при чтении библиотек .sptxt/.msp.

MaxQuant msms.txt также можно использовать (экспериментально) в качестве спектральной библиотеки в DIA-NN, хотя фиксированные модификации могут считываться неправильно.

DIA-NN может конвертировать любую поддерживаемую библиотеку в собственный формат .parquet. Для этого нажмите «Спектральная библиотека» (панель «Ввод» ), выберите библиотеку, которую хотите преобразовать, выберите имя файла выходной библиотеки (панель «Вывод» ), нажмите «Выполнить» . Если вы используете какой-то экзотический формат библиотеки, рекомендуется преобразовать его в .parquet DIA-NN, а затем проверить полученную библиотеку (используя пакет R 'arrow' или Python 'pyarrow'), чтобы увидеть, имеет ли ее содержимое смысл.

Все библиотеки .tsv/.xls/.txt/.csv/.parquet представляют собой простые таблицы с удобочитаемыми данными, которые при необходимости можно исследовать/редактировать с помощью Excel или (в идеале) R/Python.

Важно отметить, что при преобразовании любой библиотеки в другой формат все числа могут быть округлены с использованием определенной десятичной точности, а это означает, что они могут не быть точно такими же, как в исходной библиотеке (может быть небольшая разница). Таким образом, хотя производительность при анализе с использованием конвертированной библиотеки будет сопоставима, результаты не будут точно совпадать.

Выход

Панель «Вывод» позволяет указать, где следует сохранить выходные данные, а также имена файлов для основного выходного отчета и (необязательно) выходной спектральной библиотеки. DIA-NN использует эти имена файлов для получения имен всех своих выходных файлов. Ниже можно найти информацию о различных типах вывода DIA-NN. Для большинства рабочих процессов нужен только основной отчет (рекомендуется для анализа в R или Python) или матрицы (упрощенный вывод для MS Excel). Когда генерация выходных матриц включена, DIA-NN также создает файл .manifest.txt с кратким описанием сгенерированных выходных файлов.

Основной отчет

Текстовая таблица, содержащая идентификаторы предшественников и белков, а также множество сопутствующей информации. Названия большинства столбцов говорят сами за себя, а полную ссылку можно найти в справочнике по основным выводам. При именовании столбцов используются следующие ключевые слова:

PG означает белковую группу
GG означает группу генов
Количество означает ненормализованное количество.
Нормализованное означает нормализованное количество
MaxLFQ означает нормализованное количество белка, рассчитанное с использованием алгоритма MaxLFQ. Настоятельно рекомендуется использовать эти количества MaxLFQ, а не обычные количества (также сообщается DIA-NN).
Global относится к глобальному значению q, которое рассчитывается для всего эксперимента.
Lib относится к соответствующему значению, сохраненному в спектральной библиотеке, например Lib.Q.Value означает значение q для соответствующего предшественника библиотеки.

Примечание. Начиная с версии 1.9, DIA-NN создает отчет в формате Apache .parquet. Это формат сжатой текстовой таблицы (уменьшение размера примерно в 10 раз), который можно загрузить в одной строке кода с помощью пакета R 'arrow' или пакета Python 'pyarrow'. Большая часть новых функций (представленных в DIA-NN 1.9) отражается только в отчете паркета, поэтому во всех случаях рекомендуется использовать его вместо устаревшего отчета .tsv, тогда как отчет .tsv по-прежнему генерируется только для совместимости с старые рабочие процессы анализа. Генерацию устаревшего отчета .tsv можно отключить с помощью --no-main-report. Помимо использования R или Python, вы также можете просматривать файлы .parquet с помощью TAD Viewer.

Матрицы

Они содержат нормализованные количества MaxLFQ для групп белков («pg_matrix»), групп генов («gg_matrix»), уникальных генов («unique_genes_matrix»; т. е. генов, идентифицированных и количественно оцененных с использованием только протеотипических, то есть геноспецифичных пептидов), а также нормализованных количества прекурсоров («pr_matrix»). Они фильтруются с уровнем FDR 1%, используя глобальные значения q для групп белков, а также глобальные и специфичные для серии значения q для предшественников. К белковым матрицам применяется дополнительный 5%-ный фильтр FDR на уровне белка, для которого используется параметр --matrix-spec-q. Иногда DIA-NN сообщает ноль как наилучшую оценку количества предшественника или белка. Такие нулевые количества исключаются из матриц белков/генов. Специальные матрицы количественного определения фосфозитов (фосфозиты_90 и фосфозиты_99 .tsv) генерируются, когда фосфорилирование (UniMod:21) объявляется как переменная модификация, см. PTM и пептидоформы.

Описание белка

Файл .protein_description.tsv создается вместе с матрицами и содержит основную информацию о белках, известную DIA-NN (идентификаторы последовательностей, имена, имена генов, описание, последовательность). Будущие версии DIA-NN будут включать больше информации, например, о молекулярной массе белка.

Статистический отчет

Содержит ряд показателей контроля качества, которые можно использовать для фильтрации данных, например, для исключения неудачных запусков или в качестве показаний для оптимизации метода. Обратите внимание, что количество белков, о которых сообщается здесь, соответствует количеству уникальных белков (т.е. идентифицированных с протеотипическими предшественниками) в данном эксперименте при 1% уникальном значении q белка. Это число можно воспроизвести из основного отчета, созданного с использованием порогового значения FDR предшественника, равного 100 %, и отфильтрованного с использованием Protein.Q.Value <= 0,01 и Proteotypic == 1. То, что здесь считается «белком», зависит от настройки «Вывод белка».

PDF-отчет

Визуализация ряда показателей контроля качества на основе основного отчета, а также статистического отчета. Отчет в формате PDF следует использовать только для быстрой предварительной оценки данных и не следует использовать в публикациях.

Гибкий повторный анализ

Панель «Вывод» позволяет контролировать обработку файлов «.quant». Теперь, чтобы объяснить, что это такое, давайте рассмотрим, как DIA-NN обрабатывает необработанные данные. Сначала он выполняет часть обработки, требующую вычислительных затрат, отдельно для каждого отдельного запуска эксперимента и сохраняет идентификацию и количественную информацию в отдельный файл .quant. После того как все прогоны обработаны, он собирает информацию из всех файлов .quant и выполняет некоторые перекрестные шаги, такие как расчет глобального значения q, вывод белка, расчет конечных количеств и нормализацию. Это позволяет использовать DIA-NN очень гибко. Например, вы можете остановить обработку в любой момент, а затем возобновить обработку, начиная с того прогона, на котором вы остановились. Или вы можете удалить некоторые прогоны из эксперимента, добавить несколько дополнительных прогонов и быстро повторно запустить анализ без необходимости повторного анализа уже обработанных прогонов. Все это включается с помощью параметра «Использовать существующие файлы .quant, если они доступны ». Файлы .quant сохраняются или читаются из каталога Temp/.dia (или в том же месте, что и необработанные файлы, если временная папка не указана). При использовании этой опции пользователь должен убедиться, что файлы .quant были созданы с теми же настройками, которые применялись в текущем анализе, за исключением Precursor FDR (при условии, что он <= 5%), Threads , Log level , MBR , нормализация кросс-прогона и генерация библиотеки — эти настройки могут быть разными. На самом деле можно даже перенести файлы .quant на другой компьютер и повторно использовать их там, не передавая исходные необработанные файлы. Важно: настоятельно рекомендуется повторно использовать файлы .quant только в том случае, если и точность массы, и окно сканирования зафиксированы на некоторых значениях (отличных от нуля), в противном случае DIA-NN выполнит их оптимизацию еще раз, используя первый прогон, для которого файл .quant. Файл квантования не найден. Кроме того, при использовании MBR или создании спектральной библиотеки из данных DIA с параметром «Создание библиотеки» , установленным на интеллектуальное или полное профилирование, файлы .quant следует использовать повторно только в том случае, если они были сгенерированы точно в том же порядке, что и текущий порядок необработанных файлов, то есть с MBR DIA-NN в настоящее время невозможно объединить несколько отдельных анализов вместе.

Примечание. Основной отчет в формате .parquet предоставляет полную выходную информацию для любого вида последующей обработки. Все остальные типы вывода предназначены для упрощения анализа при использовании MS Excel или аналогичного программного обеспечения. Количество предшественников и белков, указанное в выходных файлах разных типов, может отличаться из-за различной фильтрации, используемой для их создания, см. описания выше. Все «матрицы» могут быть воспроизведены из основного отчета .parquet, если он создан с FDR-предшественником, установленным на 5%, с использованием R или Python.

Поиск без библиотеки

DIA-NN имеет очень продвинутый модуль без библиотек, который для определенных типов экспериментов лучше, чем использование высококачественной спектральной библиотеки для конкретного проекта. В целом, следующее делает поиск без библиотек более эффективным по сравнению со спектральными библиотеками (в то время как противоположное преимущество в пользу спектральных библиотек):

высокие количества пептидов, обнаруживаемые за анализ;
гетерогенные данные (например, образцы раковой ткани весьма неоднородны, а повторные инъекции одного и того же образца — нет);
длинные хроматографические градиенты, а также хорошее разделение пептидов по подвижности ионов;
большой набор данных (хотя обработка большого набора данных в режиме без библиотеки может занять время).

Обратите внимание, что в 99% случаев важно, чтобы MBR был включен для количественного анализа без использования библиотеки. Он активируется по умолчанию при использовании графического интерфейса DIA-NN.

Для большинства экспериментов действительно имеет смысл попробовать поиск без библиотек. Для средних и крупномасштабных экспериментов может иметь смысл сначала попробовать анализ подмножества данных без использования библиотек, чтобы увидеть, в порядке ли производительность (для всего набора данных обычно результат будет намного лучше, поэтому нет необходимости здесь слишком строго). Мы сами часто проводим быструю предварительную оценку эксперимента по контролю качества, используя какую-нибудь публичную библиотеку.

Часто бывает удобно выполнить анализ без использования библиотек в два этапа: сначала создав предсказанную in silico спектральную библиотеку из базы данных последовательностей, а затем проанализировав ее с помощью этой библиотеки. Эту стратегию необходимо использовать во всех случаях, за исключением быстрого предварительного анализа. Обратите внимание, что функциональность конвейера в DIA-NN позволяет легко планировать последовательности задач, таких как создание прогнозируемой библиотеки с последующим множественным анализом с использованием этой библиотеки.

Комментарий

Обратите внимание, что чем больше пространство поиска (общее количество рассматриваемых предшественников), тем сложнее программному обеспечению для анализа идентифицировать пептиды и тем больше времени занимает поиск. DIA-NN очень хорошо справляется с очень большими пространствами поиска, но даже DIA-NN не может творить чудеса и давать такие же хорошие результаты при пространстве поиска в 100 миллионов, как при пространстве поиска в 2 миллиона. Поэтому нужно быть осторожным при одновременном включении всех возможных модификаций переменных. Например, разрешать максимум 5 модификаций переменных при одновременном включении окисления метионина, фосфо и деамидирования, вероятно, не является хорошей идеей.

В этом заключается важное различие между анализом данных DIA и DDA. В DDA разрешение всех возможных модификаций переменных имеет большой смысл еще и потому, что поисковой системе необходимо сопоставить спектр с чем-то - и если он не сопоставлен с правильным модифицированным пептидом, он будет сопоставлен ложно. В DIA подход принципиально иной: наиболее соответствующий спектр находится в данных для каждого рассматриваемого иона-предшественника (это очень упрощенное представление, просто чтобы проиллюстрировать концепцию). Таким образом, невозможность идентифицировать конкретный спектр никогда не является проблемой в DIA (фактически большинство спектров в DIA сильно мультиплексированы, то есть происходят от множества пептидов, и только часть из них можно идентифицировать). И поэтому имеет смысл включать конкретную модификацию переменной только в том случае, если вы в ней конкретно заинтересованы или если модификация действительно повсеместно распространена.

См. PTM и пептидоформы для получения информации о различении пептидоформ, несущих разные наборы модификаций.

Создание спектральных библиотек

DIA-NN может создать библиотеку спектров из любого набора данных DIA. Это можно сделать как в режиме на основе библиотеки спектров, так и в режиме без библиотеки: просто выберите параметр «Создать спектральную библиотеку» на панели вывода.

DIA-NN может дополнительно создать предсказанную in silico спектральную библиотеку либо из базы данных последовательностей (убедитесь, что дайджест FASTA включен), либо из другой спектральной библиотеки (часто полезной для публичных библиотек): просто запустите DIA-NN без указания каких-либо необработанных файлов и включите опцию прогнозирования спектров, RT и IM на основе глубокого обучения на панели «Генерация ионов-предшественников» . Модификации, которые в настоящее время поддерживаются предиктором глубокого обучения: C(cam), M(ox), N-концевой ацетил, N/Q(dea), S/T/Y(phos), K(-GG), nK( mTRAQ) и nK(TMT). Следует отметить, что если модуль прогнозирования в DIA-NN не распознает какую-либо модификацию, он все равно выполнит прогноз, просто игнорируя ее. Чтобы заставить DIA-NN вместо этого отбросить любые пептиды с модификациями, неизвестными предиктору, используйте --skip-unknown-mods.

Спектральные библиотеки также могут быть созданы на основе данных DDA, и фактически автономное фракционирование + DDA стало «золотым стандартом» создания библиотек с момента появления протеомики SWATH/DIA. Для этого мы рекомендуем использовать FragPipe, основанный на сверхбыстрой и надежной поисковой системе MSFragger. FragPipe также можно использовать для создания DIA-NN-совместимых библиотек также из данных DIA, аналогично самому DIA-NN.

Матч между пробегами

MBR — это мощный режим в DIA-NN, который полезен для большинства количественных экспериментов как со спектральной библиотекой, так и в режиме без библиотеки. MBR обычно приводит как к более высоким средним числам идентификаторов, так и к гораздо большей полноте данных, то есть к гораздо меньшему количеству пропущенных значений.

При обработке любого набора данных DIA-NN собирает много полезной информации, которую можно было бы использовать для лучшей обработки данных. И это то, что позволяет MBR. С помощью MBR DIA-NN сначала создает спектральную библиотеку из данных DIA, а затем повторно обрабатывает тот же набор данных с помощью этой спектральной библиотеки. Алгоритмические инновации, реализованные в DIA-NN, гарантируют строгий контроль FDR: MBR был проверен на наборах данных от 2 до более чем 1000 запусков.

MBR должен быть включен для любого количественного эксперимента, если только у вас нет высококачественной спектральной библиотеки для конкретного проекта, которая, по вашему мнению (i), вероятно, обеспечит почти полный охват обнаруживаемых пептидов, то есть нет смысла пытаться использовать библиотеку без библиотеки. поиск + MBR, и (ii) большинство пептидов в библиотеке действительно обнаруживаются в эксперименте DIA. Если верно только (i), возможно, стоит попробовать MBR вместе с созданием библиотеки, настроенным на профилирование идентификаторов .

MBR не следует использовать для неколичественных экспериментов, то есть когда вы хотите создать только библиотеку спектров, которую затем можно было бы использовать с каким-либо другим набором данных.

Можно вручную «имитировать» MBR, используя двухэтапный подход, который приведет к сопоставимой производительности. Сначала запустите DIA-NN, чтобы создать спектральную библиотеку из прогонов DIA (весь эксперимент или только его подмножество, что может быть намного быстрее для крупномасштабных экспериментов или экспериментов, включающих холостые/неудачные прогоны). Затем используйте эту библиотеку для анализа всего эксперимента. В любом случае запустите DIA-NN с отключенным MBR.

При использовании MBR (или его имитации) и использовании основного отчета .parquet (рекомендуется) вместо количественных матриц используйте следующие фильтры q-value:

Lib.Q.Value вместо Global.Q.Value
При применении фильтра к Q.Value, который является более строгим, чем порог FDR, используемый для создания библиотеки DIA (например, фильтр Q.Value < 0,001), всегда применяйте тот же фильтр к Lib.Q.Value.
Lib.PG.Q.Value вместо Global.PG.Q.Value
Lib.Peptidoform.Q.Value вместо Global.Peptidoform.Q.Value при использовании оценки пептидоформ.

Изменение настроек по умолчанию

DIA-NN можно успешно использовать для обработки практически любого эксперимента с настройками по умолчанию. В общем, рекомендуется изменять настройки только тогда, когда это специально рекомендовано в этой документации (например, ниже), для определенного типа эксперимента или если для изменения имеется очень четкое и убедительное обоснование.

Во многих случаях может потребоваться изменить несколько параметров на панели «Алгоритм» .

В большинстве случаев MBR следует включать, см. раздел «Сопоставление между запусками».
Точность массы : если установлено значение 0,0, DIA-NN автоматически определяет допуски массы либо на основе первого прогона эксперимента (по умолчанию), либо, если выбрана опция «Несвязанные прогоны» , для каждого прогона отдельно. Однако на автоматический алгоритм может повлиять шум в данных, поэтому даже для повторных инъекций, скажем, полученных с помощью TripleTOF 6600, он может легко обеспечить рекомендуемые допуски точности массы MS2 в диапазоне 15–25 ppm — это совершенно нормально. Поэтому в большинстве случаев мы предпочитаем запускать DIA-NN для нескольких измерений из эксперимента с любой спектральной библиотекой (можно выбрать какую-нибудь небольшую, позволяющую провести быстрый анализ), смотреть, какую точность массы устанавливает DIA-NN автоматически (она печатает его рекомендации) и установите значения, приблизительно соответствующие их средним значениям. Кроме того, часто уже известно, какие параметры DIA-NN являются оптимальными для конкретных настроек ЖХ-МС.
Окно сканирования : в идеале должно соответствовать приблизительному среднему количеству точек данных на пик. Подобно точности массы, DIA-NN может определять ее автоматически, но мы предпочитаем, чтобы она была зафиксирована на некотором среднем значении.

Также ознакомьтесь с руководством по поиску без библиотеки, PTM и пептидоформам и мультиплексированию с использованием plexDIA, если они имеют отношение к вашему эксперименту.

Обратите внимание: как только вы выберете конкретную опцию в графическом интерфейсе DIA-NN, некоторые другие настройки могут активироваться автоматически. Например, всякий раз, когда вы решите выполнить дайджест базы данных FASTA in silico (для поиска без библиотек) или просто сгенерировать спектральную библиотеку на основе данных DIA, MBR также будет автоматически выбран, потому что в 99% случаев это полезно.

Инструмент командной строки

DIA-NN реализован как графический интерфейс пользователя (GUI), который вызывает инструмент командной строки (diann.exe). Инструмент командной строки также можно использовать отдельно, например, как часть пользовательских конвейеров автоматической обработки. Кроме того, даже при использовании графического пользовательского интерфейса можно передать параметры/команды инструменту командной строки в текстовом поле «Дополнительные параметры» . Некоторые из таких полезных опций упомянуты в этой документации, а полная ссылка представлена в разделе «Справочник по командной строке».

Когда графический интерфейс запускает инструмент командной строки, он печатает в окне журнала точный набор использованных команд. Таким образом, чтобы воспроизвести поведение, наблюдаемое при использовании графического интерфейса (например, если вы хотите провести анализ в кластере Linux), можно просто передать точно такие же команды напрямую в инструмент командной строки.

 diann.exe [commands]

Команды обрабатываются в том порядке, в котором они предоставлены, и для большинства команд этот порядок может быть произвольным.

В Linux точка с запятой ';' символ рассматривается как разделитель команд, поэтому ';' как часть команд DIA-NN (например, --channels) необходимо заменить на ';' в Linux для правильного поведения.

Для удобства, а также для проведения экспериментов, состоящих из тысяч файлов, некоторые параметры/команды можно сохранить в файле конфигурации. Для этого создайте текстовый файл с любым расширением, скажем, diann_config.cfg, введите туда все команды, поддерживаемые DIA-NN, а затем создайте ссылку на этот файл с помощью --cfg diann_config.cfg (в текстовом поле Дополнительные параметры или в команда, используемая для вызова инструмента командной строки diann.exe).

Визуализация

DIA-NN предоставляет два варианта визуализации.

Горизонт . Чтобы визуализировать хроматограммы/спектры в Skyline, проанализируйте свой эксперимент с помощью MBR и указанной базы данных FASTA, а затем нажмите кнопку «Skyline». DIA-NN автоматически запустит Skyline (убедитесь, что у вас установлена версия Skyline/Skyline daily версии 23.1.1.459 или более поздняя в разделе «Установка администратором»). В настоящее время этот рабочий процесс не поддерживает мультиплексирование и не будет работать с модификациями в любом формате, кроме UniMod.

Просмотрщик ДИА-НН . Проанализируйте свой эксперимент, установив флажок «XICs» и нажав кнопку «Просмотр». По умолчанию опция "XICS" сделает диазиат издавных хроматограмм только для ионов фрагмента библиотеки и в пределах 10-х годов от вершины элюирования. Использовать-naxic [n] для установки окна временного удержания на n секунд (например, 60 человек извлекут хроматограммы в течение минуты от вершины) и-Теоретический ФР для извлечения всего заряда 1 и 2 y/b -Серы фрагментов, в том числе с общими нейтральными потерями. Обратите внимание, что использование-ОКСПОЛЬКО-теоретический FR, особенно в сочетании с большим временным окном, может потребовать значительного количества дискового пространства в выходной папке. Однако сама визуализация является эффективной мгновенной, для любого размера эксперимента.

ПРИМЕЧАНИЕ . Хроматограммы, извлеченные с помощью «xics», сохраняются в формате Apache .parquet (имена файлов заканчиваются '.xic.xy.parquet') и могут быть легко доступны с помощью R или Python. Иногда это может быть удобно для подготовки готовых к публикации фигур (хотя может сделать это с Skyline или DiA-NN Viewer) или даже для создания автоматического пользовательского контроля качества для производительности LC-MS.

Пептидные и модификационные положения в белке могут быть визуализированы с использованием Alphamap Lab Lab https://github.com/mannlabs/alphamap.

Автоматизированные трубопроводы

Окно трубопровода в графическом интерфейсе DiA-NN позволяет объединить несколько этапов анализа в трубопроводы. Каждый шаг трубопровода представляет собой набор настроек, отображаемых графическим интерфейсом. Можно добавить такие шаги к трубопроводу, обновить существующие шаги, удалять шаги, перемещать шаги вверх/вниз в трубопроводе, отключить/включить (двойным щелчком мыши) определенные шаги в трубопроводе и сохранить/нагружать трубопроводы. Кроме того, отдельные шаги трубопровода можно скопировать между различными вкладками с графическим интерфейсом/Windows (используйте кнопки копирования и вставки для этого). Мы всегда собираем все пробеги DIA-NN для конкретной публикации в трубопроводе. Можно также использовать конвейеры DiA-NN для хранения шаблонов конфигурации.

PTM и пептидоформы

DiA-NN GUI оснащены встроенными рабочими процессами (панель генерации ионов-предшественников ) для обнаружения окисления метионина, ацетилирования N-концевого белка, фосфорилирования и убиквитинирования (посредством обнаружения аддуктов остатков -GG на лизинах). Другие модификации могут быть объявлены с использованием-var-mod или--фиксированный мод в дополнительных вариантах .

Различие между пептидоформами, несущими различные наборы модификаций, является нетривиальной проблемой в диапазоне: без специальной оценки пептидоформ. Эффективный пептидоформ FDR может быть в диапазоне 5-10% для бесконечных анализов. DIA-NN реализует статистический подход с декорацией целевого декоя для оценки пептидоформ, который включается опцией пептидоформ (панель алгоритма ), а также активируется автоматически всякий раз, когда будет объявлена переменная модификация, через настройки GUI или команду -Вар-мод. Результирующие значения Q пептидоформ отражают уверенность DiA-NN в правильности набора модификаций, сообщенных для пептида, а также правильность идентифицированной аминокислотной последовательности. Эти Q-значения, однако, не гарантируют отсутствие низких сдвигов массы из-за некоторых аминокислотных замен или модификаций, таких как деамидирование (обратите внимание, что DDA также не гарантирует это).

Кроме того, DiA-NN оснащен алгоритмом, который сообщает о оценках достоверности локализации PTM (как апостериорные вероятности для правильной локализации всех переменных сайтов PTM на пептиде, а также оценки для отдельных сайтов), включенные в выходной отчет .PARQUET. Файлы фосфозитов_90 и фосфозитов_99 .TSV содержат фосфозизированные величины, рассчитанные с использованием метода верхнего 1 (экспериментальный), то есть самая высокая интенсивность среди предшественников с местом, локализованным с указанной достоверностью (0,9 или 0,99, соответственно) используется в качестве фосфозиса. количество в данном забеге. Здесь используется алгоритм «Top 1 '», поскольку он, вероятно, является наиболее надежным против выбросов и ошибок неправильной локализации. Однако необходимо исследовать, является ли это действительно лучшим вариантом, что в настоящее время сложно из -за отсутствия критериев с известной наземной истиной.

В общем, при поиске PTMS мы рекомендуем следующее:

Основное: изменения переменных, которые вы ищете, должны быть указаны как переменная (через флажки GUI или дополнительные опции ) как при генерации библиотеки в силико, так и при анализе необработанных данных с использованием каких -либо прогнозируемых или эмпирических библиотеков
Настройки для фосфорилирования: MAX 3 переменные модификации, максимум 1 пропущенное расщепление, фосфорилирование является единственной указанной переменной модификацией, диапазон заряда предшественника 2-3; Чтобы уменьшить использование оперативной памяти, убедитесь, что указанный диапазон масс -предшественников (при генерации прогнозируемой библиотеки) не шире, чем диапазон масс -предшественников, выбранный для MS/MS методом DIA; Чтобы ускорить обработку при использовании прогнозируемой библиотеки, сначала сгенерируйте библиотеку на основе DIA из подмножества экспериментальных прогонов (например, 10+ лучших прогонов), а затем проанализируйте весь набор данных, используя эту библиотеку на основе DIA с MBR.
Когда вышеупомянутое преуспевает, также попробуйте Max 2 пропущенные расщепления
При поиске PTM, отличных от фосфорилирования, в 95% случаев лучше всего использовать переменные модификации MAX 1-3 и MAX 1 пропущенное расщепление
Когда не ищет PTM, то есть, когда целью является относительная количественная оценка белка, включение переменных модификаций обычно не дает более высокой протеомной глубины. Хотя это обычно не повредит, это делает обработку медленнее.

Насколько нам известно, нет опубликованного подтверждения уверенности идентификации для обнаружения деамидированных пептидов (которые легко запутаться с более тяжелыми изотопологами, если только массовая спецификация не имеет очень высокого разрешения, и плотная точность массы/настройка терпимости является используется поисковой системой), даже для DDA. Один из способов получить уверенность в идентификации деамидированных пептидов - это проверить, идентифицируется ли что -либо, если массовая дельта для деамидирования объявлена 1,022694, вместо правильного значения 0,984016. DiA-NN успешно проходит этот тест на нескольких наборах данных (то есть идентификаторы, не сообщается, при указании этой «массы модификации приманки»), но мы рекомендуем также попробовать такой поиск «Масса модификации приманки» на нескольких прогонах из эксперимента, который будет проанализирован , если искать дезамидированные пептиды. В каждом случае (правильная или приманка масса) следует использовать-PTM-QValues для включения PTM-специфического оценки для деамидирования, в дополнение к оценке пептидоформ, и либо PTM.Q.value, либо Global.Q.value/lib. Q.value используется для фильтрации.

Следует отметить, что когда конечной целью является идентификация белков, она в значительной степени не имеет значения, если модифицированный пептид неправильно идентифицируется, согласно спектру, происходящему из другой пептидоформы. Следовательно, если цель эксперимента состоит в том, чтобы идентифицировать/количественно оценить специфические PTM, аминокислотные замены или различать белки с высокой идентичностью последовательности, то рекомендуется вариант оценки пептидоформ . Во всех других случаях оценка пептидоформ, как правило, нормально для использования, но не требуется, и обычно приводит к несколько более медленной обработке и небольшому уменьшению идентификационных чисел при использовании MBR.

Нужно ли DIA-NN распознавать модификации в спектральной библиотеке?

В целом да. Тем не менее, большинство рабочих процессов будут работать без необходимости распознавать модификации. Хотя, если в библиотеке обнаруживаются неизвестные модификации, DiA-NN печатает предупреждение, в котором их перечисляют, и настоятельно рекомендуется объявить их с помощью--мод. Обратите внимание, что DIA-NN уже распознает много общих модификаций, а также может загрузить всю базу данных UNIMOD, см. Опцию-Unimod.

Мультиплексирование с использованием plexdia

В сотрудничестве с лабораторией Slavov мы разработали Plexdia на основе DiA-NN, технологии, которая позволяет извлечь выгоду из неизобарического мультиплексирования (MTRAQ, Dimethyl, SILAC) в сочетании с DIA. Чтобы проанализировать эксперимент с Plexdia, нужен предсказанная или эмпирическая спектральная библиотека в Silico. Затем DIA-NN должен быть поставлен со следующими наборами команд, в зависимости от сценария анализа.

Сценарий 1 . Библиотека представляет собой обычную библиотеку без метки (эмпирическую или предсказанную), а мультиплексирование достигается исключительно с изотопной маркировкой, т.е. без химической маркировки с такими метками, как MTRAQ или диметил. DiA-NN затем нуждаются в следующих параметрах, которые будут добавлены в дополнительные параметры :

-Фиксированный мод, чтобы объявить базовое название меток канала и связанных аминокислот
--либ-фиксированный мод, в in in silico применить модификацию, объявленную с помощью-фиксированным модом в библиотеку
-каналы, чтобы объявить массовые сдвиги для всех рассматриваемых каналов
-Мороды, чтобы предотвратить преобразование DIA-NN, заявленные модификации в UNIMOD

Пример для метки L/H Silac на k и r:

 --fixed-mod SILAC,0.0,KR,label
--lib-fixed-mod SILAC
--channels SILAC,L,KR,0:0; SILAC,H,KR,8.014199:10.008269
--original-mods

Обратите внимание, что в приведенном выше Silac объявлен как этикетка, то есть он не должен менять время удержания пептида. Здесь также является меткой с нулевой массой, поскольку он служит только для обозначения аминокислот, которые будут помечены. То, что комбинация-фиксированного мода и-lib-фиксированного мода, здесь просто полон (SILAC) после каждого k или R в последовательности ID-предшественника, во внутренней библиотеке, используемом DiA-NN. -каналы затем расщепляют каждую запись библиотеки на два, один с массами 0 (k) и 0 (r), добавленным при каждом появлении k (silac) или r (silac) в последовательности, соответственно, и другой с 8.014199 (k ) и 10.008269 (r).

Сценарий 2 . Библиотека является обычной библиотекой без метки (эмпирической или прогнозируемой), и мультиплексирование достигается с помощью химической маркировки с помощью MTRAQ.

Сценарий 2: Шаг 1. Забегайте библиотеку в Silico MTRAQ и запустите предиктор глубокого обучения для корректировки спектра/RTS/IMS. Для этого запустите DiA-NN с библиотекой вводов в поле Spectral Library , указанной библиотеке вывода , Spectra на основе глубокого обучения, включены прогнозы RTS и IMS , список необработанных файлов данных и следующие параметры в дополнительных параметрах :

 --fixed-mod mTRAQ,140.0949630177,nK
--lib-fixed-mod mTRAQ
--channels mTRAQ,0,nK,0:0; mTRAQ,4,nK,4.0070994:4.0070994;mTRAQ,8,nK,8.0141988132:8.0141988132
--original-mods

Используйте файл .predicted.speclib с именем, соответствующим библиотеке вывода в качестве спектральной библиотеки для следующего шага.

Сценарий 2: Шаг 2. Запустите DiA-NN со следующими параметрами:

 --fixed-mod mTRAQ,140.0949630177,nK
--channels mTRAQ,0,nK,0:0; mTRAQ,4,nK,4.0070994:4.0070994;mTRAQ,8,nK,8.0141988132:8.0141988132
--original-mods

Обратите внимание, что-lib-фиксированный мод больше не необходим, так как библиотека, сгенерированная на шаге 1, уже содержит (MTRAQ) на N-конце и лизинах каждого пептида.

Сценарий 3 . Библиотека представляет собой обычную библиотеку без меток (эмпирическую или прогнозируемую), и мультиплексирование достигается с помощью химической маркировки с помощью метки, отличной от MTRAQ. Причина, по которой этот сценарий обрабатывается не так, как сценарий 2, заключается в том, что Di-NN в Silico Predictor не был специально обучен для меток, отличных от MTRAQ, и, следовательно, дополнительный шаг для получения прогнозов не является необходимым. Просто запустите DiA-NN, как это было бы в сценарии 1, за исключением того, что в этом случае заявление об выпуске мода будет иметь ненулевую массу и не будет ярлыком. Например, для 5-канального диметил, как описано Thielert et al:

 ‐‐fixed‐mod Dimethyl, 28.0313, nK
--lib-fixed-mod Dimethyl
‐‐channels Dimethyl,0,nK,0:0; Dimethyl,2,nK,2.0126:2.0126; Dimethyl,4,nK,4.0251:4.0251; Dimethyl,6,nK,6.0377:6.0377; Dimethyl,8,nK,8.0444:8.0444
--original-mods

Сценарий 4 . Библиотека представляет собой эмпирическую библиотеку DIA, сгенерированную DIA-NN из мультиплексированного набора данных DIA. Например, это может быть библиотека, сгенерированная DIA-NN в первом проходе MBR (и вы хотели бы повторно использовать ее, чтобы проанализировать те же или другие прогоны). Дополнительные варианты будут такими же, как в сценарии 1, сценарий 2: Шаг 2 или сценарий 3, за исключением (важно!)-либ-фиксированный мод не должен быть предоставлен.

Во всех приведенных выше сценариях дополнительный вариант с указанием стратегии нормализации должен быть включен в дополнительные варианты . Это может быть либо-канал-ручной норм (импульсный SILAC, оборот белка) или -канал-spec-норм (мультиплексирование независимых образцов).

Выход . Мы рекомендуем использовать основной отчет в формате .parquet для всех нижестоящих анализов. Обратите внимание, что pg.q.value и gg.q.value в основном отчете являются специфичными для канала при использовании мультиплексирования. Количество pg.maxlfq, genes.maxlfq и genes.maxlfq.unique являются лишь специфичными для канала, если (i) кванты используются, и (ii) либо отчет соответствует второму проходу MBR или MBR, не используется. В качестве альтернативы можно использовать матрицы (не рекомендуется), они только на уровне предшественника. При использовании матриц важно указать-Matrix-CH-QValue, с разумными порогами от 0,01 до 0,5. Эта настройка не будет влиять на извлеченную матрицу MS1, которая просто сообщает о сигналах MS1, соответствующих каждому каналу, всякий раз, когда предшественник идентифицируется в любом из каналов - использование этой матрицы обычно не рекомендуется. Белковые матрицы не продуцируются при анализе мультиплексных данных.

Ссылка на настройки графического интерфейса

Описание выбранных параметров

Входная панель

Преобразовать в .dia преобразовать выбранные файлы RAW в формат DiA-NN .dia, для более быстрой последующей обработки и сохраните их либо в той же папке, что и соответствующие исходные файлы необработанных или Temp/.dia dir ( выходной панель), если Последнее указано. Преобразование рекомендуется для файлов SCIEX, как правило, мало что имеет значение для термо -файлов и не рекомендуется для файлов Bruker.
Опция Reannotate позволяет реанотировать спектральную библиотеку с информацией о белке из базы данных FASTA, используя указанную специфичность дигеста
Загрязнители добавляют общие загрязняющие вещества из базы данных Кембриджского центра протеомики (CCP) и автоматически исключает их из количественной оценки, см. Описание опции-cont-Quant-Exclude. Этот вариант применяется при создании прогнозируемой спектральной библиотеки из базы данных FASTA или анализа с использованием такой библиотеки, если она была сгенерирована с помощью включенных загрязнений .

Панель предшественника ионной генерации

Fasta Digest инструктирует Di-Nn в in in in silico Digest базу данных последовательностей, для поиска без библиотеки или для создания спектральной библиотеки в Silico
Спектры, основанные на глубоком обучении, прогнозирование RTS и IMS, инструктируют DIA-NN выполнять глубокое обучение прогнозированию спектров, времени удержания и значений мобильности ионной мобильности. Это позволяет не только создавать в Silico Spectral Bibraries из баз данных последовательностей, но также заменить Spectra/RTS/IMS в существующих библиотеках с прогнозируемыми значениями

Выходной панель

Используйте существующие файлы.
Temp/.dia Dir Укажите, где будут сохранены .quant или преобразованные файлы .dia, см. Вывод

Алгоритм панель

Точность массы Установите достойчивость массы MS2 (в PPM), см. Изменение настроек по умолчанию
Точность массы MS1 Установите допуск массы MS1 (в PPM), см. Изменение настроек по умолчанию
Окно сканирования устанавливает радиус окна сканирования на определенное значение. В идеале, должно быть приблизительно равным среднему количеству точек данных на пик, см. Изменение настройки по умолчанию
Несвязанные прогоны определяют точность массы и окно сканирования, если автоматически, независимо для разных прогонов, см.
Пептидоформы активируют оценку доверия пептидоформ, см. PTM и пептидоформы
MBR включает MBR, должен быть включен для большинства количественных экспериментов, см. MBR
Нет общих спектров, использовать ли спектр, ориентированный на спектр алгоритм для удаления мешающих предшественников. Этот алгоритм особенно важен при рассмотрении переменных модификаций и всегда должен быть включен
Классификатор нейронной сети здесь «Однопроходной режим»-это параметр по умолчанию и рекомендуется. Режим «двойного прохождения» может быть лучше в некоторых сценариях, но он почти вдвое медленнее, и он может сделать сообщенные значения FDR немного менее консервативными. Режим двойного прохождения должен быть протестирован с одним проходом в конкретном наборе данных, прежде чем принято решение об его использовании.
Белковое вывод. Эта настройка в первую очередь влияет на определение протетипичности, «гены» по умолчанию рекомендуются практически для всех приложений, при условии, что информация на уровне генов фактически присутствует в базе данных (базы данных, не являющихся UNIPROT, могут отсутствовать). При установке «Выкл» используются белковые группы из спектральной библиотеки - это имеет смысл, если белковый вывод уже был выполнен во время генерации библиотеки
Квансы количественной оценки кванты (высокая рецептура) рекомендуются для большинства сценариев, используйте кванты (высокая токкатность) для экспериментов, где устранение любого смещения сжатия соотношения является критическим
Перекрестная нормализация, если использовать глобальную, RT-зависимую (рекомендованную) или также в зависимости от сигнала (экспериментальная, очень осторожна с ней), нормализация. Нормализация также может быть полностью отключена, используя-нет норм
Генерация библиотеки. Этот параметр определяет, являются ли и как эмпирические RTS/IMS и спектры добавляются в недавно сгенерированную библиотеку, а не теоретические значения. IDS, RT & IM Профилирование настоятельно рекомендуется практически для всех рабочих процессов. При анализе с помощью высококачественной библиотеки, специфичной для проекта, может переключиться на профилирование IDS. Полное профилирование означает всегда использование эмпирической информации и может быть полезным (в очень редких случаях), если иметь меньше ~ 1000 пептидов, выявленных за пробег, и только в том случае, если обработка нижней части не очень чувствительна к чуть более высоким FDR.
Скорость и использование оперативной памяти. Эта настройка в первую очередь полезна для библиотечных анализов. Первые три режима, как правило, будут иметь небольшую разницу с точки зрения идентификационных номеров, в то время как ультрастрабильный режим довольно экстремальный: примерно в 5 раз быстрее, но идентификационные номера не так хороши, а эффективный FDR может быть несколько выше. Настройка влияет только на первый проход при использовании MBR

Справочник по командной строке

Описание доступных параметров/команд

Обратите внимание, что некоторые варианты ниже наносят ущерб производительности и находятся только для целей сравнительного анализа. Таким образом, рекомендация состоит в том, чтобы использовать только опции, которые, как ожидается, будут полезны для конкретного эксперимента (например, рекомендованные в настоящей документации) на основе некоторого явного обоснования.

-cfg [имя файла] Определяет файл для загрузки параметров/команд из
-Нормализация мультиплексированных образцов в целостной норме будет выполнена в специфичной для пробега, то есть для выполнения нормализации, для каждого предшественника иона Dia-NN суммируется соответствующие каналы в каждом прогоне и будет нормализовать эти суммы через прогоны: используйте EG Для белкового оборота SILAC Эксперименты
-Нормализация мультиплексированных образцов в канале-норме будет выполнена специфичной для канала, то есть каждый канал в каждом прогоне обрабатывается как отдельный образец, который необходим для нормализации: использование для анализа экспериментов, в которых мультиплексирование независимых образцов используется для повышения пропускной способности
-каналы [канал 1]; [Канал 2]; ... перечисляет мультиплексирующие каналы, в которых каждое объявление канала имеет форму [Channel] = [группа метки], [имя канала], [сайты], [mass1: mass2: ...], где [сайты] имеют одинаковый синтаксис Что касается-var-mod и, если указаны n сайтов, N массы указаны в конце объявления канала. Спектральная библиотека будет автоматически разделена на несколько каналов для предшественников, несущих модификацию [группы метки]. Чтобы добавить последнюю в спектральную библиотеку без метки, может использовать-Lib-фиксированный мод, например, Silac-Fixed-Mod, 0,0, KR, метка-Lib-Fixed-Mod Silac. См. Мультиплексирование с использованием plexdia для примеров использования
-Чистовые моды заставляют DiA-NN 'Забудьте' все встроенные модификации (PTM) имена
-Компакт-отчет инструктирует DIA-NN предоставлять меньше информации в основном отчете .tsv
-Cont-Quant-Exclude [TAG] Пептиды, соответствующие идентификаторам белковой последовательности, помеченные с указанной меткой, будут исключены из нормализации, а также количественного определения белковых групп, которые не включают белки с тегом
-Convert заставляет DiA-NN конвертировать файлы массовых спецификаций в формат .dia. Файлы либо сохраняются в том же месте, что и входные файлы, либо в DIR/.DIA, если он указан (в графическом интерфейсе или с использованием опции -TEMP)
-CUT [Sepality 1], [специфичность 2], ... Определяет специфичность расщепления для дигеста в силико. Сайты расщепления (пары аминокислот) перечислены разделены запятыми, «*» указывает на любую аминокислоту и «!» Указывает, что соответствующий сайт не будет расщеплен. Примеры: «-Кута k*, r*,!*p»-каноническая триптическая специфичность »,-выключить»-Дайджест отключен
-Деко-канал [канал] указывает массы канала приманки, в которых [канал] имеет тот же синтаксис, что и для-каналы
-Декорация-президента-спектр сообщает DiA-NN, что приманки пептиды в библиотеке уже аннотируются с спектрами «приманки»
-DIR [Папка] Определяет папку, содержащую необработанные файлы для обработки. Все файлы в папке должны быть в формате .raw, .mzml или .dia
-Направление-квалификация отключить кванты и вместо этого использовать устаревшие алгоритмы количественного определения DIA-NN, также отключает количественное определение специфического белка при анализе мультиплексированных образцов
-DL-NO-IM При использовании предиктора глубокого обучения прогнозирование ионных подвижений не будет выполнено
-DL-NO-RT При использовании предиктора глубокого обучения прогнозирование времени удержания не будет выполнено
-Длубленные протеины инструктируют DiA-NN не пропускать записи в базе данных последовательностей с дублирующими идентификаторами (в то время как по умолчанию, если несколько записей имеют одинаковый идентификатор белка, все, кроме первой записи, будут пропущены)
-Эксплект-FDR Приблизительная оценка FDR для уверенных пептидов на основе параметрического моделирования будет отключена
-export-Quant добавить количество фрагментов и качественная информация в отчет о выводе .parquet
-ext [string] добавляет строку в конце каждого имени файла (указано с помощью-f)
-F [имя файла] Указывает, что будет проанализирован запуск, используйте несколько команд-F, чтобы указать несколько запусков
-FASTA [имя файла] Определяет базу данных последовательностей в формате FASTA (полная поддержка протеомов Uniprot), используйте несколько команд-fasta для указания нескольких баз данных
-FASTA-Фильтр [Имя файла] Рассмотрим только пептиды, соответствующие очищенным последовательностям, указанным в предоставленном текстовом файле (одна последовательность на строку), при обработке базы данных последовательностей
-FASTA-поиск инструкций DIA-NN выполнить дигест в силико в базе данных последовательностей
-Fixed-Mod [name], [mass], [sites], [необязательно: 'label'] -добавляет имя модификации в список распознаваемых имен и определяет изменение как фиксированное. Тот же синтаксис, что и для-Вар-мод.
-Force-Swissprot только рассмотрим Swissprot (то есть отмеченные последовательностями '> sp |') при обработке базы данных последовательностей
-Foreign-Decoys информирует DiA-NN, что любые приманки, включенные в библиотеку, были сгенерированы инструментом, отличным от этой версии DiA-NN
-Unimod загружает полную базу данных модификации Unimod и отключает автоматическое преобразование имен изменений в формат Unimod
-Gen-spec-lib инструктирует DiA-NN для создания спектральной библиотеки
-GEN-FR-ограничение аннотирует библиотеку информацией об исключении фрагментов, основываясь на анализируемых прогонках (фрагменты, наименьшие затронутые помехи, выбираются для количественной оценки, почему остальные исключены)
-Глобальная масса-кальон отключает RT-зависимую калибровку массы
-Глобал-норм инструктирует DIA-NN использовать простую глобальную нормализацию вместо RT-зависимой нормализации
-Настройки Quantums -High-ACC будут отимизированы для максимальной точности, т.е. для минимизации любого количественного смещения сжатия соотношения
-Идентификаторы последовательности белков-намель также будут использоваться в качестве названий белков и генов, любая информация об именах или генах белков будет игнорироваться
-il-eq (экспериментальный) При использовании функции «reannotate» пептиды будут сопоставлены с белками при рассмотрении эквивалента изолейцина и лейцина
-Им-Window [x] исправляет окно извлечения в конкретное значение
-Им-Window-Factor [x] управляет минимальным размером окна извлечения IM, по умолчанию 2,0
-Индивидуальная точность массы, если установлена для автоматической, будет определена независимо для разных прогонов
-Individual-reports. Для каждого запуска будет создан отдельный выходной отчет
-Окно сканирования с индивидуальными окнами , если установлено для автоматического, будет определено независимо для разных пробежек
-int-removal 0 отключает удаление мешающих предшественников
-lib [имя файла] Определяет спектральную библиотеку. Использование нескольких команд -lib (экспериментально) позволяет загружать несколько библиотек в формате .tsv.