Последнее обновление: 30.09.2024.
MSBooster — это инструмент для включения предсказаний спектральной библиотеки в восстановление соответствия пептидного спектра (PSM) в протеомных данных масс-спектрометрии масс-спектрометрии восходящей тандемной жидкостной хроматографии. Условно он разбит на 4 этапа:
Извлечение пептидов из PSM в результатах поиска и форматирование входных файлов предикторов машинного/глубокого обучения (ML/DL)
Вызов моделей прогнозирования и сохранение результатов
Расчет функции
Добавление новых функций в файл результатов поиска
MSBooster совместим со многими типами поиска в базах данных, включая иммунопептидомику HLA, DDA и DIA, а также протеомику отдельных клеток. Он включен в FragPipe и во многие его рабочие процессы. MSBooster был разработан с учетом других инструментов FragPipe, таких как FragPipe-PDV.
MSBooster поддерживает несколько форматов и моделей входных файлов:
Выход масс-спектрометра |
---|
.mzML |
.mgf |
PSM-файл |
---|
.приколоть |
.pepXML (в разработке) |
Модель прогнозирования |
---|
ДИА-НН |
Модели Койна |
MSBooster можно запускать в системах Windows и Linux. При использовании FragPipe никаких других действий, кроме установки FragPipe, не требуется. MSBooster находится на вкладке «Проверка». Выберите, чтобы включить функции времени удерживания с помощью «Прогнозировать RT» и спектральные функции МС/МС с помощью «Прогнозировать спектры». Чтобы узнать, как запустить анализ, обратитесь к документации FragPipe.
Если вы используете автономный MSBooster для запуска в командной строке, загрузите последнюю версию jar-файла из раздела Releases. MSBooster также требует DIA-NN для прогнозирования MS/MS и RT. Установите DIA-NN и запишите путь к исполняемому файлу DIA-NN (например, DiaNN.exe для Windows, diann-1.8.1.8 для Linux).
Вы можете запустить MSBooster, используя команду, аналогичную следующей:
java -jar MSBooster-1.2.1.jar --paramsList msbooster_params.txt
Минимальные параметры, которые необходимо передать:
- DiaNN (String): path to DIA-NN executable (if using DIA-NN model, which is the MSBooster default) - mzmlDirectory (String): path to mzML/mgf files. Accepts multiple space-separated folder and files - pinPepXMLDirectory (String): path to pin files. Accepts multiple space-separated folder and files. If using in FragPipe, place the pin and pepXML files in the same folder
Хотя вы можете передавать эти параметры по отдельности, проще разместить их в каждой строке файла paramsList. Пожалуйста, обратитесь к msbooster_params.txt за шаблоном.
Приведенные ниже параметры предназначены для общего использования. Параметры, специфичные для Koina, указаны в документации Koina.
paramsList (String)
: расположение текстового файла, содержащего параметры для этого запуска.
fragger (String)
: путь к файлу fragger.params из запуска MSFragger. MSBooster будет считывать несколько параметров и на их основе корректировать внутренние параметры, такие как допуск на ошибку массы фрагмента и смещение массы.
outputDirectory (String)
: куда выводить новые файлы.
editedPin (String)
: MSBooster присвоит новому файлу имя на основе предоставленных. Например, у A.pin будет аналог под названием A_edited.pin. Чтобы изменить значение по умолчанию «отредактировано», введите здесь новую строку.
renamePin (int)
: создавать ли новый файл вывода или перезаписывать старый. По умолчанию здесь установлено значение 1, которое не будет перезаписываться. Установка значения 0 приведет к перезаписыванию старого файла вывода.
deletePreds (boolean)
: удалять ли файлы, хранящие прогнозы модели, после успешного запуска. По умолчанию установлено значение false. Установите значение true, если вы хотите удалить эти
loadingPercent (int)
: как часто сообщать о ходе выполнения задач с помощью средства отчетов о ходе выполнения. По умолчанию установлено значение 10, что означает, что обновление будет печататься каждые 10%.
numThreads (int)
: количество используемых потоков. По умолчанию установлено значение 0, при котором используются все доступные потоки минус 1.
splitPredInputFile (int)
: используется только в случае сбоя прогнозирования DIA-NN из-за ошибки нехватки памяти (137). По умолчанию установлено значение 1, но вы можете увеличить это значение, чтобы указать, на сколько файлов меньшего размера должен быть разбит входной файл DIA-NN. Затем каждый файл будет прогнозироваться последовательно, что облегчает нагрузку на память.
plotExtension (String)
: графики в каком формате файла должны быть. PNG по умолчанию, также разрешен pdf.
features (String)
: список функций, которые необходимо вычислить. С учетом регистра, без пробелов между ними. По умолчанию используется «predRTrealUnits,unweightedSpectralEntropy,deltaRTLOESS».
spectraPredFile (String)
: если вы повторно используете старые спектральные прогнозы (например, из DIA-NN или Koina), вы можете указать здесь местоположение файла.
RTPredFile (String)
: то же, что и SpectrumPredFile, но для прогнозов RT.
IMPredFile (String)
: то же, что и SpectrumPredFile, но для прогнозов IM.
spectraModel (String)
: какую модель спектрального прогнозирования использовать.
rtModel (String)
: то же, что и SpectrumModel, но для RT.
imModel (String)
: то же, что и SpectrumModel, но для IM.
useSpectra (boolean)
: использовать ли функции, основанные на спектральном прогнозировании. По умолчанию установлено значение true
useRT (boolean)
: использовать ли функции, основанные на прогнозировании RT. По умолчанию установлено значение true
useIM (boolean)
: использовать ли функции прогнозирования IM. По умолчанию установлено значение false
ppmTolerance (float)
: допуск ошибки фрагмента в ppm (по умолчанию 20 ppm)
matchWithDaltons (boolean)
: следует ли сопоставлять предсказанные и наблюдаемые фрагменты в дальтонах (по умолчанию false)
DaTolerance (float)
: сколько дальтонов вокруг прогнозируемого пика для поиска экспериментального пика (по умолчанию 0,05)
useTopFragments (boolean)
: фильтровать ли спектральное предсказание по N пикам самой высокой интенсивности (по умолчанию true)
topFragments (int)
: сколько прогнозируемых фрагментов следует использовать для расчета признаков (по умолчанию 20). Применяется только в том случае, если useTopFragments имеет значение true.
removeRankPeaks (boolean)
: по умолчанию установлено значение true, что отфильтровывает фрагменты экспериментальных спектров после их сопоставления. Если значение ложно, экспериментальные фрагменты могут сопоставляться несколькими PSM из одного и того же сканирования.
useBasePeak (boolean)
: следует ли применять нижний предел к прогнозам MS2, чтобы использовать только фрагменты с более высокой интенсивностью (по умолчанию true)
percentBasePeak (float)
: процент, при котором фрагмент с интенсивностью в несколько процентов от интенсивности базового пика включается в расчет сходства. Применяется только в том случае, если useBasePeak имеет значение true (по умолчанию 1).
loessEscoreCutoff (float)
: ограничение ожидаемого значения, используемое для первого прохода при сборе PSM для калибровки RT/IM. По умолчанию — 10^-3,5 или примерно 0,000316.
rtLoessRegressionSize (int)
: максимальное количество PSM, используемых для калибровки RT LOESS (по умолчанию 5000)
imLoessRegressionSize (int)
: то же, что и rtLoessReprofitSize, но для IM (по умолчанию 1000).
minLoessRegressionSize (int)
: минимальное количество PSM, необходимое для попытки калибровки LOESS RT/IM (по умолчанию 100). Если доступно меньшее количество PSM, вместо этого используется линейная регрессия.
minLinearRegressionSize (int)
: минимальное количество PSM, необходимое для попытки калибровки линейной регрессии RT/IM (по умолчанию 10). Если доступно меньшее количество PSM, попытка калибровки не производится.
loessBandwidth (String)
: список полос пропускания, которые можно попробовать для калибровки RT/IM LOESS (по умолчанию 0,01,0,05,0,1,0,2). Это значение должно быть разделено запятыми, без пробелов между ними.
regressionSplits (int)
: количество перекрестных проверок, используемых для калибровки RT/IM LOESS (по умолчанию 5)
massesForLoessCalibration (String)
: массы для сдвигов масс, которые должны соответствовать их собственным калибровочным кривым. Список разделяется запятыми, без пробелов между ними. Массы должны быть записаны из того же количества цифр, что и в PIN-файле.
loessScatterOpacity (float)
: непрозрачность диаграмм рассеяния в калибровочных цифрах LOESS, от 0 до 1 (по умолчанию 0,35)
.pin-файл с новыми функциями. По умолчанию будут созданы новые файлы выводов, оканчивающиеся на «_edited.pin». Используемые функции по умолчанию: «unweighted_spectral_entropy», «delta_RT_loess» и «pred_RT_real_units». Если функции подвижности ионов включены, также будут включены «delta_IM_loess» и «ion_mobility».
SpectrumRT.tsv и SpectrumRT_full.tsv: входные файлы для модели прогнозирования DIA-NN.
SpectrumRT.predicted.bin: двоичный файл с прогнозами DIA-NN, который будет использоваться MSBooster для расчета функций. При использовании FragPipe-PDV эти файлы используются для создания зеркальных графиков экспериментальных и прогнозируемых спектров.
MSBooster создает несколько графиков, которые можно использовать для дальнейшего изучения сравнения ваших данных с прогнозами модели.
Папка MSBooster_plots:
RT_калибровка_кривые: до 5000 лучших PSM будут использоваться для калибровки между экспериментальной и прогнозируемой шкалой RT. На графике представлены эти лучшие PSM, а не все PSM. Для каждого файла вывода будет создан один график.
IM_калибровка_кривые: до 1000 лучших PSM будут использоваться для калибровки между экспериментальными и прогнозируемыми шкалами IM. На графике представлены эти лучшие PSM, а не все PSM. Для каждого состояния заряда будет изучена отдельная кривая. На рисунке ниже показан пример прекурсоров заряда 2.
Score_histograms: наложенные гистограммы всех целевых и ложных PSM для каждого пин-файла. Некоторые функции представлены здесь в логарифмическом масштабе для лучшей визуализации бимодального распределения истинных и ложных срабатываний, но в пин-файлах используется исходное значение, а не версия в логарифмическом масштабе. Здесь показаны гистограммы для невзвешенных показателей спектральной энтропии и дельта RT, но аналогичные гистограммы создаются для всех функций.
Используйте модели прогнозирования пептидов из Koina для создания функций MSBooster: https://fragpipe.nesvilab.org/docs/tutorial_koina.html
Чтение прогнозов любой модели через файлы MGF.
Документация по всем разрешенным функциям и способам их контроля с помощью графического вывода.
При использовании MSBooster указывайте следующее: https://www.nature.com/articles/s41467-023-40129-9.