آخر تحديث: 30/9/2024
MSBooster هي أداة لدمج تنبؤات المكتبة الطيفية في استعادة مطابقة الطيف الببتيد (PSM) في بيانات بروتينات قياس الطيف الكتلي السائل الترادفي من أسفل إلى أعلى. يتم تقسيمها تقريبًا إلى 4 خطوات:
استخراج الببتيد من PSMs في نتائج البحث، وتنسيق ملفات إدخال تنبؤات الآلة/التعلم العميق (ML/DL)
استدعاء نموذج (نماذج) التنبؤ وحفظ المخرجات
حساب الميزة
إضافة ميزات جديدة إلى ملف نتائج البحث
MSBooster متوافق مع العديد من أنواع عمليات البحث في قواعد البيانات، بما في ذلك HLA المناعية، وDDA، وDIA، والبروتينات أحادية الخلية. تم دمجه في FragPipe وتم تضمينه في العديد من مهام سير العمل الخاصة به. تم تطوير MSBooster مع وضع أدوات FragPipe الأخرى في الاعتبار، مثل FragPipe-PDV.
تم تجهيز MSBooster للتعامل مع تنسيقات ونماذج ملفات الإدخال المتعددة:
إخراج مطياف الكتلة |
---|
.mzML |
.mgf |
ملف PSM |
---|
.دبوس |
.pepXML (قيد التقدم) |
نموذج التنبؤ |
---|
ضياء-NN |
موديلات كوينا |
يمكن تشغيل MSBooster في أنظمة Windows وLinux. إذا كنت تستخدم FragPipe، فلن تكون هناك حاجة إلى خطوات تثبيت أخرى إلى جانب تثبيت FragPipe. يوجد MSBooster في علامة التبويب "التحقق من الصحة". اختر تمكين ميزات وقت الاحتفاظ باستخدام "التنبؤ RT" والميزات الطيفية لـ MS/MS مع "التنبؤ بالأطياف". يرجى الرجوع إلى وثائق FragPipe لمعرفة كيفية إجراء التحليل.
إذا كنت تستخدم MSBooster المستقل للتشغيل في سطر الأوامر، فيرجى تنزيل أحدث ملف jar من الإصدارات. يتطلب MSBooster أيضًا DIA-NN للتنبؤ بـ MS/MS وRT. الرجاء تثبيت DIA-NN وملاحظة المسار إلى الملف القابل للتنفيذ DIA-NN (على سبيل المثال DiaNN.exe لنظام التشغيل Windows، وdiann-1.8.1.8 لنظام التشغيل Linux).
يمكنك تشغيل MSBooster باستخدام أمر مشابه لما يلي:
java -jar MSBooster-1.2.1.jar --paramsList msbooster_params.txt
الحد الأدنى من المعلمات التي يجب تمريرها هي:
- DiaNN (String): path to DIA-NN executable (if using DIA-NN model, which is the MSBooster default) - mzmlDirectory (String): path to mzML/mgf files. Accepts multiple space-separated folder and files - pinPepXMLDirectory (String): path to pin files. Accepts multiple space-separated folder and files. If using in FragPipe, place the pin and pepXML files in the same folder
على الرغم من أنه يمكنك تمرير هذه المعلمات بشكل فردي، فمن الأسهل وضع واحدة في كل سطر من ملف paramsList. الرجاء الرجوع إلى msbooster_params.txt للحصول على قالب.
المعلمات أدناه للاستخدام العام. المعلمات الخاصة بـ Koina موجودة في وثائق Koina
paramsList (String)
: موقع الملف النصي الذي يحتوي على معلمات لهذا التشغيل
fragger (String)
: مسار الملف لملف fragger.params من تشغيل MSFragger. سيقوم MSBooster بقراءة معلمات متعددة وضبط المعلمات الداخلية بناءً عليها، مثل التسامح مع الأخطاء الجماعية والإزاحات الجماعية
outputDirectory (String)
: مكان إخراج الملفات الجديدة
editedPin (String)
: سيقوم MSBooster بتسمية الملف الجديد بناءً على الملفات المتوفرة. على سبيل المثال، سيكون لـ A.pin نظير يسمى A_edited.pin. للتغيير من الإعداد الافتراضي "تم التعديل"، قم بتوفير سلسلة جديدة هنا
renamePin (int)
: ما إذا كان سيتم إنشاء ملف pin جديد أو إعادة كتابة الملف القديم. الافتراضي هنا هو 1، والذي لن يتم الكتابة فوقه. سيؤدي ضبط هذا على 0 إلى استبدال ملف الدبوس القديم
deletePreds (boolean)
: ما إذا كان سيتم حذف الملفات التي تخزن تنبؤات النماذج بعد الانتهاء من التشغيل الناجح. افتراضيًا، قم بالتعيين إلى خطأ. اضبط على "صحيح" إذا كنت ترغب في حذفها
loadingPercent (int)
: عدد المرات التي يتم فيها الإبلاغ عن التقدم المحرز في المهام باستخدام مراسل التقدم. افتراضيًا، اضبط على 10، مما يعني أنه سيتم طباعة تحديث كل 10%.
numThreads (int)
: عدد المواضيع المراد استخدامها. افتراضيًا، يتم تعيينه على 0، والذي يستخدم جميع سلاسل الرسائل المتاحة ناقص 1
splitPredInputFile (int)
: يُستخدم فقط عندما تفشل تنبؤات DIA-NN بسبب خطأ نفاد الذاكرة (137). افتراضيًا، قم بالتعيين على 1، ولكن يمكنك زيادة هذا لتحديد عدد الملفات الأصغر التي يجب تقسيم ملف الإدخال DIA-NN إليها. سيتم بعد ذلك توقع كل ملف بالتسلسل، مما يخفف عبء الذاكرة
plotExtension (String)
: ما هو تنسيق الملف الذي يجب أن تكون به المؤامرات.png افتراضيًا، ويُسمح أيضًا بتنسيق pdf
features (String)
: قائمة الميزات التي سيتم حسابها. حساس لحالة الأحرف، ومفصول بالاتصالات بدون مسافات بينهما. الافتراضي هو "predRTrealUnits، unweightedSpectralEntropy، deltaRTLOESS"
spectraPredFile (String)
: إذا كنت تعيد استخدام التنبؤات الطيفية القديمة (على سبيل المثال من DIA-NN أو Koina)، فيمكنك تحديد موقع الملف هنا
RTPredFile (String)
: نفس SpectraPredFile، ولكن لتنبؤات RT
IMPredFile (String)
: نفس SpectraPredFile، ولكن لتنبؤات المراسلة الفورية
spectraModel (String)
: نموذج التنبؤ الطيفي الذي يجب استخدامه
rtModel (String)
: نفس spectraModel، ولكن بالنسبة لـ RT
imModel (String)
: نفس spectraModel، لكن للمراسلة الفورية
useSpectra (boolean)
: ما إذا كان سيتم استخدام الميزات المستندة إلى التنبؤ الطيفي. اضبط على "صحيح" بشكل افتراضي
useRT (boolean)
: ما إذا كان سيتم استخدام الميزات المستندة إلى تنبؤات RT. اضبط على "صحيح" بشكل افتراضي
useIM (boolean)
: ما إذا كان سيتم استخدام الميزات المستندة إلى تنبؤات المراسلة الفورية. اضبط على "خطأ" بشكل افتراضي
ppmTolerance (float)
: خطأ جزء في المليون التسامح (افتراضي 20 جزء في المليون)
matchWithDaltons (boolean)
: ما إذا كنت تريد مطابقة الأجزاء المتوقعة والمرصودة في Daltons (خطأ افتراضي)
DaTolerance (float)
: كم عدد الدالتونات حول الذروة المتوقعة للبحث عن الذروة التجريبية (الافتراضي 0.05)
useTopFragments (boolean)
: ما إذا كان سيتم تصفية التنبؤ الطيفي إلى قمم N الأعلى كثافة (صحيح افتراضي)
topFragments (int)
: ما يصل إلى عدد الأجزاء المتوقعة التي يجب استخدامها لحساب الميزة (الافتراضي 20). يتم تطبيقه فقط إذا كان useTopFragments صحيحًا
removeRankPeaks (boolean)
: يتم تعيينه على "صحيح" افتراضيًا، والذي يقوم بتصفية الأجزاء من الأطياف التجريبية بمجرد مطابقتها. إذا كاذبة، يمكن مطابقة الأجزاء التجريبية بواسطة PSMs متعددة من نفس الفحص
useBasePeak (boolean)
: ما إذا كان يجب تطبيق الحد الأدنى على تنبؤات MS2 لاستخدام الأجزاء ذات الكثافة الأعلى فقط (صحيح افتراضي)
percentBasePeak (float)
: النسبة المئوية التي يتم عندها تضمين جزء بكثافة تبلغ بعض النسبة المئوية لكثافة الذروة الأساسية في حساب التشابه. يتم تطبيقه فقط إذا كان useBasePeak صحيحًا (الافتراضي 1)
loessEscoreCutoff (float)
: قطع القيمة المتوقعة المستخدمة للمرور الأول عند جمع PSMs لمعايرة RT/IM. الافتراضي هو 10^-3.5، أو 0.000316 تقريبًا
rtLoessRegressionSize (int)
: الحد الأقصى لعدد PSMs المستخدمة لمعايرة RT LOESS (الافتراضي 5000)
imLoessRegressionSize (int)
: نفس rtLoessRegressionSize ولكن للمراسلة الفورية (الافتراضي 1000)
minLoessRegressionSize (int)
: الحد الأدنى لعدد PSMs اللازمة لمحاولة معايرة LOESS RT/IM (الافتراضي 100). في حالة توفر أقل من هذا العدد من PSMs، يتم استخدام الانحدار الخطي بدلاً من ذلك
minLinearRegressionSize (int)
: الحد الأدنى لعدد PSMs اللازمة لمحاولة معايرة RT/IM للانحدار الخطي (الافتراضي 10). في حالة توفر أقل من هذا العدد من وحدات PSM، لا تتم محاولة المعايرة
loessBandwidth (String)
: قائمة عروض النطاق الترددي لمحاولة معايرة RT/IM LOESS (الافتراضي 0.01,0.05,0.1,0.2). يجب أن يكون هذا مفصولاً بفواصل مع عدم وجود مسافات بينهما
regressionSplits (int)
: عدد عمليات التحقق من الصحة المتقاطعة المستخدمة لمعايرة RT/IM LOESS (الافتراضي 5)
massesForLoessCalibration (String)
: كتل لإزاحات الكتلة التي يجب أن تكون مناسبة لمنحنيات المعايرة الخاصة بها. القائمة مفصولة بفواصل ولا توجد مسافات بينها. يجب كتابة الكتل بنفس عدد الأرقام الموجودة في ملف PIN
loessScatterOpacity (float)
: عتامة المخططات المبعثرة في أرقام معايرة LOESS، من 0 إلى 1 (الافتراضي 0.35)
ملف .pin مع ميزات جديدة. افتراضيًا، سيتم إنشاء ملفات الدبوس الجديدة التي تنتهي بـ "_edited.pin". الميزات الافتراضية المستخدمة هي "unweighted_spectral_entropy" و"delta_RT_loess" و"pred_RT_real_units". إذا تم تمكين ميزات التنقل الأيوني، فسيتم أيضًا تضمين "delta_IM_loess" و"ion_mobility"
spectraRT.tsv وspectraRT_full.tsv: ملفات الإدخال لنموذج التنبؤ DIA-NN
spectraRT.predicted.bin: ملف ثنائي يحتوي على تنبؤات من DIA-NN ليتم استخدامه بواسطة MSBooster لحساب الميزات. في حالة استخدام FragPipe-PDV، يتم استخدام هذه الملفات لإنشاء قطع مرآة للأطياف التجريبية والمتوقعة
يُنتج MSBooster رسومًا بيانية متعددة يمكن استخدامها لإجراء مزيد من الفحص لكيفية مقارنة بياناتك بتنبؤات النماذج.
المجلد MSBooster_plots:
RT_calibration_curves: سيتم استخدام ما يصل إلى أعلى 5000 PSMs للمعايرة بين مقاييس RT التجريبية والمتوقعة. يتم عرض أهم PSMs في الرسم البياني، وليس كل PSMs. سيتم إنتاج رسم بياني واحد لكل ملف دبوس
IM_calibration_curves: سيتم استخدام ما يصل إلى أعلى 1000 PSM للمعايرة بين مقاييس IM التجريبية والمتوقعة. يتم عرض أهم PSMs في الرسم البياني، وليس كل PSMs. سيتم تعلم منحنى منفصل لكل حالة شحن. الشكل أدناه هو مثال للشحن 2 السلائف
Score_histograms: رسوم بيانية متراكبة لجميع أهداف PSM المستهدفة والخادعة لكل ملف دبوس. يتم رسم بعض الميزات هنا على مقياس سجل للحصول على تصور أفضل للتوزيع الثنائي للإيجابيات الحقيقية والكاذبة، ولكن القيمة الأصلية هي ما يتم استخدامه في ملفات الدبوس، وليس الإصدار ذو مقياس السجل. تظهر هنا رسوم بيانية للإنتروبيا الطيفية غير الموزونة ودرجات دلتا RT، ولكن يتم إنتاج رسوم مماثلة لجميع الميزات
استخدم نماذج التنبؤ الببتيد من Koina لإنشاء ميزات MSBooster: https://fragpipe.nesvilab.org/docs/tutorial_koina.html
قراءة التوقعات من أي نموذج عبر ملفات MGF
توثيق جميع الميزات المسموح بها وكيفية مراقبة الجودة من خلال الإخراج الرسومي
يرجى ذكر ما يلي عند استخدام MSBooster: https://www.nature.com/articles/s41467-023-40129-9