DIA-NN - ชุดซอฟต์แวร์สากลสำหรับการประมวลผลข้อมูลโปรตีโอมิกส์โดยไม่ขึ้นกับข้อมูล (DIA) DIA-NN ก่อตั้งขึ้นที่มหาวิทยาลัยเคมบริดจ์ สหราชอาณาจักร ในห้องปฏิบัติการของ Kathryn Lilley (ศูนย์โปรตีนเคมบริดจ์) ได้เปิดบทใหม่ในด้านโปรตีโอมิกส์ โดยแนะนำอัลกอริธึมจำนวนหนึ่งที่ช่วยให้สามารถทำการทดลองขนาดใหญ่ที่เชื่อถือได้ แข็งแกร่ง และแม่นยำในเชิงปริมาณโดยใช้ วิธีการรับส่งข้อมูลสูง ขณะนี้ DIA-NN กำลังได้รับการพัฒนาเพิ่มเติมในห้องปฏิบัติการของ Vadim Demichev ที่ Charité (มหาวิทยาลัยแพทยศาสตร์เบอร์ลิน ประเทศเยอรมนี)
DIA-NN ถูกสร้างขึ้นบนหลักการดังต่อไปนี้:
ดาวน์โหลด : https://github.com/vdemichev/DiaNN/releases/tag/1.9.2 (แนะนำให้ใช้เวอร์ชันล่าสุด - DIA-NN 1.9.2)
กรุณาอ้างอิง:
DIA-NN: โครงข่ายประสาทเทียมและการแก้ไขสัญญาณรบกวน
ช่วยให้สามารถครอบคลุมโปรตีโอมได้ลึกด้วยวิธีธรรมชาติที่มีปริมาณงานสูง ปี 2020
การใช้ DIA-NN สำหรับการวิเคราะห์การดัดแปลงหลังการแปล (PTM) เช่นฟอสโฟรีเลชั่นหรือการแพร่กระจาย: การแก้ไขเวลาในการทำโปรไฟล์ vivo ubiquitinome โดย DIA-MS เผยเป้าหมาย USP7 ในระดับโปรตีโอมกว้าง การสื่อสารทางธรรมชาติ, 2021
การใช้โมดูลการเคลื่อนย้ายไอออนของ DIA-NN สำหรับการวิเคราะห์ข้อมูล timsTOF หรือใช้ DIA-NN ร่วมกับไลบรารีสเปกตรัมที่สร้างโดย FragPipe: การวิเคราะห์ข้อมูล dia-PASEF โดยใช้ FragPipe และ DIA-NN สำหรับโปรตีโอมิกส์เชิงลึกในปริมาณตัวอย่างต่ำ การสื่อสารทางธรรมชาติ, 2022
การใช้ DIA-NN สำหรับการวิเคราะห์ตัวอย่างแบบมัลติเพล็กซ์ (SILAC, mTRAQ ฯลฯ): การเพิ่มปริมาณงานของโปรตีโอมิกส์ที่มีความละเอียดอ่อนโดยเทคโนโลยีชีวภาพธรรมชาติ plexDIA , 2022
การใช้ DIA-NN เป็นส่วนหนึ่งของเวิร์กโฟลว์ CysQuant: CysQuant: การหาปริมาณพร้อมกันของการเกิดออกซิเดชันของซิสเทอีนและความอุดมสมบูรณ์ของโปรตีนโดยใช้ข้อมูลขึ้นอยู่กับหรือการได้มาซึ่งมวลสาร โดยอิสระ ชีววิทยารีดอกซ์, 2023
การใช้โมดูล QuantUMS ของ DIA-NN สำหรับการหาปริมาณ: QuantUMS: การลดความไม่แน่นอนช่วยให้สามารถหาปริมาณได้อย่างมั่นใจใน biorxiv โปรตีโอมิกส์
การใช้ DIA-NN เพื่อประมวลผลข้อมูล Slice-PASEF: Slice-PASEF: การแยกส่วนไอออนทั้งหมดเพื่อความไวสูงสุดในโปรตีโอมิกส์ biorxiv
เอกสารสำคัญอื่นๆ
แพ็คเกจ R พร้อมฟังก์ชั่นที่มีประโยชน์สำหรับการจัดการกับรายงานผลลัพธ์ของ DIA-NN: https://github.com/vdemichev/diann-rpackage
การแสดง ตำแหน่งเปปไทด์ในโปรตีน: https://github.com/MannLabs/alphamap (AlphaMap โดย Mann lab)
หมายเหตุและการอภิปราย เกี่ยวกับโปรตีโอมิกส์โดยทั่วไปและการใช้ DIA-NN: https://github.com/vdemichev/DiaNN/discussions/categories/dia-proteomics-in-detail (ส่วนนี้จะขยายเพิ่มเติมต่อไป)
การติดตั้ง
เริ่มต้นใช้งาน
รูปแบบข้อมูลดิบ
รูปแบบไลบรารีสเปกตรัม
เอาท์พุต
การค้นหาแบบไม่มีห้องสมุด
การสร้างไลบรารีสเปกตรัม
การแข่งขันระหว่างการวิ่ง
การเปลี่ยนการตั้งค่าเริ่มต้น
เครื่องมือบรรทัดคำสั่ง
การแสดงภาพ
ท่ออัตโนมัติ
PTM และเพปติโดฟอร์ม
มัลติเพล็กซ์โดยใช้ plexDIA
การอ้างอิงการตั้งค่า GUI
การอ้างอิงบรรทัดคำสั่ง
การอ้างอิงเอาต์พุตหลัก
คำถามที่พบบ่อย (FAQ)
สนับสนุน
บน Windows ให้ดาวน์โหลดไฟล์ติดตั้ง .exe และเรียกใช้งาน ตรวจสอบให้แน่ใจว่าไม่ได้เรียกใช้โปรแกรมติดตั้งจากไดรฟ์เครือข่าย ขอแนะนำให้ติดตั้ง DIA-NN ลงในโฟลเดอร์เริ่มต้นที่ผู้ติดตั้งแนะนำ หรือเพียงแค่แตกไฟล์ .binaries.zip ไปยังตำแหน่งที่คุณเลือก
บน Linux ให้ดาวน์โหลดและแตกไฟล์ .Linux.zip DIA-NN เวอร์ชัน Linux สร้างขึ้นบน Linux Mint 21.2 และระบบเป้าหมายจะต้องมีไลบรารีมาตรฐานที่เป็นอย่างน้อยล่าสุด อย่างไรก็ตาม ไม่มีข้อกำหนดดังกล่าว หากคุณสร้างอิมเมจคอนเทนเนอร์ Docker หรือ Apptainer/Singularity หากต้องการสร้างคอนเทนเนอร์ใดคอนเทนเนอร์หนึ่ง เราขอแนะนำให้เริ่มต้นด้วยอิมเมจ Debian Docker ล่าสุด - ในกรณีนี้ คุณจะต้องติดตั้ง sudo apt install libgomp1
เท่านั้นก่อนจึงจะสามารถเรียกใช้ DIA-NN ในคอนเทนเนอร์ได้ โปรดดูคำแนะนำโดยละเอียดที่ยอดเยี่ยมโดย Roger Olivella เพื่อประสิทธิภาพที่ดีที่สุด ให้ใช้ mimalloc พร้อมการแทนที่แบบไดนามิกตามที่อธิบายไว้ที่นี่ https://github.com/microsoft/mimalloc
นอกจากนี้ยังสามารถรัน DIA-NN บน Linux โดยใช้ Wine 6.8 หรือใหม่กว่าได้อีกด้วย
ข้อมูลแมสสเปกโตรเมตรี DIA สามารถวิเคราะห์ได้สองวิธี: โดยการค้นหาฐานข้อมูลลำดับ (โหมดไม่มีไลบรารี) หรือโดยการใช้ "ไลบรารีสเปกตรัม" ซึ่งเป็นชุดของสเปกตรัมที่ทราบและเวลาการเก็บรักษาสำหรับเปปไทด์ที่เลือก เราจะพูดคุยโดยละเอียดว่าเมื่อใดควรใช้แต่ละแนวทางเหล่านี้ในส่วนการค้นหาที่ไม่ต้องใช้ห้องสมุด สำหรับการวิเคราะห์ทั้งสองประเภท การใช้ DIA-NN นั้นง่ายมาก:
ตอนนี้ข้อมูลข้างต้นก็เพียงพอแล้วสำหรับการเริ่มใช้ DIA-NN ซึ่งง่ายมากจริงๆ! เอกสารส่วนที่เหลือนี้อาจมีประโยชน์ แต่ไม่จำเป็นสำหรับ 99% ของโครงการ
ข้างต้นคือวิธีเรียกใช้ DIA-NN ด้วยการตั้งค่าเริ่มต้น และสิ่งเหล่านี้ให้ประสิทธิภาพสูงสุดหรือเกือบเหมาะสมที่สุดสำหรับการทดสอบส่วนใหญ่ อย่างไรก็ตาม ในบางกรณี การปรับการตั้งค่าจะดีกว่า โปรดดูรายละเอียดเพิ่มเติมที่การเปลี่ยนการตั้งค่าเริ่มต้น
DIA-NN ยังมีตัวเลือกการปรับแต่งอันทรงพลังสำหรับการทดลองสุดล้ำ DIA-NN ได้รับการปรับใช้เป็นส่วนต่อประสานกราฟิกที่ใช้งานง่ายซึ่งจะเรียกใช้เครื่องมือบรรทัดคำสั่งโดยอัตโนมัติ แต่ผู้ใช้ยังสามารถส่งตัวเลือก/คำสั่งไปยังเครื่องมือบรรทัดคำสั่งได้โดยตรง ผ่านทางกล่องข้อความ ตัวเลือกเพิ่มเติม ในอินเทอร์เฟซ ตัวเลือกทั้งหมดเหล่านี้เริ่มต้นด้วยเครื่องหมายขีดคู่ -- ตามด้วยชื่อตัวเลือก และพารามิเตอร์บางตัว (ถ้ามี) ที่จะตั้งค่า ดังนั้น หากคุณเห็นตัวเลือก/คำสั่ง -- ในชื่อที่กล่าวถึงในเอกสารนี้ แสดงว่าคำสั่งนี้มีไว้สำหรับพิมพ์ลงในกล่องข้อความ ตัวเลือกเพิ่มเติม
รูปแบบที่รองรับ: Sciex .wiff, Bruker .d, Thermo .raw, .mzML และ .dia (รูปแบบที่ DIA-NN ใช้เพื่อจัดเก็บสเปกตรัม) สามารถแปลงจากรูปแบบที่รองรับเป็น .dia ได้ เมื่อทำงานบน Linux (บิลด์เนทีฟ ไม่ใช่ไวน์) รองรับเฉพาะข้อมูล .d, .mzML และ .dia เท่านั้น
สำหรับการรองรับ .wiff ให้ดาวน์โหลดและติดตั้ง ProteoWizard - เลือกเวอร์ชัน (64 บิต) ที่รองรับ "ไฟล์ผู้จำหน่าย") จากนั้นคัดลอกไฟล์ทั้งหมดที่มีชื่อ 'Clearcore' หรือ 'Sciex' (ซึ่งจะเป็นไฟล์ .dll) จากโฟลเดอร์ ProteoWizard ไปยังโฟลเดอร์การติดตั้ง DIA-NN (ซึ่งมี diann.exe, DIA-NN.exe และ ไฟล์อื่นๆ มากมาย)
การอ่านไฟล์ Thermo .raw จำเป็นต้องติดตั้ง Thermo MS File Reader จำเป็นต้องใช้เวอร์ชันเฉพาะตามลิงก์ด้านบน (3.0 SP3)
ไฟล์ .mzML ควรเป็นศูนย์กลางและมีข้อมูลเป็นสเปกตรัม (เช่น SWATH/DIA) ไม่ใช่โครมาโตกราฟี
รูปแบบข้อมูลจำเพาะจำนวนมากจำนวนมาก รวมถึงบางรูปแบบที่ DIA-NN ไม่รองรับโดยตรง สามารถแปลงเป็น .mzML ได้โดยใช้แอปพลิเคชัน MSConvertGUI จาก ProteoWizard ใช้งานได้กับทุกรูปแบบที่รองรับ ยกเว้น Bruker .d และ SCIEX Scanning SWATH ซึ่ง DIA-NN จำเป็นต้องเข้าถึงสิ่งเหล่านี้โดยตรง ต้องใช้การตั้งค่า MSConvert ต่อไปนี้สำหรับการแปลง:
DIA-NN รองรับตารางที่คั่นด้วยเครื่องหมายจุลภาค (.csv), คั่นด้วยแท็บ (.tsv, .xls หรือ .txt) หรือ .parquet เป็นไลบรารีสเปกตรัม รวมถึง .speclib (รูปแบบขนาดกะทัดรัดที่ใช้โดย DIA-NN), .sptxt (SpectraST, ทดลอง) และไฟล์ไลบรารี .msp (NIST, ทดลอง) สิ่งสำคัญ: ไลบรารีจะต้องไม่มีไอออนของสารตั้งต้นที่ไม่แยกส่วนเป็น 'แฟรกเมนต์': ไอออนของแฟรกเมนต์แต่ละอันจะต้องถูกสร้างขึ้นจริงโดยการแตกแฟรกเมนต์ของเปปไทด์แบ็คโบน
ไลบรารีในรูปแบบ PeakView รวมถึงไลบรารีที่สร้างโดย FragPipe, TargetedFileConverter (ส่วนหนึ่งของ OpenMS) ที่ส่งออกจาก Spectronaut (Biognosys) ในรูปแบบ .xls หรือสร้างโดย DIA-NN เองนั้นได้รับการสนับสนุน "ตามที่เป็น"
สำหรับไลบรารี .tsv/.xls/.txt ที่สร้างโดยวิธีอื่น DIA-NN อาจกำหนดให้ระบุชื่อส่วนหัว (คั่นด้วยเครื่องหมายจุลภาค) (สำหรับคอลัมน์ที่ต้องการ) โดยใช้คำสั่ง --library-headers ใช้สัญลักษณ์ * แทนชื่อของส่วนหัวเพื่อให้การจดจำเป็นแบบอัตโนมัติ ดูคำอธิบายของคอลัมน์ที่เกี่ยวข้องด้านล่าง (ตามลำดับที่ต้องระบุส่วนหัว)
คอลัมน์ที่จำเป็น:
ขอแนะนำอย่างยิ่งให้มีคอลัมน์ที่มีสิ่งต่อไปนี้อยู่ในไลบรารีด้วย:
ตัวอย่างเช่น คำสั่ง --library-headers ซึ่งระบุชื่อคอลัมน์ทั้งหมดยกเว้นคอลัมน์ 'Decoy' สามารถมีลักษณะดังนี้:
--library-ส่วนหัว ModifiedPeptide,PrecursorCharge,PrecursorMz,Tr_recalibrated,ProductMz,LibraryIntensity,UniprotID,ProteinName,ยีน,Proteotypic,*,FragmentCharge,FragmentType,FragmentSeriesNumber,FragmentLossType,QValue,ExcludeFromAssay,IonMobility
ใช้ --sptxt-acc เพื่อตั้งค่าความแม่นยำของมวลการกรองแฟรกเมนต์ (เป็น ppm) เมื่ออ่านไลบรารี .sptxt/.msp
MaxQuant msms.txt ยังสามารถใช้เป็น (ทดลอง) เป็นไลบรารีสเปกตรัมใน DIA-NN แม้ว่าการแก้ไขที่แก้ไขแล้วอาจอ่านไม่ถูกต้องก็ตาม
DIA-NN สามารถ แปลง ไลบรารี่ที่รองรับเป็นรูปแบบ .parquet ของตัวเองได้ สำหรับสิ่งนี้ ให้คลิก ไลบรารี Spectral ( บานหน้าต่าง อินพุต ) เลือกไลบรารีที่คุณต้องการแปลง เลือกชื่อไฟล์ ไลบรารีเอาต์พุต ( บานหน้าต่าง เอาต์พุต ) คลิกเรียก ใช้ หากคุณใช้รูปแบบไลบรารีที่แปลกใหม่ เป็นความคิดที่ดีที่จะแปลงเป็น .parquet ของ DIA-NN จากนั้นตรวจสอบไลบรารีผลลัพธ์ (โดยใช้แพ็คเกจ R 'arrow' หรือ Python 'pyarrow') เพื่อดูว่าเนื้อหาเหมาะสมหรือไม่
ไลบรารี .tsv/.xls/.txt/.csv/.parquet ทั้งหมดเป็นเพียงตารางธรรมดาที่มีข้อมูลที่มนุษย์อ่านได้ และสามารถสำรวจ/แก้ไขได้ หากจำเป็น โดยใช้ Excel หรือ (ในอุดมคติ) R/Python
ที่สำคัญ เมื่อไลบรารีใดๆ ถูกแปลงเป็นรูปแบบอื่น ตัวเลขทั้งหมดสามารถปัดเศษได้โดยใช้ความแม่นยำของทศนิยม ซึ่งหมายความว่าตัวเลขเหล่านั้นอาจไม่เหมือนกับในไลบรารีดั้งเดิมทุกประการ (อาจมีความแตกต่างเล็กน้อย) ดังนั้น แม้ว่าประสิทธิภาพเมื่อวิเคราะห์โดยใช้ไลบรารีที่แปลงแล้วจะสามารถเปรียบเทียบได้ แต่ผลลัพธ์จะไม่ตรงกันทุกประการ
บานหน้าต่าง เอาต์พุต ช่วยให้ระบุตำแหน่งที่ควรบันทึกเอาต์พุตตลอดจนชื่อไฟล์สำหรับรายงานเอาต์พุตหลักและ (ทางเลือก) ไลบรารีสเปกตรัมเอาต์พุต DIA-NN ใช้ชื่อไฟล์เหล่านี้เพื่อรับชื่อของไฟล์เอาต์พุตทั้งหมด ด้านล่างนี้คือข้อมูลเกี่ยวกับเอาต์พุต DIA-NN ประเภทต่างๆ สำหรับเวิร์กโฟลว์ส่วนใหญ่ ต้องการเพียงรายงานหลัก (สำหรับการวิเคราะห์ใน R หรือ Python - แนะนำ) หรือเมทริกซ์ (เอาต์พุตแบบง่ายสำหรับ MS Excel) เมื่อเปิดใช้งานการสร้างเมทริกซ์เอาต์พุต DIA-NN จะสร้างไฟล์ .manifest.txt พร้อมคำอธิบายโดยย่อของไฟล์เอาต์พุตที่สร้างขึ้น
ตารางข้อความที่มีสารตั้งต้นและรหัสโปรตีน รวมถึงข้อมูลที่เกี่ยวข้องมากมาย ชื่อคอลัมน์ส่วนใหญ่จะอธิบายได้ในตัว และสามารถดูการอ้างอิงแบบเต็มได้ในการอ้างอิงเอาต์พุตหลัก คำสำคัญต่อไปนี้ใช้ในการตั้งชื่อคอลัมน์:
หมายเหตุ: ตั้งแต่เวอร์ชัน 1.9 DIA-NN จะสร้างรายงานในรูปแบบ Apache .parquet นี่คือรูปแบบตารางข้อความที่ถูกบีบอัด (ลดขนาด ~ 10x) ที่สามารถโหลดได้ในโค้ดบรรทัดเดียวโดยใช้แพ็คเกจ R 'arrow' หรือแพ็คเกจ Python 'pyarrow' ฟังก์ชันการทำงานใหม่ส่วนใหญ่ (แนะนำใน DIA-NN 1.9) จะแสดงเฉพาะในรายงานปาร์เก้เท่านั้น ดังนั้นจึงขอแนะนำให้ใช้แทนรายงาน .tsv แบบเดิมในทุกกรณี ในขณะที่รายงาน .tsv ยังคงสร้างขึ้นเพื่อความเข้ากันได้กับเท่านั้น ขั้นตอนการวิเคราะห์แบบเก่า คุณสามารถปิดการสร้างรายงาน .tsv เดิมได้ด้วย --no-main-report นอกจากการใช้ R หรือ Python แล้ว คุณยังสามารถดูไฟล์ .parquet ด้วย TAD Viewer ได้อีกด้วย
สิ่งเหล่านี้ประกอบด้วยปริมาณ MaxLFQ ที่ทำให้เป็นมาตรฐานสำหรับกลุ่มโปรตีน ('pg_matrix'), กลุ่มยีน ('gg_matrix'), ยีนที่มีเอกลักษณ์เฉพาะ ('unique_genes_matrix'; กล่าวคือ ยีนที่ระบุและหาปริมาณโดยใช้โปรตีโอไทป์เท่านั้น ซึ่งเป็นยีนเฉพาะ เปปไทด์) รวมถึงทำให้เป็นมาตรฐานด้วย ปริมาณสำหรับสารตั้งต้น ('pr_matrix') พวกมันจะถูกกรองที่ 1% FDR โดยใช้ค่า q ส่วนกลางสำหรับกลุ่มโปรตีนและทั้งค่า q ส่วนกลางและค่า q เฉพาะการรันสำหรับสารตั้งต้น ใช้ตัวกรอง FDR ระดับโปรตีนเฉพาะการรันเพิ่มเติม 5% กับเมทริกซ์โปรตีน ใช้ --matrix-spec-q เพื่อปรับเปลี่ยน บางครั้ง DIA-NN จะรายงานค่าศูนย์ว่าเป็นค่าประมาณที่ดีที่สุดสำหรับปริมาณสารตั้งต้นหรือโปรตีน ปริมาณที่เป็นศูนย์ดังกล่าวจะถูกละเว้นจากเมทริกซ์โปรตีน/ยีน เมทริกซ์ปริมาณฟอสโฟไซต์พิเศษ (phosphosites_90 และ phosphosites_99 .tsv) ถูกสร้างขึ้นเมื่อมีการประกาศฟอสโฟรีเลชั่น (UniMod:21) เป็นการดัดแปลงตัวแปร ดู PTM และ peptidoforms
ไฟล์ .protein_description.tsv ถูกสร้างขึ้นพร้อมกับเมทริกซ์และมีข้อมูลโปรตีนพื้นฐานที่ DIA-NN รู้จัก (รหัสลำดับ ชื่อ ชื่อยีน คำอธิบาย ลำดับ) DIA-NN เวอร์ชันในอนาคตจะมีข้อมูลเพิ่มเติม เช่น น้ำหนักโมเลกุลของโปรตีน
ประกอบด้วยตัววัด QC จำนวนหนึ่งที่สามารถใช้ในการกรองข้อมูล เช่น เพื่อยกเว้นการทำงานที่ล้มเหลว หรือเป็นการอ่านข้อมูลเพื่อเพิ่มประสิทธิภาพวิธีการ โปรดทราบว่าจำนวนโปรตีนที่รายงานที่นี่สอดคล้องกับจำนวนของโปรตีนเฉพาะ (เช่น ระบุด้วยสารตั้งต้นของโปรตีโอไทป์) ในการทำงานที่กำหนดที่ค่า q ของโปรตีนเฉพาะ 1% จำนวนนี้สามารถทำซ้ำได้จากรายงานหลักที่สร้างขึ้นโดยใช้เกณฑ์ FDR ของสารตั้งต้นที่ 100% และกรองโดยใช้ Protein.Q.Value <= 0.01 & Proteotypic == 1 สิ่งที่นับเป็น 'โปรตีน' ที่นี่ขึ้นอยู่กับการตั้งค่า 'การอนุมานโปรตีน'
การแสดงภาพเมตริก QC จำนวนหนึ่ง โดยอิงตามรายงานหลักและรายงานสถิติ รายงาน PDF ควรใช้เพื่อการประเมินข้อมูลเบื้องต้นอย่างรวดเร็วเท่านั้น และไม่ควรใช้ในการตีพิมพ์
บานหน้าต่าง เอาต์พุต ช่วยให้สามารถควบคุมวิธีจัดการ 'ไฟล์ .quant' ได้ ตอนนี้ เพื่ออธิบายว่าสิ่งเหล่านี้คืออะไร ให้เราพิจารณาว่า DIA-NN ประมวลผลข้อมูลดิบอย่างไร ก่อนอื่น โดยจะดำเนินการส่วนที่ต้องใช้คอมพิวเตอร์ในการประมวลผลแยกกันสำหรับการดำเนินการแต่ละครั้งในการทดลอง และบันทึกการระบุและข้อมูลเชิงปริมาณลงในไฟล์ .quant ที่แยกจากกัน เมื่อประมวลผลการรันทั้งหมดแล้วจะรวบรวมข้อมูลจากไฟล์ .quant ทั้งหมด และดำเนินการขั้นตอนข้ามรัน เช่น การคำนวณค่า q-value โดยรวม การอนุมานโปรตีน การคำนวณปริมาณสุดท้าย และการทำให้เป็นมาตรฐาน ช่วยให้สามารถใช้ DIA-NN ได้อย่างยืดหยุ่นมาก ตัวอย่างเช่น คุณสามารถหยุดการประมวลผลเมื่อใดก็ได้ จากนั้นจึงดำเนินการประมวลผลต่อโดยเริ่มจากการดำเนินการที่คุณหยุดไว้ หรือคุณสามารถลบการทดสอบบางส่วนออกจากการทดสอบ เพิ่มการทดสอบพิเศษ และเรียกใช้การวิเคราะห์อีกครั้งอย่างรวดเร็ว โดยไม่จำเป็นต้องทำการวิเคราะห์การทดสอบที่ประมวลผลแล้วอีกครั้ง ทั้งหมดนี้เปิดใช้งานได้โดยตัวเลือก ใช้ไฟล์ .quant ที่มีอยู่เมื่อมี ไฟล์ .quant จะถูกบันทึกไปยัง/อ่านจาก Temp/.dia dir (หรือตำแหน่งเดียวกันกับไฟล์ raw หากไม่มีการระบุโฟลเดอร์ temp) เมื่อใช้ตัวเลือกนี้ ผู้ใช้ต้องตรวจสอบให้แน่ใจว่าไฟล์ .quant ถูกสร้างขึ้นด้วยการตั้งค่าเดียวกันกับที่ใช้ในการวิเคราะห์ปัจจุบัน ยกเว้น Precursor FDR (โดยมีเงื่อนไขว่า <= 5%), Threads , Log Level , MBR , การทำให้เป็นมาตรฐานแบบ Cross-run และ การสร้างไลบรารี - การตั้งค่าเหล่านี้อาจแตกต่างกัน จริงๆ แล้ว เป็นไปได้ที่จะถ่ายโอนไฟล์ .quant ไปยังคอมพิวเตอร์เครื่องอื่นและนำมาใช้ซ้ำที่นั่น โดยไม่ต้องถ่ายโอนไฟล์ Raw ต้นฉบับ ข้อสำคัญ: ขอแนะนำอย่างยิ่งให้ใช้ไฟล์ .quant ซ้ำเฉพาะเมื่อทั้งความแม่นยำของมวลและหน้าต่างสแกนได้รับการแก้ไขเป็นค่าบางค่า (ไม่ใช่ศูนย์) มิฉะนั้น DIA-NN จะดำเนินการปรับให้เหมาะสมของไฟล์เหล่านี้อีกครั้งโดยใช้การดำเนินการครั้งแรกซึ่งมีไฟล์ . ไม่พบไฟล์ quant นอกจากนี้ เมื่อใช้ MBR หรือสร้างไลบรารีสเปกตรัมจากข้อมูล DIA โดยตั้งค่า การสร้างไลบรารี เป็นแบบอัจฉริยะหรือแบบเต็ม ไฟล์ .quant ควรนำมาใช้ซ้ำเฉพาะในกรณีที่ไฟล์ถูกสร้างขึ้นในลำดับเดียวกันกับลำดับไฟล์ดิบปัจจุบัน นั่นคือ ปัจจุบัน MBR DIA-NN ไม่สามารถรวมการวิเคราะห์หลายรายการเข้าด้วยกันได้
หมายเหตุ: รายงานหลักในรูปแบบ .parquet จะให้ข้อมูลเอาต์พุตทั้งหมดสำหรับการประมวลผลดาวน์สตรีมทุกประเภท เอาต์พุตประเภทอื่นๆ ทั้งหมดมีไว้เพื่อช่วยให้การวิเคราะห์ง่ายขึ้นเมื่อใช้ MS Excel หรือซอฟต์แวร์ที่คล้ายกัน จำนวนสารตั้งต้นและโปรตีนที่รายงานในไฟล์เอาท์พุตประเภทต่างๆ อาจแตกต่างกันเนื่องจากการกรองที่แตกต่างกันที่ใช้ในการสร้างสิ่งเหล่านั้น โปรดดูคำอธิบายด้านบน 'เมทริกซ์' ทั้งหมดสามารถทำซ้ำได้จากรายงาน .parquet หลัก หากสร้างด้วยสารตั้งต้น FDR ตั้งค่าเป็น 5% โดยใช้ R หรือ Python
DIA-NN มีโมดูลที่ไม่ต้องใช้ไลบรารีขั้นสูงมาก ซึ่งดีกว่าการใช้ไลบรารีสเปกตรัมเฉพาะโครงการคุณภาพสูงสำหรับการทดลองบางประเภท โดยทั่วไป สิ่งต่อไปนี้ทำให้การค้นหาแบบไม่มีไลบรารีทำงานได้ดีขึ้นเมื่อเปรียบเทียบกับไลบรารีสเปกตรัม (ในขณะที่สิ่งที่ตรงกันข้ามจะสนับสนุนไลบรารีสเปกตรัม):
โปรดทราบว่าในกรณี 99% จำเป็นต้องเปิดใช้งาน MBR สำหรับการวิเคราะห์เชิงปริมาณโดยไม่ต้องใช้ไลบรารี จะถูกเปิดใช้งานตามค่าเริ่มต้นเมื่อใช้ DIA-NN GUI
สำหรับการทดลองส่วนใหญ่ การลองใช้การค้นหาแบบไม่มีห้องสมุดเป็นเรื่องสมเหตุสมผล สำหรับการทดลองขนาดกลางและขนาดใหญ่ อันดับแรกอาจสมเหตุสมผลที่จะลองใช้การวิเคราะห์ชุดย่อยของข้อมูลแบบไม่ต้องอาศัยไลบรารี เพื่อดูว่าประสิทธิภาพนั้นใช้ได้หรือไม่ (โดยทั่วไปแล้วจะดีกว่ามากในชุดข้อมูลทั้งหมด ดังนั้นจึงไม่จำเป็นต้อง ที่นี่เข้มงวดเกินไป) ตัวเราเองเรามักจะทำการประเมินการควบคุมคุณภาพเบื้องต้นอย่างรวดเร็วของการทดสอบโดยใช้ห้องสมุดสาธารณะบางแห่ง
มักจะสะดวกที่จะทำการวิเคราะห์โดยไม่ต้องใช้ไลบรารีในสองขั้นตอน: โดยการสร้างไลบรารีสเปกตรัมที่ทำนายด้วยซิลิโกจากฐานข้อมูลลำดับก่อน จากนั้นจึงวิเคราะห์ด้วยไลบรารีนี้ นี่เป็นกลยุทธ์ที่ต้องใช้ในทุกกรณี ยกเว้นการวิเคราะห์เบื้องต้นอย่างรวดเร็ว โปรดทราบว่าฟังก์ชันไปป์ไลน์ใน DIA-NN ช่วยให้กำหนดเวลาลำดับของงานได้อย่างง่ายดาย เช่น การสร้างไลบรารีที่คาดการณ์แล้วตามด้วยการวิเคราะห์หลายรายการโดยใช้ไลบรารีนี้
โปรดทราบว่ายิ่งพื้นที่การค้นหามีขนาดใหญ่ (จำนวนสารตั้งต้นทั้งหมดที่พิจารณา) ยิ่งซอฟต์แวร์วิเคราะห์ระบุเปปไทด์ได้ยากขึ้น และใช้เวลาในการค้นหานานขึ้น DIA-NN เก่งมากในการจัดการพื้นที่ค้นหาขนาดใหญ่มาก แต่แม้แต่ DIA-NN ก็ไม่สามารถร่ายมนตร์และสร้างผลลัพธ์ที่ดีด้วยพื้นที่ค้นหา 100 ล้านแห่งได้ เช่นเดียวกับที่สร้างด้วยพื้นที่ค้นหา 2 ล้านแห่ง ดังนั้นจึงจำเป็นต้องระมัดระวังในการเปิดใช้งานการแก้ไขตัวแปรที่เป็นไปได้ทั้งหมดในคราวเดียว ตัวอย่างเช่น การอนุญาตให้แก้ไขตัวแปรได้สูงสุด 5 ตัว ในขณะที่เปิดใช้งานการออกซิเดชันของเมไทโอนีน ฟอสโฟ และดีอะมิเดชันพร้อมกัน อาจไม่ใช่ความคิดที่ดี
นี่คือความแตกต่างที่สำคัญระหว่างการวิเคราะห์ข้อมูล DIA และ DDA ใน DDA การอนุญาตให้แก้ไขตัวแปรที่เป็นไปได้ทั้งหมดนั้นสมเหตุสมผลมากเช่นกัน เนื่องจากเครื่องมือค้นหาจำเป็นต้องจับคู่สเปกตรัมกับบางสิ่ง - และหากไม่จับคู่กับเปปไทด์ที่แก้ไขที่ถูกต้อง มันก็จะถูกจับคู่อย่างผิดพลาด ใน DIA วิธีการจะแตกต่างกันโดยพื้นฐาน โดยจะพบสเปกตรัมที่ตรงกันมากที่สุดในข้อมูลของไอออนของสารตั้งต้นแต่ละตัวที่กำลังพิจารณา (นี่เป็นมุมมองที่เรียบง่ายมากเพียงเพื่อแสดงแนวคิด) ดังนั้น การระบุสเปกตรัมเฉพาะเจาะจงไม่ได้จึงไม่เป็นปัญหาใน DIA (อันที่จริง สเปกตรัมส่วนใหญ่จะมีมัลติเพล็กซ์ใน DIA ซึ่งมีต้นกำเนิดมาจากเปปไทด์หลายตัว และมีเพียงเศษเสี้ยวเท่านั้นที่สามารถระบุได้) ดังนั้นจึงเหมาะสมที่จะเปิดใช้การแก้ไขตัวแปรเฉพาะในกรณีที่คุณสนใจเป็นพิเศษหรือหากการปรับเปลี่ยนนั้นแพร่หลายจริงๆ
ดู PTM และเพปทิโดฟอร์มสำหรับข้อมูลเกี่ยวกับความแตกต่างระหว่างเพปทิโดฟอร์มที่มีการดัดแปลงชุดต่างๆ
DIA-NN สามารถสร้างไลบรารีสเปกตรัมจากชุดข้อมูล DIA ใดก็ได้ ซึ่งสามารถทำได้ทั้งในโหมดที่ใช้ไลบรารีสเปกตรัมและโหมดไม่ใช้ไลบรารี: เพียงเลือกตัวเลือก สร้างไลบรารีสเปกตรัม ในบานหน้าต่างเอาต์พุต
DIA-NN สามารถสร้างไลบรารีสเปกตรัมแบบคาดการณ์ซิลิโกเพิ่มเติมได้จากฐานข้อมูลลำดับ (ตรวจสอบให้แน่ใจว่าได้เปิดใช้งาน FASTA Digest แล้ว) หรือไลบรารีสเปกตรัมอื่น (มักจะมีประโยชน์สำหรับห้องสมุดสาธารณะ): เพียงเรียกใช้ DIA-NN โดยไม่ต้องระบุไฟล์ดิบใดๆ และ เปิดใช้งานตัวเลือก การทำนายสเปกตรัมแบบอิงการเรียนรู้เชิงลึก, RT และ IM ในบานหน้าต่าง การสร้างไอออนของ Precursor การปรับเปลี่ยนที่รองรับในปัจจุบันโดยตัวทำนายการเรียนรู้เชิงลึกคือ: C(cam), M(ox), N-term acetyl, N/Q(dea), S/T/Y(phos), K(-GG), nK( mTRAQ) และ nK(TMT) โปรดทราบว่าหากโมดูลตัวทำนายใน DIA-NN ไม่รู้จักการปรับเปลี่ยนบางอย่าง โมดูลจะยังคงดำเนินการคาดการณ์โดยไม่สนใจการเปลี่ยนแปลงดังกล่าว หากต้องการให้ DIA-NN ละทิ้งเปปไทด์ใดๆ ที่มีการปรับเปลี่ยนที่ผู้ทำนายไม่รู้จัก ให้ใช้ --skip-unknown-mods
ไลบรารีสเปกตรัมยังสามารถสร้างได้จากข้อมูล DDA และในความเป็นจริง การแยกส่วนแบบออฟไลน์ + DDA เป็นวิธี 'มาตรฐานทองคำ' ในการสร้างไลบรารีนับตั้งแต่มีการนำโปรตีโอมิกส์ SWATH/DIA มาใช้ สำหรับสิ่งนี้ เราขอแนะนำให้ใช้ FragPipe ซึ่งใช้เครื่องมือค้นหา MSFragger ที่รวดเร็วเป็นพิเศษและมีประสิทธิภาพสูง FragPipe ยังสามารถนำมาใช้เพื่อสร้างไลบรารีที่เข้ากันได้กับ DIA-NN จากข้อมูล DIA ซึ่งคล้ายกับ DIA-NN เอง
MBR เป็นโหมดที่มีประสิทธิภาพใน DIA-NN ซึ่งเป็นประโยชน์สำหรับการทดลองเชิงปริมาณส่วนใหญ่ ทั้งกับไลบรารีสเปกตรัมและในโหมดไม่มีไลบรารี โดยทั่วไปแล้ว MBR จะให้ผลลัพธ์ทั้งหมายเลข ID เฉลี่ยที่สูงกว่า แต่ยังมีความสมบูรณ์ของข้อมูลที่ดีกว่ามากด้วย นั่นคือค่าที่หายไปน้อยกว่ามาก
ในขณะที่ประมวลผลชุดข้อมูลใดๆ DIA-NN จะรวบรวมข้อมูลที่เป็นประโยชน์มากมายซึ่งสามารถนำไปใช้ในการประมวลผลข้อมูลได้ดีขึ้น และนั่นคือสิ่งที่ MBR เปิดใช้งาน เมื่อใช้ MBR นั้น DIA-NN จะสร้างไลบรารีสเปกตรัมจากข้อมูล DIA ก่อน จากนั้นจึงประมวลผลชุดข้อมูลเดียวกันอีกครั้งด้วยไลบรารีสเปกตรัมนี้ นวัตกรรมอัลกอริทึมที่นำมาใช้ใน DIA-NN ช่วยให้มั่นใจได้ว่า FDR ได้รับการควบคุมอย่างเข้มงวด: MBR ได้รับการตรวจสอบความถูกต้องกับชุดข้อมูลตั้งแต่ 2 รันไปจนถึงมากกว่า 1,000 รัน
ควรเปิดใช้งาน MBR สำหรับการทดลองเชิงปริมาณใดๆ เว้นแต่คุณจะมีไลบรารีสเปกตรัมเฉพาะโครงการคุณภาพสูงมาก ซึ่งคุณคิดว่า (i) มีแนวโน้มที่จะให้ความครอบคลุมเกือบทั้งหมดของเปปไทด์ที่ตรวจพบได้ นั่นไม่มีประโยชน์อะไรในการลองใช้แบบไร้ไลบรารี search + MBR และ (ii) เปปไทด์ส่วนใหญ่ในไลบรารีสามารถตรวจพบได้ในการทดลอง DIA หาก (i) เป็นจริงเท่านั้น อาจคุ้มค่าที่จะลองใช้ MBR พร้อมกับ การสร้าง Library ที่ตั้งค่าเป็น IDs profiling
ไม่ควรใช้ MBR สำหรับการทดลองที่ไม่ใช่เชิงปริมาณ นั่นคือเมื่อคุณต้องการสร้างไลบรารีสเปกตรัมเท่านั้น ซึ่งคุณจะใช้กับชุดข้อมูลอื่นบางชุด
เราสามารถ 'เลียนแบบ' MBR ได้ด้วยตนเองโดยใช้แนวทางสองขั้นตอนซึ่งจะส่งผลให้ได้ประสิทธิภาพที่เทียบเคียงได้ ขั้นแรก ให้รัน DIA-NN เพื่อสร้างไลบรารีสเปกตรัมจากการรัน DIA (การทดลองทั้งหมดหรือเพียงเซ็ตย่อย ซึ่งอาจเร็วกว่ามากสำหรับการทดลองขนาดใหญ่หรือการทดลองต่างๆ รวมถึงการเว้นว่าง/การรันที่ล้มเหลว) จากนั้นใช้ไลบรารีนี้เพื่อวิเคราะห์การทดลองทั้งหมด ไม่ว่าในกรณีใด ให้เรียกใช้ DIA-NN โดยปิดใช้งาน MBR
เมื่อใช้ MBR (หรือการเลียนแบบ) และใช้รายงาน .parquet หลัก (แนะนำ) แทนเมทริกซ์เชิงปริมาณ ให้ใช้ตัวกรองค่า q ต่อไปนี้:
สามารถใช้ DIA-NN เพื่อประมวลผลการทดสอบเกือบทั้งหมดด้วยการตั้งค่าเริ่มต้นได้สำเร็จ โดยทั่วไป ขอแนะนำให้เปลี่ยนการตั้งค่าเฉพาะเมื่อได้รับคำแนะนำเป็นพิเศษให้ทำในเอกสารนี้ (เช่นด้านล่าง) สำหรับประเภทการทดสอบเฉพาะ หรือหากมีเหตุผลที่ชัดเจนและน่าสนใจสำหรับการเปลี่ยนแปลง
ในหลายกรณี อาจต้องการเปลี่ยนพารามิเตอร์หลายตัวในบานหน้าต่าง อัลกอริทึม
โปรดดูคำแนะนำเกี่ยวกับการค้นหาที่ไม่มีห้องสมุด, PTM และ peptidoforms และ Multiplexing โดยใช้ plexDIA หากสิ่งเหล่านี้เกี่ยวข้องกับการทดสอบของคุณ
โปรดทราบว่าเมื่อคุณเลือกตัวเลือกเฉพาะใน DIA-NN GUI การตั้งค่าอื่นๆ บางอย่างอาจถูกเปิดใช้งานโดยอัตโนมัติ ตัวอย่างเช่น เมื่อใดก็ตามที่คุณเลือกที่จะดำเนินการย่อยฐานข้อมูล FASTA แบบซิลิโก (สำหรับการค้นหาที่ไม่มีไลบรารี) หรือเพียงสร้างไลบรารีสเปกตรัมจากข้อมูล DIA MBR จะถูกเลือกโดยอัตโนมัติเช่นกัน เนื่องจากใน 99% ของกรณีนี้จะเป็นประโยชน์
DIA-NN ถูกนำไปใช้เป็นส่วนต่อประสานกราฟิกกับผู้ใช้ (GUI) ซึ่งเรียกใช้เครื่องมือบรรทัดคำสั่ง (diann.exe) เครื่องมือบรรทัดคำสั่งยังสามารถใช้แยกกันได้ เช่น เป็นส่วนหนึ่งของไปป์ไลน์การประมวลผลอัตโนมัติแบบกำหนดเอง นอกจากนี้ แม้ว่าจะใช้ GUI เราก็สามารถส่งตัวเลือก/คำสั่งไปยังเครื่องมือบรรทัดคำสั่งได้ในกล่องข้อความ ตัวเลือกเพิ่มเติม ตัวเลือกที่มีประโยชน์บางส่วนมีการกล่าวถึงในเอกสารนี้ และการอ้างอิงแบบเต็มมีให้ในการอ้างอิงบรรทัดคำสั่ง
เมื่อ GUI เปิดตัวเครื่องมือบรรทัดคำสั่ง ระบบจะพิมพ์ชุดคำสั่งเดียวกับที่ใช้ในหน้าต่างบันทึก ดังนั้น เพื่อที่จะจำลองพฤติกรรมที่สังเกตได้เมื่อใช้ GUI (เช่น หากคุณต้องการทำการวิเคราะห์บนคลัสเตอร์ Linux) เราสามารถส่งคำสั่งเดียวกันทั้งหมดไปยังเครื่องมือบรรทัดคำสั่งได้โดยตรง
diann.exe [commands]
คำสั่งต่างๆ จะได้รับการประมวลผลตามลำดับที่ได้รับ และด้วยคำสั่งส่วนใหญ่ ลำดับนี้สามารถกำหนดเองได้
บน Linux เครื่องหมายอัฒภาค ';' อักขระจะถือเป็นตัวคั่นคำสั่ง ดังนั้น ';' เนื่องจากเป็นส่วนหนึ่งของคำสั่ง DIA-NN (เช่น --channels) จะต้องแทนที่ด้วย ';' บน Linux เพื่อการทำงานที่ถูกต้อง
เพื่อความสะดวก เช่นเดียวกับการจัดการการทดลองที่ประกอบด้วยไฟล์หลายพันไฟล์ ตัวเลือก/คำสั่งบางส่วนสามารถจัดเก็บไว้ในไฟล์ปรับแต่งได้ สำหรับสิ่งนี้ ให้สร้างไฟล์ข้อความที่มีนามสกุลใดๆ เช่น diann_config.cfg พิมพ์คำสั่งใดๆ ที่ DIA-NN รองรับ จากนั้นอ้างอิงไฟล์นี้ด้วย --cfg diann_config.cfg (ในกล่องข้อความ ตัวเลือกเพิ่มเติม หรือใน คำสั่งที่ใช้ในการเรียกใช้เครื่องมือบรรทัดคำสั่ง diann.exe)
DIA-NN มีตัวเลือกการแสดงภาพสองแบบ
สกายไลน์ หากต้องการแสดงภาพโครมาโตกราฟี/สเปกตรัมใน Skyline ให้วิเคราะห์การทดลองของคุณด้วย MBR และฐานข้อมูล FASTA ที่ระบุ จากนั้นคลิกปุ่ม 'Skyline' DIA-NN จะเปิดตัว Skyline โดยอัตโนมัติ (ตรวจสอบให้แน่ใจว่าคุณได้ติดตั้ง Skyline/Skyline เวอร์ชันรายวัน 23.1.1.459 หรือใหม่กว่าเป็น 'การติดตั้งผู้ดูแลระบบ') ขณะนี้เวิร์กโฟลว์นี้ไม่รองรับมัลติเพล็กซ์ และจะไม่ทำงานกับการแก้ไขในรูปแบบอื่นนอกเหนือจาก UniMod
โปรแกรมดู DIA-NN วิเคราะห์การทดสอบของคุณโดยทำเครื่องหมายที่ช่อง "XICs" แล้วคลิกปุ่ม 'ผู้ดู' โดยค่าเริ่มต้นตัวเลือก "XICS" จะทำให้ DIA-NN Extract chromatograms สำหรับไอออนชิ้นส่วนห้องสมุดเท่านั้นและภายใน 10 วินาทีจากปลายสุดยอด ใช้-มีพิษ [n] เพื่อตั้งค่าหน้าต่างเวลาการเก็บรักษาเป็น n วินาที (เช่น-moxic 60 จะสกัด chromatograms ภายในหนึ่งนาทีจากจุดสูงสุด) และ--theoretical-FR เพื่อแยกประจุทั้งหมด 1 และ 2 y/b -ชิ้นส่วนซีรีส์รวมถึงชิ้นส่วนที่มีการสูญเสียที่เป็นกลางทั่วไป โปรดทราบว่าการใช้--ทฤษฎี-ทฤษฎีโดยเฉพาะอย่างยิ่งเมื่อใช้ร่วมกับหน้าต่างเวลาการเก็บรักษาขนาดใหญ่อาจต้องใช้พื้นที่ดิสก์จำนวนมากในโฟลเดอร์เอาท์พุท อย่างไรก็ตามการสร้างภาพข้อมูลนั้นมีประสิทธิภาพทันทีสำหรับขนาดการทดลองใด ๆ
หมายเหตุ : chromatograms ที่สกัดด้วย "xics" ถูกบันทึกในรูปแบบ apache .parquet (ชื่อไฟล์จบด้วย '.xic.parquet') และสามารถเข้าถึงได้อย่างง่ายดายโดยใช้ R หรือ Python บางครั้งอาจสะดวกในการเตรียมตัวเลขพร้อมสิ่งพิมพ์ (แม้ว่าจะสามารถทำได้ด้วย Skyline หรือ DIA-NN Viewer ด้วย) หรือแม้กระทั่งการตั้งค่าการควบคุมคุณภาพที่กำหนดเองอัตโนมัติสำหรับประสิทธิภาพ LC-MS
ตำแหน่งเปปไทด์และการดัดแปลงภายในโปรตีนสามารถมองเห็นได้โดยใช้ alphamap โดย Mann Lab https://github.com/mannlabs/alphamap
หน้าต่างไปป์ไลน์ภายใน DIA-NN GUI ช่วยให้สามารถรวมขั้นตอนการวิเคราะห์หลายขั้นตอนเข้ากับท่อ แต่ละขั้นตอนไปป์ไลน์คือชุดของการตั้งค่าตามที่แสดงโดย GUI หนึ่งสามารถเพิ่มขั้นตอนดังกล่าวไปยังไปป์ไลน์อัปเดตขั้นตอนที่มีอยู่ลบขั้นตอนเลื่อนขั้นตอนขึ้น/ลงในไปป์ไลน์ปิดการใช้งาน/เปิดใช้งาน (โดยการคลิกเมาส์สองครั้ง) ขั้นตอนบางอย่างภายในท่อและบันทึก/โหลดไปป์ไลน์ นอกจากนี้แต่ละขั้นตอนไปป์ไลน์สามารถคัดลอกได้ระหว่างแท็บ/หน้าต่าง GUI ที่แตกต่างกัน (ใช้ปุ่มคัดลอกและวางสำหรับสิ่งนี้) เรารวบรวม DIA-NN ทั้งหมดสำหรับสิ่งพิมพ์เฉพาะในท่อ นอกจากนี้ยังสามารถใช้ท่อ DIA-NN เพื่อจัดเก็บเทมเพลตการกำหนดค่า
DIA-NN GUI มีเวิร์กโฟลว์ในตัว (บานหน้าต่าง การสร้างไอออนสารตั้งต้น ) สำหรับการตรวจจับการเกิดออกซิเดชัน methionine, โปรตีน n-terminal acetylation, phosphorylation และ ubiquitination (ผ่านการตรวจจับ adducts ที่เหลืออยู่บนไลซีน) สามารถประกาศตัวดัดแปลงอื่น ๆ ได้โดยใช้-var-mod หรือ--fixed-mod ใน ตัวเลือกเพิ่มเติม
การแยกแยะระหว่าง peptidoforms ที่มีชุดการดัดแปลงที่แตกต่างกันเป็นปัญหาที่ไม่สำคัญใน DIA: หากไม่มี peptidoform พิเศษที่ให้คะแนน peptidoform FDR ที่มีประสิทธิภาพสามารถอยู่ในช่วง 5-10% สำหรับการวิเคราะห์ที่ปราศจากห้องสมุด DIA-NN ใช้วิธีการ decoy เป้าหมายทางสถิติสำหรับการให้คะแนน peptidoform ซึ่งเปิดใช้งานโดยตัวเลือก peptidoforms (บานหน้าต่าง อัลกอริทึม ) และยังเปิดใช้งานโดยอัตโนมัติเมื่อมีการประกาศการปรับเปลี่ยนตัวแปรผ่านการตั้งค่า GUI หรือคำสั่ง ค่า q peptidoform ที่เกิดขึ้นสะท้อนความมั่นใจของ DIA-NN ในความถูกต้องของชุดของการดัดแปลงที่รายงานสำหรับเปปไทด์รวมถึงความถูกต้องของลำดับกรดอะมิโนที่ระบุ อย่างไรก็ตามค่า Q เหล่านี้ไม่รับประกันว่าจะไม่มีการเปลี่ยนแปลงมวลต่ำเนื่องจากการแทนที่กรดอะมิโนหรือการดัดแปลงเช่น deamidation (โปรดทราบว่า DDA ไม่รับประกันสิ่งนี้)
นอกจากนี้ DIA-NN ยังมีอัลกอริทึมที่รายงานการประมาณการความเชื่อมั่นของ PTM Localization (เป็นความน่าจะเป็นหลังสำหรับการแปลที่ถูกต้องของไซต์ PTM ตัวแปรทั้งหมดบนเปปไทด์รวมถึงคะแนนสำหรับแต่ละไซต์) รวมอยู่ในรายงานเอาต์พุต. PARQUET ไฟล์ phosphosites_90 และ phosphosites_99 .TSV มีปริมาณฟอสฟอสโพสิตเฉพาะคำนวณโดยใช้วิธีการ 1 อันดับแรก (การทดลอง) ซึ่งเป็นความเข้มสูงสุดระหว่างสารตั้งต้นที่มีไซต์ที่มีความเชื่อมั่นที่ระบุ (0.9 หรือ 0.99 ตามลำดับ) ปริมาณในการวิ่งที่กำหนด อัลกอริทึม 'Top 1' ถูกนำมาใช้ที่นี่เนื่องจากมีแนวโน้มว่าจะมีความแข็งแกร่งมากที่สุดต่อความผิดพลาดและข้อผิดพลาดที่ผิดพลาด อย่างไรก็ตามไม่ว่าจะเป็นตัวเลือกที่ดีที่สุดหรือไม่ที่จะต้องได้รับการตรวจสอบซึ่งปัจจุบันเป็นสิ่งที่ท้าทายเนื่องจากการขาดเกณฑ์มาตรฐานกับความจริงพื้นฐานที่รู้จัก
โดยทั่วไปเมื่อมองหา PTMS เราขอแนะนำสิ่งต่อไปนี้:
สิ่งสำคัญ: การปรับเปลี่ยนตัวแปรที่คุณกำลังมองหาจะต้องระบุเป็นตัวแปร (ผ่านช่องทำเครื่องหมาย GUI หรือ ตัวเลือกเพิ่มเติม ) ทั้งสองเมื่อสร้างไลบรารีที่คาดการณ์ไว้ในซิลิโคและเมื่อวิเคราะห์ข้อมูลดิบโดยใช้ไลบรารีที่คาดการณ์หรือเชิงประจักษ์
การตั้งค่าสำหรับฟอสโฟรีเลชั่น: การดัดแปลงตัวแปรสูงสุด 3, สูงสุด 1 ความแตกแยกที่ไม่ได้รับ, ฟอสโฟรีเลชั่นเป็นเพียงการปรับเปลี่ยนตัวแปรเพียงอย่างเดียวที่ระบุช่วงค่าประจุของสารตั้งต้น 2-3; เพื่อลดการใช้ RAM ตรวจสอบให้แน่ใจว่าช่วงมวลของสารตั้งต้นที่ระบุ (เมื่อสร้างไลบรารีที่คาดการณ์) ไม่กว้างกว่าช่วงมวลสารตั้งต้นที่เลือกสำหรับ MS/MS โดยวิธี DIA; หากต้องการเร่งการประมวลผลเมื่อใช้ไลบรารีที่คาดการณ์ไว้ก่อนอื่นจะสร้างไลบรารีที่ใช้ DIA จากชุดย่อยของการทดลอง (เช่น 10+ การรันที่ดีที่สุด) จากนั้นวิเคราะห์ชุดข้อมูลทั้งหมดโดยใช้ไลบรารี DIA ที่ใช้ MBR นี้
เมื่อข้างต้นประสบความสำเร็จลองใช้ความแตกแยกสูงสุด 2
เมื่อมองหา PTMS นอกเหนือจาก phosphorylation ใน 95% ของกรณีที่ดีที่สุดที่จะใช้การปรับเปลี่ยนตัวแปรสูงสุด 1 ถึง 3 และความแตกแยกสูงสุด 1
เมื่อไม่ได้มองหา PTMS เช่นเมื่อเป้าหมายคือปริมาณโปรตีนสัมพัทธ์การเปิดใช้งานการปรับเปลี่ยนตัวแปรโดยทั่วไปจะไม่ให้ความลึกโปรตีนที่สูงขึ้น ในขณะที่มันมักจะไม่เจ็บเช่นกันมันจะทำให้การประมวลผลช้าลง
เพื่อความรู้ที่ดีที่สุดของเราไม่มีการตรวจสอบความมั่นใจในการระบุตัวตนสำหรับการตรวจจับเปปไทด์ deamidated (ซึ่งง่ายต่อการสับสนกับไอโซโทปที่หนักกว่าเว้นแต่ว่ามวลสเป็คมีความละเอียดสูงมาก ใช้โดยเครื่องมือค้นหา) แม้กระทั่งสำหรับ DDA วิธีหนึ่งที่จะได้รับความเชื่อมั่นในการระบุเปปไทด์ deamidated คือการตรวจสอบว่ามีสิ่งใดระบุไว้ว่ามีการระบุว่ามีการประกาศว่าเดลต้ามวลสำหรับ deamidation นั้นเป็น 1.022694 แทนที่จะเป็นค่าที่ถูกต้อง 0.984016 DIA-NN ผ่านการทดสอบนี้ประสบความสำเร็จในชุดข้อมูลหลายชุด (นั่นคือไม่มีการรายงาน IDs เมื่อระบุ 'Modification Mass' นี้ ') แต่เราขอแนะนำให้ลองใช้การค้นหา' Modification Mass 'ในหลาย ๆ หากมองหาเปปไทด์ deamidated ในแต่ละกรณี (มวลที่ถูกต้องหรือลวง)-PTM-QVALUES ควรใช้เพื่อเปิดใช้งานการให้คะแนนเฉพาะ PTM สำหรับ deamidation นอกเหนือจากการให้คะแนน peptidoform และ Ptm.q.value หรือ global.q.value/lib Q.Value ใช้สำหรับการกรอง
จากการสังเกตเมื่อเป้าหมายสูงสุดคือการจำแนกโปรตีนมันส่วนใหญ่ไม่เกี่ยวข้องถ้าเปปไทด์ดัดแปลงถูกระบุผิดโดยการจับคู่กับสเปกตรัมที่เกิดจาก peptidoform ที่แตกต่างกัน ดังนั้นหากวัตถุประสงค์ของการทดลองคือการระบุ/หาปริมาณ PTMs เฉพาะการทดแทนกรดอะมิโนหรือแยกแยะโปรตีนที่มีตัวตนลำดับสูงดังนั้นจึงแนะนำตัวเลือกการให้คะแนน peptidoforms ในกรณีอื่น ๆ ทั้งหมดการให้คะแนน peptidoform มักจะใช้งานได้ แต่ไม่จำเป็นและมักจะนำไปสู่การประมวลผลที่ค่อนข้างช้าลงและลดจำนวนการระบุตัวตนเล็กน้อยเมื่อใช้ MBR
โดยทั่วไปแล้วใช่ อย่างไรก็ตามเวิร์กโฟลว์ส่วนใหญ่จะทำงานได้โดยไม่จำเป็นต้องรับรู้การแก้ไข แม้ว่าจะตรวจพบการดัดแปลงที่ไม่รู้จักในห้องสมุด แต่ DIA-NN จะพิมพ์คำเตือนรายการเหล่านั้นและขอแนะนำอย่างยิ่งให้ประกาศโดยใช้-MOD โปรดทราบว่า DIA-NN รับรู้การดัดแปลงทั่วไปจำนวนมากแล้วและยังสามารถโหลดฐานข้อมูล UNIMOD ทั้งหมดดูตัวเลือก-FULL-UNIMOD
ในความร่วมมือกับห้องปฏิบัติการ Slavov เราได้พัฒนา Plexdia ตาม DIA-NN ซึ่งเป็นเทคโนโลยีที่ช่วยให้ได้รับประโยชน์จากมัลติเพล็กซ์ที่ไม่ใช่ไอโซโทป (MTRAQ, Dimethyl, SILAC) ร่วมกับ DIA ในการวิเคราะห์การทดลอง plexdia เราต้องการในห้องสมุดสเปกตรัมที่คาดการณ์ไว้ในซิลิโคหรือเชิงประจักษ์ จากนั้น DIA-NN จะต้องได้รับชุดคำสั่งต่อไปนี้ขึ้นอยู่กับสถานการณ์การวิเคราะห์
สถานการณ์ 1 . ห้องสมุดเป็นห้องสมุดปลอดฉลากปกติ (เชิงประจักษ์หรือทำนาย) และมัลติเพล็กซิ่งทำได้อย่างหมดจดด้วยการติดฉลากไอโซโทปเช่นไม่มีการติดฉลากเคมีด้วยแท็กเช่น MTRAQ หรือ Dimethyl DIA-NN นั้นต้องการตัวเลือกต่อไปนี้ที่จะเพิ่มใน ตัวเลือกเพิ่มเติม :
ตัวอย่างสำหรับฉลาก L/H SILAC บน K และ R:
--fixed-mod SILAC,0.0,KR,label
--lib-fixed-mod SILAC
--channels SILAC,L,KR,0:0; SILAC,H,KR,8.014199:10.008269
--original-mods
โปรดทราบว่าใน SILAC ข้างต้นได้รับการประกาศว่าเป็นฉลากนั่นคือไม่ควรเปลี่ยนเวลาเก็บรักษาของเปปไทด์ นอกจากนี้ยังเป็นฉลากมวลเป็นศูนย์ที่นี่เนื่องจากทำหน้าที่เฉพาะในการกำหนดกรดอะมิโนที่จะติดฉลาก สิ่งที่การรวมกันของ--fixed-mod และ-lib-fixed-mod ทำที่นี่ง่าย ๆ (silac) หลังจากแต่ละ k หรือ r ในลำดับ ID precursor ในการแสดงไลบรารีภายในที่ใช้โดย DIA-NN -แชนเนลจะแยกแต่ละห้องสมุดออกเป็นสองรายการหนึ่งที่มีมวล 0 (k) และ 0 (r) เพิ่มขึ้นในแต่ละครั้งของ K (SILAC) หรือ R (SILAC) ในลำดับตามลำดับและอีกอันหนึ่งที่มี 8.014199 (K ) และ 10.008269 (r)
สถานการณ์ 2 . ห้องสมุดเป็นห้องสมุดที่ไม่มีฉลากปกติ (เชิงประจักษ์หรือทำนาย) และมัลติเพล็กซิ่งทำได้ผ่านการติดฉลากเคมีด้วย MTRAQ
สถานการณ์ที่ 2: ขั้นตอนที่ 1 ติดฉลากห้องสมุดในซิลิโคด้วย MTRAQ และเรียกใช้ตัวทำนายการเรียนรู้ลึกเพื่อปรับสเปกตรัม/RTS/IMS สำหรับสิ่งนี้เรียกใช้ DIA-NN ด้วยไลบรารีอินพุตในฟิลด์ ไลบรารีสเปกตรัม ไลบรารีเอาต์พุต ที่ระบุ สเปกตรัมที่ใช้การเรียนรู้ลึก RTS และ IMS เปิดใช้งานรายการไฟล์ข้อมูลดิบที่ว่างเปล่าและตัวเลือกต่อไปนี้ใน ตัวเลือกเพิ่มเติม :
--fixed-mod mTRAQ,140.0949630177,nK
--lib-fixed-mod mTRAQ
--channels mTRAQ,0,nK,0:0; mTRAQ,4,nK,4.0070994:4.0070994;mTRAQ,8,nK,8.0141988132:8.0141988132
--original-mods
ใช้ไฟล์. predicted.speclib พร้อมชื่อที่สอดคล้องกับ ไลบรารีเอาท์พุท เป็นไลบรารีสเปกตรัมสำหรับขั้นตอนถัดไป
สถานการณ์ที่ 2: ขั้นตอนที่ 2. เรียกใช้ DIA-NN ด้วยตัวเลือกต่อไปนี้:
--fixed-mod mTRAQ,140.0949630177,nK
--channels mTRAQ,0,nK,0:0; mTRAQ,4,nK,4.0070994:4.0070994;mTRAQ,8,nK,8.0141988132:8.0141988132
--original-mods
โปรดทราบว่า-LIB-Fixed-MOD ไม่จำเป็นอีกต่อไปเนื่องจากห้องสมุดที่สร้างขึ้นในขั้นตอนที่ 1 มีอยู่แล้ว (MTRAQ) ที่ N-terminus และไลซีนของแต่ละเปปไทด์
สถานการณ์ 3 . ห้องสมุดเป็นห้องสมุดปลอดฉลากปกติ (เชิงประจักษ์หรือทำนาย) และมัลติเพล็กซ์ทำได้ผ่านการติดฉลากเคมีด้วยฉลากอื่นนอกเหนือจาก MTRAQ เหตุผลที่สถานการณ์นี้ได้รับการปฏิบัติแตกต่างจากสถานการณ์ที่ 2 คือ DIA-NN ในตัวทำนายซิลิโคไม่ได้รับการฝึกฝนเฉพาะสำหรับป้ายกำกับอื่นนอกเหนือจาก MTRAQ และดังนั้นขั้นตอนพิเศษในการสร้างการคาดการณ์จึงไม่จำเป็น เพียงเรียกใช้ dia-nn อย่างที่คุณทำในสถานการณ์ที่ 1 ยกเว้น-การประกาศ-โฟกัส-มอดจะมีมวลที่ไม่เป็นศูนย์ในกรณีนี้และจะไม่เป็นฉลาก ตัวอย่างเช่น 5 ช่อง dimethyl ตามที่อธิบายโดย Thielert และคณะ:
‐‐fixed‐mod Dimethyl, 28.0313, nK
--lib-fixed-mod Dimethyl
‐‐channels Dimethyl,0,nK,0:0; Dimethyl,2,nK,2.0126:2.0126; Dimethyl,4,nK,4.0251:4.0251; Dimethyl,6,nK,6.0377:6.0377; Dimethyl,8,nK,8.0444:8.0444
--original-mods
สถานการณ์ 4 . ห้องสมุดเป็นไลบรารี DIA เชิงประจักษ์ที่สร้างโดย DIA-NN จากชุดข้อมูล DIA แบบมัลติเพล็กซ์ ตัวอย่างเช่นนี่อาจเป็นไลบรารีที่สร้างโดย DIA-NN ในรอบแรกของ MBR (และคุณต้องการนำกลับมาใช้ใหม่เพื่อวิเคราะห์เดียวกันหรือวิ่งอื่น ๆ ) ตัวเลือกเพิ่มเติม จะเป็นเช่นเดียวกับในสถานการณ์ที่ 1 สถานการณ์ที่ 2: ขั้นตอนที่ 2 หรือสถานการณ์ 3 ยกเว้น (สำคัญ!)-ต้องไม่ได้รับการแก้ไข-LIB-Fixed-MOD
ในสถานการณ์ทั้งหมดข้างต้น ตัวเลือกพิเศษที่ระบุกลยุทธ์การทำให้เป็นมาตรฐานจะต้องรวมอยู่ใน ตัวเลือกเพิ่มเติม สิ่งนี้สามารถเป็นได้อย่างใดอย่างหนึ่ง-Channel-Run-Norm (Silac พัลซิ่ง, การหมุนเวียนโปรตีน) หรือ -channel-spec-norm (มัลติเพล็กซ์ของตัวอย่างอิสระ)
เอาต์พุต เราขอแนะนำให้ใช้รายงานหลักในรูปแบบ. parquet สำหรับการวิเคราะห์ดาวน์สตรีมทั้งหมด โปรดทราบว่า pg.q.value และ gg.q.value ในรายงานหลักคือช่องเฉพาะเมื่อใช้มัลติเพล็กซ์ ปริมาณ pg.maxlfq, genes.maxlfq และ genes.maxlfq.unique เป็นเฉพาะช่องทางเฉพาะถ้า (i) ควอนตัมถูกใช้และ (ii) ทั้งรายงานสอดคล้องกับการส่งผ่านที่สองของ MBR หรือ MBR อีกทางเลือกหนึ่งสามารถใช้เมทริกซ์ (ไม่แนะนำ) นี่คือระดับสารตั้งต้นเท่านั้น เมื่อใช้เมทริกซ์มันเป็นสิ่งสำคัญในการระบุ-เมทริกซ์-ch-qvalue โดยมีเกณฑ์ที่สมเหตุสมผล 0.01 ถึง 0.5 การตั้งค่านี้จะไม่ส่งผลกระทบต่อเมทริกซ์ MS1 ที่แยกออกมาซึ่งเพียงแค่รายงานสัญญาณ MS1 ที่สอดคล้องกับแต่ละช่องทางเมื่อใดก็ตามที่มีการระบุสารตั้งต้นในช่องใด ๆ - โดยปกติจะไม่แนะนำเมทริกซ์นี้ เมทริกซ์โปรตีนไม่ได้เกิดขึ้นเมื่อวิเคราะห์ข้อมูลมัลติเพล็กซ์
บานหน้าต่าง อินพุต
บานหน้าต่าง การสร้างไอออน
บาน หน้าต่าง
บานหน้าต่าง อัลกอริทึม
โปรดทราบว่าตัวเลือกบางอย่างด้านล่างเป็นอันตรายต่อประสิทธิภาพและมีเพียงเพื่อการเปรียบเทียบ ดังนั้นคำแนะนำคือใช้เฉพาะตัวเลือกที่คาดว่าจะเป็นประโยชน์สำหรับการทดลองเฉพาะ (เช่นที่แนะนำในเอกสารปัจจุบัน) ขึ้นอยู่กับเหตุผลบางอย่างที่ชัดเจน