DIA-NN - rangkaian perangkat lunak universal untuk pemrosesan data proteomik akuisisi data-independen (DIA). Diciptakan di Universitas Cambridge, Inggris, di laboratorium Kathryn Lilley (Cambridge Center for Proteomics), DIA-NN membuka babak baru dalam proteomik, memperkenalkan sejumlah algoritme yang memungkinkan eksperimen skala besar yang andal, kuat, dan akurat secara kuantitatif menggunakan penggunaan metode throughput tinggi. DIA-NN saat ini sedang dikembangkan lebih lanjut di laboratorium Vadim Demichev di Charité (University Medicine Berlin, Jerman).
DIA-NN dibangun berdasarkan prinsip-prinsip berikut:
Unduh : https://github.com/vdemichev/DiaNN/releases/tag/1.9.2 (disarankan menggunakan versi terbaru - DIA-NN 1.9.2)
Silakan kutip:
DIA-NN: jaringan saraf dan koreksi interferensi
mengaktifkan cakupan proteom yang mendalam dalam Metode Alam throughput tinggi , 2020
Menggunakan DIA-NN untuk analisis modifikasi pasca-terjemahan (PTM), seperti fosforilasi atau ubiquitinasi: Pembuatan profil ubiquitinome in vivo yang diselesaikan dengan waktu oleh DIA-MS mengungkapkan target USP7 pada skala luas proteom Nature Communications, 2021
Menggunakan modul mobilitas ion DIA-NN untuk analisis data timsTOF atau menggunakan DIA-NN dalam kombinasi dengan perpustakaan spektral yang dihasilkan FragPipe: analisis data dia-PASEF menggunakan FragPipe dan DIA-NN untuk proteomik mendalam dengan jumlah sampel yang rendah Nature Communications, 2022
Menggunakan DIA-NN untuk analisis sampel multipleks (SILAC, mTRAQ, dll): Meningkatkan throughput proteomik sensitif dengan plexDIA Nature Biotechnology, 2022
Menggunakan DIA-NN sebagai bagian dari alur kerja CysQuant: CysQuant: Kuantifikasi simultan oksidasi sistein dan kelimpahan protein menggunakan spektrometri massa akuisisi yang bergantung pada data atau independen Redox Biology, 2023
Menggunakan modul QuantUMS DIA-NN untuk kuantifikasi: QuantUMS: minimalisasi ketidakpastian memungkinkan kuantifikasi yang percaya diri dalam proteomik biorxiv
Menggunakan DIA-NN untuk memproses data Slice-PASEF: Slice-PASEF: memecah semua ion untuk sensitivitas maksimum dalam proteomik biorxiv
Surat-surat penting lainnya
Paket R dengan beberapa fungsi berguna untuk menangani laporan keluaran DIA-NN: https://github.com/vdemichev/diann-rpackage
Visualisasi posisi peptida dalam protein: https://github.com/MannLabs/alphamap (AlphaMap oleh Mann lab)
Catatan dan diskusi tentang proteomik secara umum dan penggunaan DIA-NN: https://github.com/vdemichev/DiaNN/discussions/categories/dia-proteomics-in-detail (bagian ini akan diperluas lebih lanjut).
Instalasi
Memulai
Format data mentah
Format perpustakaan spektral
Keluaran
Pencarian bebas perpustakaan
Pembuatan perpustakaan spektral
Pertandingan antar lari
Mengubah pengaturan default
Alat baris perintah
Visualisasi
Saluran pipa otomatis
PTM dan peptidoform
Multipleksing menggunakan plexDIA
Referensi pengaturan GUI
Referensi baris perintah
Referensi keluaran utama
Pertanyaan yang sering diajukan (FAQ)
Mendukung
Di Windows , unduh penginstal .exe dan jalankan. Pastikan untuk tidak menjalankan penginstal dari drive jaringan. Disarankan untuk menginstal DIA-NN ke folder default yang disarankan oleh penginstal. Alternatifnya, cukup ekstrak arsip .binaries.zip ke lokasi pilihan Anda.
Di Linux , unduh dan ekstrak file .Linux.zip. DIA-NN versi Linux dibuat di Linux Mint 21.2, dan sistem target harus memiliki perpustakaan standar yang setidaknya terbaru. Namun, tidak ada persyaratan seperti itu jika Anda membuat image container Docker atau Apptainer/Singularity. Untuk menghasilkan container mana pun, kami sarankan untuk memulai dengan image buruh pelabuhan debian terbaru - dalam hal ini Anda hanya perlu menginstal sudo apt install libgomp1
sebelum Anda dapat menjalankan DIA-NN di dalamnya. Silakan lihat juga panduan terperinci yang luar biasa oleh Roger Olivella. Untuk performa terbaik, gunakan mimalloc dengan penggantian dinamis seperti yang dijelaskan di sini https://github.com/microsoft/mimalloc.
DIA-NN juga dapat dijalankan di Linux menggunakan Wine 6.8 atau lebih baru.
Data spektrometri massa DIA dapat dianalisis dengan dua cara: dengan mencari berdasarkan database urutan (mode bebas perpustakaan), atau dengan menggunakan "perpustakaan spektral" - sekumpulan spektrum dan waktu retensi yang diketahui untuk peptida terpilih. Kami membahas secara rinci kapan harus menggunakan masing-masing pendekatan ini di bagian pencarian bebas perpustakaan. Untuk kedua jenis analisis tersebut, penggunaan DIA-NN sangat sederhana:
Nah, informasi di atas sudah cukup bagi seseorang untuk mulai menggunakan DIA-NN, memang semudah ini! Dokumentasi lainnya mungkin berguna, namun tidak penting untuk 99% proyek.
Di atas adalah cara menjalankan DIA-NN dengan pengaturan default, dan ini menghasilkan performa optimal atau hampir optimal untuk sebagian besar eksperimen. Namun dalam beberapa kasus, lebih baik menyesuaikan pengaturan, lihat Mengubah pengaturan default untuk rincian lebih lanjut.
DIA-NN juga menawarkan opsi penyetelan canggih untuk eksperimen mewah. DIA-NN diimplementasikan sebagai antarmuka grafis yang ramah pengguna yang secara otomatis memanggil alat baris perintah. Namun pengguna juga dapat meneruskan opsi/perintah ke alat baris perintah secara langsung, melalui kotak teks Opsi tambahan di antarmuka. Semua opsi ini dimulai dengan tanda hubung ganda -- diikuti dengan nama opsi dan, jika berlaku, beberapa parameter yang akan disetel. Jadi jika Anda melihat beberapa opsi/perintah dengan -- pada namanya disebutkan dalam Dokumentasi ini, berarti perintah ini dimaksudkan untuk diketik di kotak teks Opsi tambahan .
Format yang didukung: Sciex .wiff, Bruker .d, Thermo .raw, .mzML dan .dia (format yang digunakan oleh DIA-NN untuk menyimpan spektrum). Konversi dari format apa pun yang didukung ke .dia dimungkinkan. Saat dijalankan di Linux (build asli, bukan Wine), hanya data .d, .mzML, dan .dia yang didukung.
Untuk dukungan .wiff, unduh dan instal ProteoWizard - pilih versi (64-bit) yang mendukung "file vendor"). Kemudian salin semua file dengan nama 'Clearcore' atau 'Sciex' (ini akan menjadi file .dll) dari folder ProteoWizard ke folder instalasi DIA-NN (yang berisi diann.exe, DIA-NN.exe dan a sekumpulan file lain).
Membaca file Thermo .raw memerlukan instalasi Thermo MS File Reader. Penting untuk menggunakan versi khusus pada tautan di atas (3.0 SP3).
File .mzML harus dipusatkan dan berisi data sebagai spektrum (misalnya SWATH/DIA) dan bukan kromatogram.
Banyak format spesifikasi massal, termasuk beberapa format yang tidak didukung langsung oleh DIA-NN, dapat dikonversi ke .mzML menggunakan aplikasi MSConvertGUI dari ProteoWizard. Ini berfungsi untuk semua format yang didukung kecuali Bruker .d dan SCIEX Scanning SWATH - ini perlu diakses oleh DIA-NN secara langsung. Pengaturan MSConvert berikut harus digunakan untuk konversi:
DIA-NN mendukung tabel yang dipisahkan koma (.csv), dipisahkan tab (.tsv, .xls atau .txt) atau .parquet sebagai pustaka spektral, serta .speclib (format ringkas yang digunakan oleh DIA-NN), .sptxt File perpustakaan (SpectraST, eksperimental) dan .msp (NIST, eksperimental). Penting: perpustakaan tidak boleh mengandung ion prekursor yang tidak terfragmentasi sebagai 'fragmen': setiap ion fragmen harus benar-benar diproduksi oleh fragmentasi tulang punggung peptida.
Perpustakaan dalam format PeakView serta perpustakaan yang diproduksi oleh FragPipe, TargetedFileConverter (bagian dari OpenMS), diekspor dari Spectronaut (Biognosys) dalam format .xls atau dihasilkan oleh DIA-NN sendiri didukung “sebagaimana adanya”.
Untuk pustaka .tsv/.xls/.txt yang dihasilkan dengan cara lain, DIA-NN mungkin memerlukan nama header untuk ditentukan (dipisahkan dengan koma) (untuk kolom yang diperlukan) menggunakan perintah --library-headers. Gunakan simbol * sebagai pengganti nama header agar pengenalannya tetap otomatis. Lihat di bawah deskripsi masing-masing kolom (dalam urutan header harus ditentukan).
Kolom yang wajib diisi:
Sangat disarankan agar kolom yang berisi hal berikut juga ada di perpustakaan:
Misalnya, perintah --library-headers yang menentukan semua nama kolom kecuali kolom 'Umpan' akan terlihat seperti ini:
--library-headers ModifiedPeptide,PrecursorCharge,PrecursorMz,Tr_recalibrated,ProductMz,LibraryIntensity,UniprotID,ProteinName,Genes,Proteotypic,*,FragmentCharge,FragmentType,FragmentSeriesNumber,FragmentLossType,QValue,ExcludeFromAssay,IonMobility
Gunakan --sptxt-acc untuk menyetel akurasi massa pemfilteran fragmen (dalam ppm) saat membaca pustaka .sptxt/.msp.
MaxQuant msms.txt juga dapat digunakan (eksperimental) sebagai perpustakaan spektral di DIA-NN, meskipun modifikasi yang diperbaiki mungkin tidak terbaca dengan benar.
DIA-NN dapat mengonversi perpustakaan apa pun yang didukungnya ke dalam format .parquetnya sendiri. Untuk melakukan ini, klik Perpustakaan spektral ( Panel input ), pilih perpustakaan yang ingin Anda konversi, pilih nama file perpustakaan Output ( Panel output ), klik Jalankan . Jika Anda menggunakan format pustaka eksotik, sebaiknya konversikan ke .parquet DIA-NN lalu periksa pustaka yang dihasilkan (menggunakan paket R 'arrow' atau Python 'pyarrow') untuk melihat apakah isinya masuk akal.
Semua pustaka .tsv/.xls/.txt/.csv/.parquet hanyalah tabel sederhana dengan data yang dapat dibaca manusia, dan dapat dieksplorasi/diedit, jika perlu, menggunakan Excel atau (idealnya) R/Python.
Yang penting, ketika perpustakaan mana pun dikonversi ke format berbeda, semua angka dapat dibulatkan menggunakan presisi desimal tertentu, artinya angka tersebut mungkin tidak sama persis dengan perpustakaan aslinya (mungkin ada sedikit perbedaan). Jadi, meskipun performa saat menganalisis menggunakan perpustakaan yang dikonversi akan sebanding, hasilnya tidak akan sama persis.
Panel Output memungkinkan untuk menentukan di mana output harus disimpan serta nama file untuk laporan output utama dan (opsional) perpustakaan spektral output. DIA-NN menggunakan nama file ini untuk mendapatkan nama semua file keluarannya. Di bawah ini kita dapat menemukan informasi tentang berbagai jenis keluaran DIA-NN. Untuk sebagian besar alur kerja, seseorang hanya memerlukan laporan utama (untuk analisis dalam R atau Python - disarankan) atau matriks (keluaran yang disederhanakan untuk MS Excel). Ketika pembuatan matriks keluaran diaktifkan, DIA-NN juga menghasilkan file .manifest.txt dengan deskripsi singkat tentang file keluaran yang dihasilkan.
Tabel teks yang berisi ID prekursor dan protein, serta banyak informasi terkait. Sebagian besar nama kolom sudah cukup jelas, dan referensi lengkap dapat ditemukan di Referensi keluaran utama. Kata kunci berikut digunakan saat memberi nama kolom:
Catatan: sejak versi 1.9, DIA-NN menghasilkan laporan dalam format Apache .parquet. Ini adalah format tabel teks terkompresi (~pengurangan ukuran 10x) yang dapat dimuat dalam satu baris kode menggunakan paket R 'arrow' atau paket Python 'pyarrow'. Sebagian besar fungsi baru (diperkenalkan di DIA-NN 1.9) hanya tercermin dalam laporan parket, jadi disarankan untuk menggunakannya daripada laporan .tsv lama dalam semua kasus, sedangkan laporan .tsv masih dibuat hanya untuk kompatibilitas dengan alur kerja analisis lama. Pembuatan laporan .tsv lama dapat dimatikan dengan --no-main-report. Selain menggunakan R atau Python, Anda juga dapat melihat file .parquet dengan TAD Viewer.
Ini berisi jumlah MaxLFQ yang dinormalisasi untuk kelompok protein ('pg_matrix'), kelompok gen ('gg_matrix'), gen unik ('unique_genes_matrix'; yaitu gen yang diidentifikasi dan diukur hanya dengan menggunakan proteotipik, yaitu peptida khusus gen) serta dinormalisasi jumlah untuk prekursor ('pr_matrix'). Mereka disaring pada FDR 1%, menggunakan nilai q global untuk kelompok protein dan nilai q global dan spesifik proses untuk prekursor. Filter FDR tingkat protein khusus proses tambahan 5% diterapkan pada matriks protein, gunakan --matrix-spec-q untuk menyesuaikannya. Terkadang DIA-NN akan melaporkan angka nol sebagai perkiraan terbaik untuk kuantitas prekursor atau protein. Jumlah nol tersebut dihilangkan dari matriks protein/gen. Matriks kuantifikasi fosfosit khusus (fosfosit_90 dan fosfosit_99 .tsv) dihasilkan ketika fosforilasi (UniMod:21) dideklarasikan sebagai modifikasi variabel, lihat PTM dan peptidoform.
File .protein_description.tsv dihasilkan bersama dengan Matriks dan berisi informasi protein dasar yang diketahui DIA-NN (ID urutan, nama, nama gen, deskripsi, urutan). Versi DIA-NN yang akan datang akan mencakup lebih banyak informasi, misalnya berat molekul protein.
Berisi sejumlah metrik QC yang dapat digunakan untuk pemfilteran data, misalnya untuk mengecualikan proses yang gagal atau sebagai pembacaan untuk optimasi metode. Perhatikan bahwa jumlah protein yang dilaporkan di sini sesuai dengan jumlah protein unik (yaitu diidentifikasi dengan prekursor proteotipik) dalam jangka waktu tertentu pada nilai q protein unik 1%. Jumlah ini dapat direproduksi dari laporan utama yang dihasilkan menggunakan ambang batas FDR prekursor sebesar 100% dan disaring menggunakan Protein.Q.Value <= 0,01 & Proteotypic == 1. Yang dihitung sebagai 'protein' di sini bergantung pada setelan 'Inferensi protein'.
Visualisasi sejumlah metrik QC, berdasarkan laporan utama serta laporan statistik. Laporan PDF harus digunakan hanya untuk penilaian awal data secara cepat dan tidak boleh digunakan dalam publikasi.
Panel Output memungkinkan untuk mengontrol cara menangani 'file .quant'. Sekarang, untuk menjelaskan hal ini, mari kita pertimbangkan bagaimana DIA-NN memproses data mentah. Pertama-tama, ia melakukan bagian pemrosesan yang menuntut komputasi secara terpisah untuk setiap proses individu dalam eksperimen, dan menyimpan identifikasi dan informasi kuantitatif ke file .quant terpisah. Setelah semua proses diproses, ia mengumpulkan informasi dari semua file .quant dan melakukan beberapa langkah lintas proses, seperti penghitungan nilai q global, inferensi protein, penghitungan kuantitas akhir, dan normalisasi. Hal ini memungkinkan DIA-NN digunakan dengan cara yang sangat fleksibel. Misalnya, Anda dapat menghentikan pemrosesan kapan saja, lalu melanjutkan pemrosesan dimulai dari proses yang Anda hentikan. Atau Anda dapat menghapus beberapa proses dari eksperimen, menambahkan beberapa proses tambahan, dan menjalankan kembali analisis dengan cepat, tanpa perlu mengulangi analisis proses yang sudah diproses. Semua ini diaktifkan oleh opsi Gunakan file .quant yang ada bila tersedia . File .quant disimpan ke/dibaca dari direktori Temp/.dia (atau lokasi yang sama dengan file mentah, jika tidak ada folder temp yang ditentukan). Saat menggunakan opsi ini, pengguna harus memastikan bahwa file .quant telah dibuat dengan pengaturan yang sama persis seperti yang diterapkan dalam analisis saat ini, dengan pengecualian Prekursor FDR (asalkan <= 5%), Threads , Log level , MBR , Normalisasi lintas-jalan dan Pembuatan perpustakaan - pengaturan ini bisa berbeda. Bahkan dimungkinkan untuk mentransfer file .quant ke komputer lain dan menggunakannya kembali di sana - tanpa mentransfer file mentah asli. Penting: sangat disarankan untuk hanya menggunakan kembali file .quant ketika akurasi massal dan jendela pemindaian ditetapkan ke beberapa nilai (bukan nol), jika tidak, DIA-NN akan melakukan pengoptimalan lagi menggunakan proses pertama yang menggunakan file .quant. file kuantitas belum ditemukan. Selanjutnya, ketika menggunakan MBR atau membuat perpustakaan spektral dari data DIA dengan pembuatan Perpustakaan diatur ke profil cerdas atau penuh, file .quant hanya boleh digunakan kembali jika dibuat dalam urutan yang persis sama dengan urutan file mentah saat ini, yaitu dengan MBR DIA-NN saat ini tidak dapat menggabungkan beberapa analisis terpisah menjadi satu.
Catatan: laporan utama dalam format .parquet memberikan informasi keluaran lengkap untuk segala jenis pemrosesan hilir. Semua jenis keluaran lainnya tersedia untuk menyederhanakan analisis saat menggunakan MS Excel atau perangkat lunak serupa. Jumlah prekursor dan protein yang dilaporkan dalam berbagai jenis file keluaran mungkin tampak berbeda karena perbedaan pemfilteran yang digunakan untuk menghasilkannya, silakan lihat uraian di atas. Semua 'matriks' dapat direproduksi dari laporan .parquet utama, jika dibuat dengan FDR prekursor yang disetel ke 5%, menggunakan R atau Python.
DIA-NN memiliki modul bebas perpustakaan yang sangat canggih, yang, untuk jenis eksperimen tertentu, lebih baik daripada menggunakan perpustakaan spektral khusus proyek berkualitas tinggi. Secara umum, hal berikut membuat pencarian tanpa perpustakaan berperforma lebih baik dibandingkan dengan perpustakaan spektral (sementara hal sebaliknya lebih menguntungkan perpustakaan spektral):
Harap dicatat bahwa dalam 99% kasus, MBR harus diaktifkan untuk analisis kuantitatif tanpa perpustakaan. Ini diaktifkan secara default saat menggunakan GUI DIA-NN.
Untuk sebagian besar eksperimen, memang masuk akal untuk mencoba penelusuran tanpa perpustakaan. Untuk eksperimen skala menengah dan besar, mungkin masuk akal untuk terlebih dahulu mencoba analisis subkumpulan data tanpa perpustakaan, untuk melihat apakah kinerjanya baik-baik saja (pada keseluruhan kumpulan data biasanya akan jauh lebih baik, jadi tidak perlu terlalu banyak terlalu ketat di sini). Kami sendiri juga sering melakukan penilaian QC awal secara cepat terhadap eksperimen menggunakan beberapa perpustakaan umum.
Seringkali lebih mudah untuk melakukan analisis tanpa perpustakaan dalam dua langkah: dengan terlebih dahulu membuat perpustakaan spektral yang diprediksi secara in silico dari database urutan dan kemudian menganalisis dengan perpustakaan ini. Ini adalah strategi yang harus digunakan dalam semua kasus kecuali untuk analisis awal yang cepat. Perhatikan bahwa fungsionalitas saluran di DIA-NN memungkinkan penjadwalan rangkaian tugas dengan mudah, seperti pembuatan pustaka prediksi diikuti dengan beberapa analisis menggunakan pustaka ini.
Perhatikan bahwa semakin besar ruang pencarian (jumlah total prekursor yang dipertimbangkan), semakin sulit perangkat lunak analisis untuk mengidentifikasi peptida, dan semakin lama waktu yang dibutuhkan untuk pencarian. DIA-NN sangat baik dalam menangani ruang pencarian yang sangat besar, namun bahkan DIA-NN tidak dapat melakukan keajaiban dan memberikan hasil sebaik dengan 100 juta ruang pencarian, dibandingkan dengan 2 juta ruang pencarian. Jadi kita perlu berhati-hati dalam mengaktifkan semua kemungkinan modifikasi variabel sekaligus. Misalnya, mengizinkan maksimal 5 modifikasi variabel, sambil mengaktifkan oksidasi metionin, fosfo, dan deamidasi secara bersamaan, mungkin bukan ide yang baik.
Di sinilah letak perbedaan penting antara analisis data DIA dan DDA. Dalam DDA, mengizinkan semua kemungkinan modifikasi variabel juga sangat masuk akal karena mesin pencari perlu mencocokkan spektrum dengan sesuatu - dan jika spektrum tersebut tidak cocok dengan peptida termodifikasi yang benar, maka spektrum tersebut akan salah dicocokkan. Dalam DIA, pendekatannya berbeda secara mendasar: spektrum yang paling cocok ditemukan dalam data untuk setiap ion prekursor yang dipertimbangkan (ini adalah pandangan yang sangat disederhanakan hanya untuk mengilustrasikan konsepnya). Jadi ketidakmampuan untuk mengidentifikasi spektrum tertentu tidak pernah menjadi masalah dalam DIA (pada kenyataannya sebagian besar spektrum sangat termultipleks dalam DIA - yang berasal dari banyak peptida - dan hanya sebagian kecil dari spektrum tersebut yang dapat diidentifikasi). Oleh karena itu, masuk akal untuk mengaktifkan modifikasi variabel tertentu jika Anda tertarik secara khusus atau jika modifikasi tersebut benar-benar ada di mana-mana.
Lihat PTM dan peptidoform untuk informasi tentang membedakan antara peptidoform yang memiliki serangkaian modifikasi berbeda.
DIA-NN dapat membuat perpustakaan spektral dari kumpulan data DIA mana pun. Hal ini dapat dilakukan dalam mode berbasis perpustakaan spektral dan mode bebas perpustakaan: cukup pilih opsi Hasilkan perpustakaan spektral di panel keluaran.
DIA-NN selanjutnya dapat membuat perpustakaan spektral yang diprediksi secara in silico dari database urutan (pastikan intisari FASTA diaktifkan) atau perpustakaan spektral lain (seringkali berguna untuk perpustakaan umum): jalankan saja DIA-NN tanpa menentukan file mentah apa pun dan aktifkan opsi prediksi spektrum, RT, dan IM berbasis pembelajaran mendalam di panel Pembuatan ion prekursor . Modifikasi yang saat ini didukung oleh prediktor pembelajaran mendalam adalah: C(cam), M(ox), N-term acetyl, N/Q(dea), S/T/Y(phos), K(-GG), nK( mTRAQ) dan nK(TMT). Perlu diperhatikan, jika modul prediktor di DIA-NN tidak mengenali beberapa modifikasi, modul tersebut akan tetap melakukan prediksi hanya dengan mengabaikannya. Untuk membuat DIA-NN membuang peptida apa pun dengan modifikasi yang tidak diketahui prediktornya, gunakan --skip-unknown-mods.
Perpustakaan spektral juga dapat dibuat dari data DDA, dan faktanya fraksinasi offline + DDA telah menjadi cara 'standar emas' untuk membuat perpustakaan sejak diperkenalkannya proteomik SWATH/DIA. Untuk ini kami merekomendasikan penggunaan FragPipe, yang didasarkan pada mesin pencari MSFragger yang sangat cepat dan sangat tangguh. FragPipe selanjutnya dapat digunakan untuk membuat perpustakaan yang kompatibel dengan DIA-NN juga dari data DIA, mirip dengan DIA-NN itu sendiri.
MBR adalah mode canggih di DIA-NN, yang bermanfaat untuk sebagian besar eksperimen kuantitatif, baik dengan perpustakaan spektral maupun dalam mode bebas perpustakaan. MBR biasanya menghasilkan angka ID rata-rata yang lebih tinggi, namun juga kelengkapan data yang jauh lebih baik, yaitu nilai yang hilang jauh lebih sedikit.
Saat memproses kumpulan data apa pun, DIA-NN mengumpulkan banyak informasi berguna yang dapat digunakan untuk memproses data dengan lebih baik. Dan itulah yang diaktifkan oleh MBR. Dengan MBR, DIA-NN pertama-tama membuat perpustakaan spektral dari data DIA, lalu memproses ulang kumpulan data yang sama dengan perpustakaan spektral ini. Inovasi algoritmik yang diterapkan di DIA-NN memastikan bahwa FDR dikontrol secara ketat: MBR telah divalidasi pada kumpulan data mulai dari 2 proses hingga lebih dari 1000 proses.
MBR harus diaktifkan untuk eksperimen kuantitatif apa pun, kecuali Anda memiliki perpustakaan spektral khusus proyek yang berkualitas sangat tinggi, yang menurut Anda (i) kemungkinan besar menyediakan cakupan peptida yang dapat dideteksi hampir lengkap, sehingga tidak ada gunanya mencoba tanpa perpustakaan cari + MBR, dan (ii) sebagian besar peptida di perpustakaan sebenarnya dapat dideteksi dalam percobaan DIA. Jika hanya (i) yang benar, mungkin ada baiknya tetap mencoba MBR bersama dengan Library generation yang disetel ke IDs profiling .
MBR tidak boleh digunakan untuk eksperimen non-kuantitatif, yaitu saat Anda hanya ingin membuat perpustakaan spektral, yang kemudian akan Anda gunakan pada beberapa kumpulan data lainnya.
Seseorang dapat 'meniru' MBR secara manual menggunakan pendekatan dua langkah yang akan menghasilkan kinerja yang sebanding. Pertama, jalankan DIA-NN untuk membuat perpustakaan spektral dari proses DIA (seluruh eksperimen atau hanya subsetnya, yang bisa jauh lebih cepat untuk eksperimen skala besar atau eksperimen termasuk proses kosong/gagal). Kemudian gunakan perpustakaan ini untuk menganalisis keseluruhan eksperimen. Apa pun kasusnya, jalankan DIA-NN dengan MBR dinonaktifkan.
Saat menggunakan MBR (atau tiruannya) dan mengandalkan laporan .parquet utama (disarankan) alih-alih matriks kuantitatif, gunakan filter nilai q berikut:
DIA-NN berhasil digunakan untuk memproses hampir semua eksperimen dengan pengaturan default. Secara umum, disarankan untuk hanya mengubah pengaturan bila secara khusus disarankan untuk melakukannya dalam Dokumentasi ini (seperti di bawah), untuk jenis eksperimen tertentu, atau jika ada alasan yang sangat jelas dan meyakinkan untuk perubahan tersebut.
Dalam banyak kasus, seseorang mungkin ingin mengubah beberapa parameter di panel Algoritma .
Silakan lihat juga panduan tentang penelusuran bebas perpustakaan, PTM dan peptidoform, serta Multiplexing menggunakan plexDIA, jika ini relevan dengan eksperimen Anda.
Perhatikan bahwa setelah Anda memilih opsi tertentu di GUI DIA-NN, beberapa pengaturan lain mungkin diaktifkan secara otomatis. Misalnya, setiap kali Anda memilih untuk melakukan intisari basis data FASTA in silico (untuk pencarian tanpa perpustakaan), atau hanya membuat perpustakaan spektral dari data DIA, MBR juga akan dipilih secara otomatis - karena dalam 99% kasus ini bermanfaat.
DIA-NN diimplementasikan sebagai antarmuka pengguna grafis (GUI), yang menggunakan alat baris perintah (diann.exe). Alat baris perintah juga dapat digunakan secara terpisah, misalnya sebagai bagian dari jalur pemrosesan otomatis khusus. Lebih jauh lagi, bahkan ketika menggunakan GUI, seseorang dapat meneruskan opsi/perintah ke alat baris perintah, di kotak teks Opsi tambahan . Beberapa opsi berguna tersebut disebutkan dalam Dokumentasi ini, dan referensi lengkapnya disediakan dalam Referensi baris perintah.
Ketika GUI meluncurkan alat baris perintah, ia mencetak di jendela log serangkaian perintah yang digunakan. Jadi untuk mereproduksi perilaku yang diamati ketika menggunakan GUI (misalnya jika Anda ingin melakukan analisis pada cluster Linux), seseorang dapat meneruskan perintah yang sama persis ke alat baris perintah secara langsung.
diann.exe [commands]
Perintah diproses sesuai urutan pemberiannya, dan pada sebagian besar perintah, urutan ini dapat berubah-ubah.
Di Linux, titik koma ';' karakter diperlakukan sebagai pemisah perintah, oleh karena itu ';' sebagai bagian dari perintah DIA-NN (misalnya --channels) perlu diganti dengan ';' di Linux untuk perilaku yang benar.
Untuk kenyamanan, serta untuk menangani eksperimen yang terdiri dari ribuan file, beberapa opsi/perintah dapat disimpan dalam file konfigurasi. Untuk melakukannya, buat file teks dengan ekstensi apa pun, misalnya, diann_config.cfg, ketikkan perintah apa pun yang didukung oleh DIA-NN di sana, lalu referensikan file ini dengan --cfg diann_config.cfg (di kotak teks Opsi tambahan atau di perintah yang digunakan untuk menjalankan alat baris perintah diann.exe).
DIA-NN menyediakan dua opsi visualisasi.
cakrawala . Untuk memvisualisasikan kromatogram/spektra di Skyline, analisis eksperimen Anda dengan MBR dan database FASTA yang ditentukan, lalu klik tombol 'Skyline'. DIA-NN akan secara otomatis meluncurkan Skyline (pastikan Anda menginstal Skyline/Skyline versi harian 23.1.1.459 atau lebih baru sebagai 'Instalasi Administrator'). Saat ini alur kerja ini tidak mendukung multiplexing dan tidak akan bekerja dengan modifikasi dalam format apa pun selain UniMod.
Penampil DIA-NN . Analisis eksperimen Anda dengan mencentang kotak "XICs" dan klik tombol 'Penampil'. Secara default opsi "XICS" akan membuat kromatogram ekstrak dia-NN hanya untuk ion fragmen perpustakaan dan dalam 10-an dari puncak elusi. Gunakan --SIC [n] untuk mengatur jendela waktu retensi ke n detik (misalnya-yang beracun 60 akan mengekstrak kromatogram dalam satu menit dari apeks) dan --sic-teoretis-Frr untuk mengekstrak semua muatan 1 dan 2 y/b -Seri fragmen, termasuk yang memiliki kerugian netral yang sama. Perhatikan bahwa menggunakan --Sxic-Theoretic-Frr, terutama dalam kombinasi dengan jendela waktu retensi yang besar, mungkin memerlukan sejumlah besar ruang disk di folder output. Namun visualisasi itu sendiri secara efektif seketika, untuk ukuran percobaan apa pun.
CATATAN : Kromatogram yang diekstraksi dengan "XICS" disimpan dalam format Apache. Parquet (nama file diakhiri dengan '.sxic.parquet') dan dapat dengan mudah diakses menggunakan R atau Python. Ini kadang-kadang bisa lebih mudah untuk menyiapkan angka yang siap publikasi (walaupun dapat melakukannya dengan skyline atau pemirsa dia-NN juga), atau bahkan untuk mengatur kontrol kualitas kustom otomatis untuk kinerja LC-MS.
Posisi peptida & modifikasi dalam protein dapat divisualisasikan menggunakan Alphamap oleh Mann Lab https://github.com/mannlabs/alphamap.
Jendela pipa di dalam DIA-NN GUI memungkinkan untuk menggabungkan beberapa langkah analisis ke dalam pipa. Setiap langkah pipa adalah satu set pengaturan seperti yang ditampilkan oleh GUI. Seseorang dapat menambahkan langkah-langkah tersebut ke dalam pipa, memperbarui langkah yang ada, menghapus langkah-langkah, memindahkan langkah-langkah ke atas/ke bawah dalam pipa, menonaktifkan/mengaktifkan (dengan mouse ganda-klik) langkah-langkah tertentu dalam pipa dan menyimpan/memuat pipa. Lebih lanjut, langkah-langkah pipa individual dapat disalin-di-los antara berbagai tab/windows GUI (gunakan tombol salin dan paste untuk ini). Kami selalu merakit semua run dia-nn untuk publikasi tertentu dalam pipa. Seseorang juga dapat menggunakan jaringan pipa dia-NN untuk menyimpan templat konfigurasi.
DIA-NN GUI memiliki fitur alur kerja bawaan (panel generasi ion prekursor ) untuk mendeteksi oksidasi metionin, asetilasi protein N-terminal, fosforilasi dan ubiquitination (melalui deteksi adducts -GG Remnant pada lisin). Modifikasi lain dapat dinyatakan menggunakan --Var-Mod atau--Fixed-Mod dalam opsi tambahan .
Membedakan antara peptidoform yang membawa set modifikasi yang berbeda adalah masalah non-sepele di DIA: tanpa peptidoform khusus mencetak peptidoform FDR yang efektif dapat berada dalam kisaran 5-10% untuk analisis bebas perpustakaan. DIA-NN mengimplementasikan pendekatan target-decoy statistik untuk penilaian peptidoform, yang diaktifkan oleh opsi peptidoform (panel algoritma ) dan juga diaktifkan secara otomatis setiap kali modifikasi variabel dinyatakan, melalui pengaturan GUI atau perintah -var-mod. Nilai-q peptidoform yang dihasilkan mencerminkan kepercayaan Dia-NN pada kebenaran himpunan modifikasi yang dilaporkan untuk peptida serta kebenaran urutan asam amino yang diidentifikasi. Nilai-Q ini, bagaimanapun, tidak menjamin tidak adanya pergeseran massa rendah karena beberapa substitusi asam amino atau modifikasi seperti deamidasi (perhatikan bahwa DDA juga tidak menjamin ini).
Lebih lanjut, DIA-NN menampilkan algoritma yang melaporkan estimasi kepercayaan lokalisasi PTM (sebagai probabilitas posterior untuk lokalisasi yang benar dari semua situs PTM variabel pada peptida serta skor untuk masing-masing situs), termasuk dalam laporan output .parquet. File phosphosites_90 dan phosphosites_99 .tsv mengandung jumlah fosfosit-spesifik, dihitung menggunakan metode 1 teratas (eksperimental), yaitu intensitas tertinggi di antara prekursor dengan situs yang dilokalisasi dengan kepercayaan yang ditentukan (0,9 atau 0,99, masing-masing) digunakan sebagai fosfosited kuantitas dalam menjalankan yang diberikan. Algoritma 'Top 1' digunakan di sini karena kemungkinan paling kuat terhadap outlier dan kesalahan kesalahan. Namun, apakah ini memang pilihan terbaik untuk diselidiki atau tidak, yang saat ini menantang karena kurangnya tolok ukur dengan kebenaran dasar yang diketahui.
Secara umum, saat mencari PTM, kami merekomendasikan yang berikut:
Esensial: Modifikasi variabel yang Anda cari harus ditentukan sebagai variabel (melalui kotak centang GUI atau opsi tambahan ) baik ketika menghasilkan perpustakaan yang diprediksi silico dan juga saat menganalisis data mentah menggunakan perpustakaan yang diprediksi atau empiris apa pun
Pengaturan untuk fosforilasi: Modifikasi variabel maks 3, pembelahan maks 1 yang terlewatkan, fosforilasi adalah satu-satunya modifikasi variabel yang ditentukan, kisaran muatan prekursor 2-3; Untuk mengurangi penggunaan RAM, pastikan bahwa rentang massa prekursor yang ditentukan (ketika menghasilkan pustaka yang diprediksi) tidak lebih lebar dari rentang massa prekursor yang dipilih untuk MS/MS dengan metode DIA; Untuk mempercepat pemrosesan saat menggunakan pustaka yang diprediksi, pertama-tama menghasilkan perpustakaan berbasis DIA dari subset berjalan (misalnya 10+ menjalankan terbaik) dan kemudian menganalisis seluruh dataset menggunakan pustaka berbasis DIA ini dengan MBR dinonaktifkan
Saat hal di atas berhasil, coba juga belahan dada maks 2 yang terlewat
Saat mencari PTM selain fosforilasi, dalam 95% kasus terbaik untuk menggunakan modifikasi variabel maks 1 hingga 3 dan pembelahan maks 1 yang terlewatkan
Ketika tidak mencari PTM, yaitu ketika tujuannya adalah kuantifikasi protein relatif, memungkinkan modifikasi variabel biasanya tidak menghasilkan kedalaman proteomik yang lebih tinggi. Meskipun biasanya tidak ada salahnya, itu akan membuat pemrosesan lebih lambat.
Sepengetahuan kami, tidak ada validasi yang dipublikasikan dari kepercayaan identifikasi untuk mendeteksi peptida yang deamidasi (yang mudah dibingungkan pada isotopolog yang lebih berat, kecuali spesifikasi massa memiliki resolusi yang sangat tinggi dan akurasi massa/pengaturan toleransi yang ketat adalah Digunakan oleh mesin pencari), bahkan untuk DDA. Salah satu cara untuk mendapatkan kepercayaan dalam identifikasi peptida deamidasi adalah dengan memeriksa apakah ada yang diidentifikasi jika delta massa untuk deamidasi dinyatakan sebagai 1.022694, alih -alih nilai yang benar 0.984016. DIA-NN tidak berhasil lulus tes ini pada beberapa set data (yang tidak ada ID yang dilaporkan ketika menentukan 'massa modifikasi umpan' ini), tetapi kami merekomendasikan juga mencoba pencarian 'massa modifikasi massa' pada beberapa berjalan dari percobaan yang akan dianalisis , jika mencari peptida deamidasi. Dalam setiap kasus (massa yang benar atau umpan), --PTM-QVALUES harus digunakan untuk memungkinkan penilaian khusus PTM untuk deamidasi, selain penilaian peptidoform, dan baik PTM.Q.Value atau Global.Q.Value/Lib. Q.value digunakan untuk penyaringan.
Dari catatan, ketika tujuan utamanya adalah identifikasi protein, sebagian besar tidak relevan jika peptida yang dimodifikasi salah diidentifikasi, dengan dicocokkan dengan spektrum yang berasal dari peptidoform yang berbeda. Oleh karena itu, jika tujuan percobaan adalah untuk mengidentifikasi/mengukur PTM spesifik, substitusi asam amino atau membedakan protein dengan identitas urutan tinggi, maka opsi penilaian peptidoforms dianjurkan. Dalam semua kasus lain penilaian peptidoform biasanya OK untuk digunakan tetapi tidak perlu, dan biasanya akan menyebabkan pemrosesan yang agak lebih lambat dan sedikit penurunan angka identifikasi saat menggunakan MBR.
Secara umum, ya. Namun, sebagian besar alur kerja akan bekerja tanpa perlu mengenali modifikasi. Meskipun jika modifikasi yang tidak diketahui terdeteksi di perpustakaan, dia-NN akan mencetak peringatan yang mencantumkannya, dan sangat disarankan untuk menyatakan mereka menggunakan--Mod. Perhatikan bahwa DIA-NN sudah mengenali banyak modifikasi umum dan juga dapat memuat seluruh database Unimod, lihat opsi --full-UNIMOD.
Bekerja sama dengan Laboratorium Slavov, kami telah mengembangkan Plexdia berdasarkan DIA-NN, sebuah teknologi yang memungkinkan untuk mendapatkan manfaat dari multiplexing non-isobarik (MtraQ, Dimethyl, Silac) dalam kombinasi dengan DIA. Untuk menganalisis percobaan Plexdia, seseorang membutuhkan perpustakaan spektral yang diprediksi atau empiris di silico. DIA-NN kemudian perlu dipasok dengan set perintah berikut, tergantung pada skenario analisis.
Skenario 1 . Perpustakaan adalah perpustakaan bebas label reguler (empiris atau prediksi), dan multiplexing dicapai murni dengan pelabelan isotop, yaitu tanpa pelabelan kimia dengan tag seperti mtraQ atau dimetil. Dia-NN kemudian membutuhkan opsi berikut untuk ditambahkan ke opsi tambahan :
Contoh untuk label L/H Silac pada K dan R:
--fixed-mod SILAC,0.0,KR,label
--lib-fixed-mod SILAC
--channels SILAC,L,KR,0:0; SILAC,H,KR,8.014199:10.008269
--original-mods
Perhatikan bahwa pada silac di atas dinyatakan sebagai label, yaitu tidak seharusnya mengubah waktu retensi peptida. Ini juga merupakan label nol-massa di sini, karena hanya berfungsi untuk menunjuk asam amino yang akan diberi label. Apa yang dilakukan kombinasi-fixed-mod dan-lib-fixed-Mod di sini hanyalah sedangkan (SILAC) setelah masing-masing K atau R dalam urutan ID prekursor, dalam representasi perpustakaan internal yang digunakan oleh dia-NN. --Channels kemudian membagi setiap entri perpustakaan menjadi dua, satu dengan massa 0 (k) dan 0 (r) ditambahkan pada setiap kemunculan k (silac) atau r (silac) dalam urutan, masing-masing, dan satu lagi dengan 8.014199 (k ) dan 10.008269 (r).
Skenario 2 . Perpustakaan adalah perpustakaan bebas label reguler (empiris atau prediksi), dan multiplexing dicapai melalui pelabelan kimia dengan MtraQ.
Skenario 2: Langkah 1. Beri label perpustakaan di silico dengan mtraQ dan jalankan prediktor pembelajaran mendalam untuk menyesuaikan spektrum/rts/ims. Untuk ini, jalankan dia-NN dengan pustaka input di bidang perpustakaan spektral , pustaka output yang ditentukan, spektrum berbasis pembelajaran mendalam, prediksi RTS dan IMS diaktifkan, daftar file data mentah kosong dan opsi berikut dalam opsi tambahan :
--fixed-mod mTRAQ,140.0949630177,nK
--lib-fixed-mod mTRAQ
--channels mTRAQ,0,nK,0:0; mTRAQ,4,nK,4.0070994:4.0070994;mTRAQ,8,nK,8.0141988132:8.0141988132
--original-mods
Gunakan file .predicted.speclib dengan nama yang sesuai dengan pustaka output sebagai pustaka spektral untuk langkah selanjutnya.
Skenario 2: Langkah 2. Jalankan Dia-NN dengan opsi berikut:
--fixed-mod mTRAQ,140.0949630177,nK
--channels mTRAQ,0,nK,0:0; mTRAQ,4,nK,4.0070994:4.0070994;mTRAQ,8,nK,8.0141988132:8.0141988132
--original-mods
Perhatikan bahwa--lib-fixed-Mod tidak lagi diperlukan karena perpustakaan yang dihasilkan pada Langkah 1 sudah berisi (MTRAQ) di N-terminus dan lisin masing-masing peptida.
Skenario 3 . Perpustakaan adalah perpustakaan bebas label reguler (empiris atau prediksi), dan multiplexing dicapai melalui pelabelan kimia dengan label selain MtraQ. Alasan skenario ini diperlakukan secara berbeda dari skenario 2 adalah bahwa prediktor DIA-NN di silico belum dilatih secara khusus untuk label selain MTRAQ, dan oleh karena itu langkah tambahan untuk menghasilkan prediksi tidak diperlukan. Cukup jalankan dia-nn seperti yang akan Anda lakukan dalam skenario 1, kecuali deklarasi-fixed-fix akan memiliki massa non-nol dalam kasus ini dan tidak akan menjadi label. Misalnya, untuk dimetil 5-saluran seperti yang dijelaskan oleh Thielert et al:
‐‐fixed‐mod Dimethyl, 28.0313, nK
--lib-fixed-mod Dimethyl
‐‐channels Dimethyl,0,nK,0:0; Dimethyl,2,nK,2.0126:2.0126; Dimethyl,4,nK,4.0251:4.0251; Dimethyl,6,nK,6.0377:6.0377; Dimethyl,8,nK,8.0444:8.0444
--original-mods
Skenario 4 . Perpustakaan adalah perpustakaan DIA empiris yang dihasilkan oleh dia-NN dari dataset DIA multipleks. Misalnya, ini bisa berupa perpustakaan yang dihasilkan oleh dia-NN pada lulus pertama MBR (dan Anda ingin menggunakannya kembali untuk menganalisis hal yang sama atau yang lain). Opsi tambahan kemudian akan sama dengan dalam skenario 1, skenario 2: Langkah 2 atau skenario 3, kecuali (penting!) --Lib-fix-Mod tidak boleh disediakan.
Dalam semua skenario di atas , opsi tambahan yang menentukan strategi normalisasi harus dimasukkan dalam opsi tambahan . Ini bisa berupa-channel-run-norm (berdenyut silac, turnover protein) atau -channel-spec-norm (multiplexing sampel independen).
Output . Kami merekomendasikan menggunakan laporan utama dalam format .parquet untuk semua analisis hilir. Perhatikan bahwa pg.q.value dan gg.q.value dalam laporan utama khusus saluran, saat menggunakan multiplexing. Kuantitas pg.maxlfq, genes.maxlfq dan genes.maxlfq.Unique hanya saluran spesifik jika (i) kuantum digunakan dan (ii) baik laporan sesuai dengan lintasan kedua MBR atau MBR tidak digunakan. Atau, seseorang dapat menggunakan matriks (tidak disarankan), ini hanya tingkat prekursor. Saat menggunakan matriks, penting untuk menentukan--matrix-ch-qValue, dengan ambang batas yang masuk akal 0,01 hingga 0,5. Pengaturan ini tidak akan mempengaruhi matriks MS1 yang diekstraksi, yang hanya melaporkan sinyal MS1 yang sesuai dengan setiap saluran, setiap kali prekursor diidentifikasi di salah satu saluran - menggunakan matriks ini biasanya tidak disarankan. Matriks protein tidak diproduksi saat menganalisis data multiplexed.
Panel Input
Panel Generasi Ion Prekursor
Output panel
Panel Algoritma
Perhatikan bahwa beberapa opsi di bawah ini sangat merugikan kinerja dan hanya ada untuk tujuan pembandingan. Jadi rekomendasinya adalah hanya menggunakan opsi yang diharapkan bermanfaat untuk percobaan tertentu (misalnya yang direkomendasikan dalam dokumentasi ini) berdasarkan beberapa alasan yang jelas.