DIA-NN - une suite logicielle universelle pour le traitement des données protéomiques par acquisition indépendante des données (DIA). Conçu à l'Université de Cambridge, au Royaume-Uni, dans le laboratoire de Kathryn Lilley (Cambridge Center for Proteomics), DIA-NN a ouvert un nouveau chapitre en protéomique, en introduisant un certain nombre d'algorithmes qui ont permis des expériences à grande échelle fiables, robustes et quantitativement précises en utilisant méthodes à haut débit. DIA-NN est actuellement développé dans le laboratoire de Vadim Demichev à la Charité (Université de Médecine de Berlin, Allemagne).
DIA-NN est construit sur les principes suivants :
Téléchargement : https://github.com/vdemichev/DiaNN/releases/tag/1.9.2 (il est recommandé d'utiliser la dernière version - DIA-NN 1.9.2)
Merci de citer :
DIA-NN : réseaux de neurones et correction des interférences
permettre une couverture protéomique approfondie dans les méthodes naturelles à haut débit , 2020
Utilisation de DIA-NN pour l'analyse des modifications post-traduction (PTM), telles que la phosphorylation ou l'ubiquitination : le profilage de l'ubiquitinome in vivo résolu dans le temps par DIA-MS révèle des cibles USP7 à l'échelle du protéome Nature Communications, 2021
Utilisation du module de mobilité ionique de DIA-NN pour l'analyse des données timsTOF ou utilisation de DIA-NN en combinaison avec les bibliothèques spectrales générées par FragPipe : analyse de données dia-PASEF à l'aide de FragPipe et DIA-NN pour la protéomique profonde de faibles quantités d'échantillons Nature Communications, 2022
Utilisation de DIA-NN pour l'analyse d'échantillons multiplexés (SILAC, mTRAQ, etc.) : Augmentation du débit de la protéomique sensible par plexDIA Nature Biotechnology, 2022
Utilisation de DIA-NN dans le cadre du flux de travail CysQuant : CysQuant : Quantification simultanée de l'oxydation de la cystéine et de l'abondance des protéines à l'aide de la spectrométrie de masse à acquisition indépendante ou dépendante des données Redox Biology, 2023
Utilisation du module QuantUMS de DIA-NN pour la quantification : QuantUMS : la minimisation de l'incertitude permet une quantification fiable en protéomique biorxiv
Utilisation de DIA-NN pour traiter les données Slice-PASEF : Slice-PASEF : fragmentation de tous les ions pour une sensibilité maximale en protéomique biorxiv
Autres documents clés
Package R avec quelques fonctions utiles pour gérer les rapports de sortie de DIA-NN : https://github.com/vdemichev/diann-rpackage
Visualisation des positions des peptides dans la protéine : https://github.com/MannLabs/alphamap (AlphaMap by Mann lab)
Notes et discussions sur la protéomique en général et l'utilisation de DIA-NN : https://github.com/vdemichev/DiaNN/discussions/categories/dia-proteomics-in-detail (cette section sera développée davantage).
Installation
Commencer
Formats de données brutes
Formats de bibliothèque spectrale
Sortir
Recherche sans bibliothèque
Création de bibliothèques spectrales
Match entre les courses
Modification des paramètres par défaut
Outil de ligne de commande
Visualisation
Pipelines automatisés
PTM et peptidoformes
Multiplexage avec plexDIA
Référence des paramètres de l'interface graphique
Référence de ligne de commande
Référence de sortie principale
Questions fréquemment posées (FAQ)
Soutien
Sous Windows , téléchargez le programme d'installation .exe et exécutez-le. Assurez-vous de ne pas exécuter le programme d'installation à partir d'un lecteur réseau. Il est recommandé d'installer DIA-NN dans le dossier par défaut suggéré par le programme d'installation. Vous pouvez également décompresser simplement l'archive .binaries.zip dans un emplacement de votre choix.
Sous Linux , téléchargez et décompressez le fichier .Linux.zip. La version Linux de DIA-NN est générée sur Linux Mint 21.2, et le système cible doit disposer des bibliothèques standards au moins aussi récentes. Cependant, une telle exigence n'existe pas si vous créez une image de conteneur Docker ou Apptainer/Singularity. Pour générer l'un ou l'autre conteneur, nous vous recommandons de commencer avec la dernière image Docker Debian - dans ce cas, il vous suffit d'installer sudo apt install libgomp1
avant de pouvoir y exécuter DIA-NN. Veuillez également consulter l'excellent guide détaillé de Roger Olivella. Pour de meilleures performances, utilisez mimalloc avec remplacement dynamique comme décrit ici https://github.com/microsoft/mimalloc.
Il est également possible d'exécuter DIA-NN sous Linux en utilisant Wine 6.8 ou version ultérieure.
Les données de spectrométrie de masse DIA peuvent être analysées de deux manières : en recherchant dans une base de données de séquences (mode sans bibliothèque) ou en utilisant une « bibliothèque spectrale » - un ensemble de spectres et de temps de rétention connus pour les peptides sélectionnés. Nous discutons en détail du moment où utiliser chacune de ces approches dans la section Recherche sans bibliothèque. Pour les deux types d’analyses, l’utilisation de DIA-NN est très simple :
Maintenant, les informations ci-dessus sont suffisantes pour commencer à utiliser DIA-NN, c'est en effet aussi simple que cela ! Le reste de cette documentation peut être utile, mais n'est pas indispensable pour 99% des projets.
Ce qui précède explique comment exécuter DIA-NN avec les paramètres par défaut, et ceux-ci donnent des performances optimales ou presque optimales pour la plupart des expériences. Dans certains cas, cependant, il est préférable d'ajuster les paramètres, voir Modification des paramètres par défaut pour plus de détails.
DIA-NN propose également de puissantes options de réglage pour des expériences sophistiquées. DIA-NN est implémenté sous la forme d'une interface graphique conviviale qui appelle automatiquement un outil de ligne de commande. Mais l'utilisateur peut également transmettre des options/commandes directement à l'outil de ligne de commande, via la zone de texte Options supplémentaires de l'interface. Toutes ces options commencent par un double tiret, suivi du nom de l'option et, le cas échéant, de certains paramètres à définir. Donc, si vous voyez une option/commande avec -- dans son nom mentionné dans cette documentation, cela signifie que cette commande est destinée à être saisie dans la zone de texte Options supplémentaires .
Formats pris en charge : Sciex .wiff, Bruker .d, Thermo .raw, .mzML et .dia (format utilisé par DIA-NN pour stocker les spectres). La conversion de n'importe quel format pris en charge vers .dia est possible. Lors de l'exécution sous Linux (versions natives, pas Wine), seules les données .d, .mzML et .dia sont prises en charge.
Pour la prise en charge .wiff, téléchargez et installez ProteoWizard - choisissez la version (64 bits) qui prend en charge les « fichiers du fournisseur »). Copiez ensuite tous les fichiers avec 'Clearcore' ou 'Sciex' dans leur nom (ce seront des fichiers .dll) du dossier ProteoWizard vers le dossier d'installation de DIA-NN (celui qui contient diann.exe, DIA-NN.exe et un un tas d'autres fichiers).
La lecture des fichiers Thermo .raw nécessite l’installation de Thermo MS File Reader. Il est indispensable d'utiliser spécifiquement la version par le lien ci-dessus (3.0 SP3).
Les fichiers .mzML doivent être centrés et contenir des données sous forme de spectres (par exemple SWATH/DIA) et non de chromatogrammes.
De nombreux formats de spécifications de masse, y compris les quelques-uns qui ne sont pas directement pris en charge par DIA-NN, peuvent être convertis en .mzML à l'aide de l'application MSConvertGUI de ProteoWizard. Cela fonctionne pour tous les formats pris en charge, à l'exception de Bruker .d et SCIEX Scanning SWATH - ceux-ci doivent être accessibles directement par DIA-NN. Les paramètres MSConvert suivants doivent être utilisés pour la conversion :
DIA-NN prend en charge les tables séparées par des virgules (.csv), par des tabulations (.tsv, .xls ou .txt) ou .parquet comme bibliothèques spectrales, ainsi que .speclib (format compact utilisé par DIA-NN), .sptxt (SpectraST, expérimental) et fichiers de bibliothèque .msp (NIST, expérimental). Important : la bibliothèque ne doit pas contenir d'ions précurseurs non fragmentés en tant que « fragments » : chaque ion fragment doit en fait être produit par la fragmentation du squelette peptidique.
Les bibliothèques au format PeakView ainsi que les bibliothèques produites par FragPipe, TargetedFileConverter (qui fait partie d'OpenMS), exportées depuis Spectronaut (Biognosys) au format .xls ou générées par DIA-NN lui-même sont supportées « telles quelles ».
Pour les bibliothèques .tsv/.xls/.txt générées par d'autres moyens, DIA-NN peut nécessiter que les noms d'en-tête soient spécifiés (séparés par des virgules) (pour les colonnes requises) à l'aide de la commande --library-headers. Utilisez le symbole * à la place du nom d'un en-tête pour conserver sa reconnaissance automatique. Voir ci-dessous les descriptions des colonnes respectives (dans l'ordre dans lequel les en-têtes doivent être spécifiés).
Colonnes obligatoires :
Il est fortement recommandé que les colonnes contenant les éléments suivants soient également présentes dans la bibliothèque :
Par exemple, une commande --library-headers qui spécifie tous les noms de colonnes à l'exception de la colonne 'Decoy' peut ressembler à ceci :
--library-headers ModifiedPeptide, PrecursorCharge, PrecursorMz, Tr_recalibrated, ProductMz, LibraryIntensity, UniprotID, ProteinName, Genes, Proteotypique,*, FragmentCharge, FragmentType, FragmentSeriesNumber, FragmentLossType, QValue, ExcludeFromAssay, IonMobility
Utilisez --sptxt-acc pour définir la précision de masse du filtrage des fragments (en ppm) lors de la lecture des bibliothèques .sptxt/.msp.
MaxQuant msms.txt peut également être utilisé (expérimental) comme bibliothèque spectrale dans DIA-NN, bien que les modifications corrigées puissent ne pas être lues correctement.
DIA-NN peut convertir n'importe quelle bibliothèque qu'elle prend en charge dans son propre format .parquet. Pour cela, cliquez sur Bibliothèque spectrale (volet Entrée ), sélectionnez la bibliothèque que vous souhaitez convertir, sélectionnez le nom du fichier de la bibliothèque de sortie (volet Sortie ), cliquez sur Exécuter . Si vous utilisez un format de bibliothèque exotique, c'est une bonne idée de le convertir en .parquet de DIA-NN, puis d'examiner la bibliothèque résultante (en utilisant le package R 'arrow' ou Python 'pyarrow') pour voir si le contenu a du sens.
Toutes les bibliothèques .tsv/.xls/.txt/.csv/.parquet ne sont que de simples tableaux avec des données lisibles par l'homme, et peuvent être explorées/éditées, si nécessaire, à l'aide d'Excel ou (idéalement) de R/Python.
Il est important de noter que lorsqu'une bibliothèque est convertie dans un format différent, tous les nombres peuvent être arrondis en utilisant une certaine précision décimale, ce qui signifie qu'ils peuvent ne pas être exactement les mêmes que dans la bibliothèque d'origine (il peut y avoir une infime différence). Ainsi, même si les performances lors de l’analyse à l’aide d’une bibliothèque convertie seront comparables, les résultats ne correspondront pas exactement.
Le volet Sortie permet de spécifier où la sortie doit être enregistrée ainsi que les noms de fichiers pour le rapport de sortie principal et (éventuellement) la bibliothèque spectrale de sortie. DIA-NN utilise ces noms de fichiers pour dériver les noms de tous ses fichiers de sortie. Vous trouverez ci-dessous des informations sur les différents types de sorties DIA-NN. Pour la plupart des workflows, il suffit de disposer du rapport principal (pour une analyse en R ou Python - recommandé) ou des matrices (sortie simplifiée pour MS Excel). Lorsque la génération de matrices de sortie est activée, DIA-NN produit également un fichier .manifest.txt avec une brève description des fichiers de sortie générés.
Un tableau de texte contenant les identifiants des précurseurs et des protéines, ainsi que de nombreuses informations associées. La plupart des noms de colonnes sont explicites et la référence complète se trouve dans Référence de sortie principale. Les mots-clés suivants sont utilisés lors de la dénomination des colonnes :
Remarque : depuis la version 1.9, DIA-NN produit un rapport au format Apache .parquet. Il s'agit d'un format de tableau de texte compressé (réduction de taille d'environ 10x) qui peut être chargé dans une seule ligne de code à l'aide du package R 'arrow' ou du package Python 'pyarrow'. La plupart des nouvelles fonctionnalités (introduites dans DIA-NN 1.9) ne sont reflétées que dans le rapport Parquet. Il est donc recommandé de l'utiliser à la place du rapport .tsv existant dans tous les cas, tandis que le rapport .tsv est toujours généré uniquement pour des raisons de compatibilité avec anciens workflows d'analyse. La génération de l'ancien rapport .tsv peut être désactivée avec --no-main-report. En plus d'utiliser R ou Python, vous pouvez également afficher les fichiers .parquet avec le visualiseur TAD.
Ceux-ci contiennent des quantités MaxLFQ normalisées pour les groupes de protéines (« pg_matrix »), les groupes de gènes (« gg_matrix »), les gènes uniques (« unique_genes_matrix » ; c'est-à-dire les gènes identifiés et quantifiés en utilisant uniquement des peptides protéotypiques, c'est-à-dire spécifiques d'un gène), ainsi que des quantités normalisées. quantités de précurseurs (« pr_matrix »). Ils sont filtrés à 1 % de FDR, en utilisant les valeurs q globales pour les groupes de protéines et les valeurs q globales et spécifiques à l'exécution pour les précurseurs. Un filtre FDR supplémentaire de 5 % au niveau des protéines spécifiques à l'exécution est appliqué aux matrices protéiques, utilisez --matrix-spec-q pour l'ajuster. Parfois, DIA-NN rapporte un zéro comme meilleure estimation d'une quantité de précurseur ou de protéine. Ces quantités nulles sont omises des matrices protéines/gènes. Des matrices spéciales de quantification de phosphosite (phosphosites_90 et phosphosites_99 .tsv) sont générées lorsque la phosphorylation (UniMod : 21) est déclarée comme une modification variable, voir PTM et peptidoformes.
Le fichier .protein_description.tsv est généré avec les matrices et contient des informations de base sur les protéines connues de DIA-NN (ID de séquence, noms, noms de gènes, description, séquence). Les futures versions de DIA-NN incluront davantage d'informations, par exemple le poids moléculaire des protéines.
Contient un certain nombre de métriques QC qui peuvent être utilisées pour le filtrage des données, par exemple pour exclure les analyses ayant échoué ou comme lecture pour l'optimisation des méthodes. Notez que le nombre de protéines rapporté ici correspond au nombre de protéines uniques (c'est-à-dire identifiées avec des précurseurs protéotypiques) dans une analyse donnée à une valeur q de protéine unique de 1 %. Ce nombre peut être reproduit à partir du rapport principal généré à l'aide du seuil FDR du précurseur de 100 % et filtré à l'aide de Protein.Q.Value <= 0,01 & Proteotypique == 1. Ce qui est compté comme « protéine » ici dépend du paramètre « Inférence de protéine ».
Une visualisation d'un certain nombre de mesures de contrôle de qualité, basée sur le rapport principal ainsi que sur le rapport de statistiques. Le rapport PDF ne doit être utilisé que pour une évaluation préliminaire rapide des données et ne doit pas être utilisé dans des publications.
Le volet Sortie permet de contrôler la manière de gérer les « fichiers .quant ». Maintenant, pour expliquer de quoi il s’agit, regardons comment DIA-NN traite les données brutes. Il effectue d’abord la partie du traitement exigeante en termes de calcul séparément pour chaque exécution individuelle de l’expérience, et enregistre les identifications et les informations quantitatives dans un fichier .quant distinct. Une fois toutes les analyses traitées, il collecte les informations de tous les fichiers .quant et effectue certaines étapes transversales, telles que le calcul de la valeur q globale, l'inférence protéique, le calcul des quantités finales et la normalisation. Cela permet à DIA-NN d’être utilisé de manière très flexible. Par exemple, vous pouvez arrêter le traitement à tout moment, puis reprendre le traitement en commençant par l'exécution à laquelle vous l'avez arrêté. Vous pouvez également supprimer certaines exécutions de l'expérience, ajouter des exécutions supplémentaires et réexécuter rapidement l'analyse, sans avoir besoin de refaire l'analyse des exécutions déjà traitées. Tout cela est activé par l’option Utiliser les fichiers .quant existants lorsqu’ils sont disponibles . Les fichiers .quant sont enregistrés/lus à partir du répertoire Temp/.dia (ou au même emplacement que les fichiers bruts, si aucun dossier temporaire n'est spécifié). Lors de l'utilisation de cette option, l'utilisateur doit s'assurer que les fichiers .quant ont été générés avec exactement les mêmes paramètres que ceux appliqués dans l'analyse en cours, à l'exception du Precursor FDR (à condition qu'il soit <= 5%), Threads , Log level , MBR , normalisation croisée et génération de bibliothèques - ces paramètres peuvent être différents. Il est même possible de transférer des fichiers .quant vers un autre ordinateur et de les réutiliser là-bas, sans transférer les fichiers bruts d'origine. Important : il est fortement recommandé de ne réutiliser les fichiers .quant que lorsque les précisions de masse et la fenêtre d'analyse sont fixées à certaines valeurs (non nulles), sinon DIA-NN effectuera à nouveau leur optimisation en utilisant la première exécution pour laquelle un . Le fichier quant n'a pas été trouvé. De plus, lors de l'utilisation de MBR ou de la création d'une bibliothèque spectrale à partir de données DIA avec la génération de bibliothèque définie sur un profilage intelligent ou complet, les fichiers .quant ne doivent être réutilisés que s'ils ont été générés exactement dans le même ordre que l'ordre actuel des fichiers bruts, c'est-à-dire avec MBR, DIA-NN ne peut actuellement pas combiner plusieurs analyses distinctes.
Remarque : le rapport principal au format .parquet fournit les informations de sortie complètes pour tout type de traitement en aval. Tous les autres types de sortie sont là pour simplifier l'analyse lors de l'utilisation de MS Excel ou d'un logiciel similaire. Les nombres de précurseurs et de protéines signalés dans différents types de fichiers de sortie peuvent sembler différents en raison des différents filtrages utilisés pour les générer. Veuillez consulter les descriptions ci-dessus. Toutes les « matrices » peuvent être reproduites à partir du rapport principal .parquet, si elles sont générées avec le précurseur FDR réglé à 5 %, en utilisant R ou Python.
DIA-NN dispose d'un module sans bibliothèque très avancé, ce qui est, pour certains types d'expériences, meilleur que l'utilisation d'une bibliothèque spectrale spécifique au projet de haute qualité. En général, les éléments suivants améliorent les performances de la recherche sans bibliothèque par rapport aux bibliothèques spectrales (alors que l'inverse favorise les bibliothèques spectrales) :
Veuillez noter que dans 99 % des cas, il est essentiel que le MBR soit activé pour une analyse quantitative sans bibliothèque. Il est activé par défaut lors de l'utilisation de l'interface graphique DIA-NN.
Pour la plupart des expériences, il est effectivement judicieux d'essayer une recherche sans bibliothèque. Pour les expériences à moyenne et grande échelle, il peut être judicieux d'essayer d'abord une analyse sans bibliothèque d'un sous-ensemble de données, pour voir si les performances sont correctes (sur l'ensemble de l'ensemble de données, elles seront généralement bien meilleures, donc pas besoin d'être trop strict ici). Nous-mêmes, nous effectuons également souvent une évaluation rapide du contrôle qualité préliminaire de l'expérience en utilisant une bibliothèque publique.
Il est souvent pratique d'effectuer une analyse sans bibliothèque en deux étapes : en créant d'abord une bibliothèque spectrale prédite in silico à partir de la base de données de séquences, puis en analysant avec cette bibliothèque. C’est la stratégie qu’il faut utiliser dans tous les cas, sauf pour de rapides analyses préliminaires. Notez que la fonctionnalité pipeline de DIA-NN permet de planifier facilement des séquences de tâches, telles que la création d'une bibliothèque prédite suivie de plusieurs analyses utilisant cette bibliothèque.
A noter que plus l’espace de recherche est grand (le nombre total de précurseurs considérés), plus il est difficile pour le logiciel d’analyse d’identifier les peptides, et plus la recherche prend du temps. DIA-NN est très efficace pour gérer de très grands espaces de recherche, mais même DIA-NN ne peut pas faire de magie et produire d'aussi bons résultats avec un espace de recherche de 100 millions qu'il le ferait avec un espace de recherche de 2 millions. Il faut donc faire attention à activer simultanément toutes les modifications de variables possibles. Par exemple, autoriser un maximum de 5 modifications variables, tout en ayant activé simultanément l'oxydation de la méthionine, la phospho et la désamidation, n'est probablement pas une bonne idée.
Ici se trouve une distinction importante entre l’analyse des données DIA et DDA. Dans DDA, autoriser toutes les modifications variables possibles a également beaucoup de sens parce que le moteur de recherche doit faire correspondre le spectre à quelque chose - et s'il ne correspond pas au peptide modifié correct, il le sera faussement. Dans DIA, l'approche est fondamentalement différente : le spectre le plus adapté se trouve dans les données pour chaque ion précurseur considéré (il s'agit d'une vue très simplifiée juste pour illustrer le concept). Ainsi, ne pas être capable d'identifier un spectre particulier n'est jamais un problème dans le DIA (en fait, la plupart des spectres sont fortement multiplexés dans le DIA - c'est-à-dire proviennent de plusieurs peptides - et seule une fraction de ceux-ci peut être identifiée). Et par conséquent, cela n'a de sens d'activer une modification de variable particulière que si elle vous intéresse spécifiquement ou si la modification est vraiment omniprésente.
Voir PTM et peptidoformes pour plus d'informations sur la distinction entre les peptidoformes portant différents ensembles de modifications.
DIA-NN peut créer une bibliothèque spectrale à partir de n'importe quel ensemble de données DIA. Cela peut être effectué à la fois en mode basé sur une bibliothèque spectrale et en mode sans bibliothèque : il suffit de sélectionner l'option Générer une bibliothèque spectrale dans le volet de sortie.
DIA-NN peut en outre créer une bibliothèque spectrale prédite in silico à partir d'une base de données de séquences (assurez-vous que FASTA digest est activé) ou d'une autre bibliothèque spectrale (souvent utile pour les bibliothèques publiques) : exécutez simplement DIA-NN sans spécifier de fichiers bruts et activez l’option de prédiction des spectres basés sur l’apprentissage profond, des RT et des IM dans le volet Génération d’ions précurseurs . Les modifications actuellement prises en charge par le prédicteur d'apprentissage profond sont : C(cam), M(ox), N-term acétyle, N/Q(dea), S/T/Y(phos), K(-GG), nK( mTRAQ) et nK(TMT). Il convient de noter que si le module de prédiction de DIA-NN ne reconnaît pas une modification, il effectuera quand même une prédiction en l'ignorant simplement. Pour que DIA-NN élimine à la place tous les peptides présentant des modifications inconnues du prédicteur, utilisez --skip-unknown-mods.
Des bibliothèques spectrales peuvent également être créées à partir de données DDA, et en fait, le fractionnement hors ligne + DDA est la méthode de référence pour créer des bibliothèques depuis l'introduction de la protéomique SWATH/DIA. Pour cela, nous vous recommandons d'utiliser FragPipe, qui repose sur le moteur de recherche MSFragger ultra-rapide et très robuste. FragPipe peut en outre être utilisé pour créer des bibliothèques compatibles DIA-NN également à partir de données DIA, similaires à DIA-NN lui-même.
MBR est un mode puissant dans DIA-NN, qui est bénéfique pour la plupart des expériences quantitatives, à la fois avec une bibliothèque spectrale et en mode sans bibliothèque. Le MBR entraîne généralement à la fois des numéros d’identification moyens plus élevés, mais également une bien meilleure exhaustivité des données, c’est-à-dire beaucoup moins de valeurs manquantes.
Lors du traitement de n'importe quel ensemble de données, DIA-NN rassemble de nombreuses informations utiles qui auraient pu être utilisées pour mieux traiter les données. Et c'est ce qui est permis par MBR. Avec MBR, DIA-NN crée d'abord une bibliothèque spectrale à partir des données DIA, puis retraite le même ensemble de données avec cette bibliothèque spectrale. L'innovation algorithmique mise en œuvre dans DIA-NN garantit que le FDR est strictement contrôlé : le MBR a été validé sur des ensembles de données allant de 2 exécutions à plus de 1 000 exécutions.
Le MBR doit être activé pour toute expérience quantitative, à moins que vous ne disposiez d'une bibliothèque spectrale spécifique au projet de très haute qualité, qui, selon vous, (i) est susceptible de fournir une couverture presque complète des peptides détectables, cela ne sert à rien d'essayer sans bibliothèque recherche + MBR, et (ii) la plupart des peptides de la bibliothèque sont réellement détectables dans l'expérience DIA. Si seulement (i) est vrai, cela vaut peut-être la peine d'essayer MBR avec la génération de bibliothèque définie sur le profilage des ID .
Le MBR ne doit pas être utilisé pour des expériences non quantitatives, c'est-à-dire lorsque vous souhaitez uniquement créer une bibliothèque spectrale, que vous utiliserez ensuite sur un autre ensemble de données.
On peut « imiter » manuellement le MBR en utilisant une approche en deux étapes qui se traduira par des performances comparables. Tout d’abord, exécutez DIA-NN pour créer une bibliothèque spectrale à partir des analyses DIA (l’ensemble de l’expérience ou simplement son sous-ensemble, ce qui peut être beaucoup plus rapide pour les expériences à grande échelle ou les expériences incluant des essais à blanc/échoués). Utilisez ensuite cette bibliothèque pour analyser l’ensemble de l’expérience. Dans les deux cas, exécutez DIA-NN avec MBR désactivé.
Lorsque vous utilisez MBR (ou son imitation) et que vous vous appuyez sur le rapport principal .parquet (recommandé) au lieu des matrices quantitatives, utilisez les filtres de valeur q suivants :
DIA-NN peut être utilisé avec succès pour traiter presque toutes les expériences avec les paramètres par défaut. En général, il est recommandé de modifier les paramètres uniquement lorsqu'il est spécifiquement conseillé de le faire dans cette documentation (comme ci-dessous), pour un type d'expérience spécifique, ou s'il existe une justification très claire et convaincante pour le changement.
Dans de nombreux cas, vous souhaiterez peut-être modifier plusieurs paramètres dans le volet Algorithme .
Veuillez également consulter les conseils sur la recherche sans bibliothèque, les PTM et les peptidoformes et le multiplexage à l'aide de plexDIA, si ceux-ci sont pertinents pour votre expérience.
Notez qu'une fois que vous avez sélectionné une option particulière dans l'interface graphique de DIA-NN, certains autres paramètres peuvent être activés automatiquement. Par exemple, chaque fois que vous choisissez d'effectuer un résumé de base de données FASTA in silico (pour une recherche sans bibliothèque), ou simplement de générer une bibliothèque spectrale à partir de données DIA, le MBR sera également automatiquement sélectionné - car dans 99 % des cas, il est bénéfique.
DIA-NN est implémenté sous la forme d'une interface utilisateur graphique (GUI), qui invoque un outil de ligne de commande (diann.exe). L'outil de ligne de commande peut également être utilisé séparément, par exemple dans le cadre de pipelines de traitement automatisés personnalisés. De plus, même en utilisant l'interface graphique, on peut transmettre des options/commandes à l'outil de ligne de commande, dans la zone de texte Options supplémentaires . Certaines de ces options utiles sont mentionnées dans cette documentation et la référence complète est fournie dans Référence de ligne de commande.
Lorsque l'interface graphique lance l'outil de ligne de commande, elle imprime dans la fenêtre de journal l'ensemble exact des commandes qu'elle a utilisées. Ainsi, afin de reproduire le comportement observé lors de l'utilisation de l'interface graphique (par exemple si vous souhaitez faire l'analyse sur un cluster Linux), il suffit de passer exactement les mêmes commandes directement à l'outil de ligne de commande.
diann.exe [commands]
Les commandes sont traitées dans l'ordre dans lequel elles sont fournies et, pour la plupart des commandes, cet ordre peut être arbitraire.
Sous Linux, le point-virgule ';' Le caractère est traité comme un séparateur de commande, donc ';' dans le cadre des commandes DIA-NN (par exemple --channels) doivent être remplacés par ';' sous Linux pour un comportement correct.
Pour plus de commodité, ainsi que pour gérer des expériences composées de milliers de fichiers, certaines options/commandes peuvent être stockées dans un fichier de configuration. Pour cela, créez un fichier texte avec n'importe quelle extension, par exemple diann_config.cfg, saisissez-y toutes les commandes prises en charge par DIA-NN, puis référencez ce fichier avec --cfg diann_config.cfg (dans la zone de texte Options supplémentaires ou dans la commande utilisée pour appeler l'outil de ligne de commande diann.exe).
DIA-NN propose deux options de visualisation.
Horizon . Pour visualiser les chromatogrammes/spectres dans Skyline, analysez votre expérience avec MBR et une base de données FASTA spécifiée, puis cliquez sur le bouton « Skyline ». DIA-NN lancera automatiquement Skyline (assurez-vous que la version quotidienne 23.1.1.459 ou ultérieure de Skyline/Skyline est installée en tant qu'« Installation administrateur »). Actuellement, ce flux de travail ne prend pas en charge le multiplexage et ne fonctionnera pas avec des modifications dans un format autre qu'UniMod.
Visionneuse DIA-NN . Analysez votre expérience en cochant la case "XICs" et cliquez sur le bouton "Viewer". Par défaut, l'option "XICS" fera des chromatogrammes d'extrait dia-nn pour les ions de fragment de bibliothèque uniquement et à moins de 10s de l'apex Elution. Utiliser --xid [n] pour définir la fenêtre de temps de rétention en n secondes (par exemple - 60, 60 extraire les chromatogrammes à moins d'une minute à compter de l'apex) et - Théorique, pour extraire toutes les charges 1 et 2 y / b - Fragments séries, y compris ceux qui ont des pertes neutres communes. Notez que l'utilisation de la FR - aux-thétique, en particulier en combinaison avec une grande fenêtre de temps de rétention, pourrait nécessiter une quantité importante d'espace disque dans le dossier de sortie. Cependant, la visualisation elle-même est effectivement instantanée, pour toute taille d'expérience.
Remarque : Les chromatogrammes extraits avec "XICS" sont enregistrés au format Apache .PARQUET (les noms de fichiers se terminent par '.xic.Parquet') et peuvent être facilement accessibles à l'aide de R ou Python. Cela peut parfois être pratique pour préparer des chiffres prêts pour la publication (bien qu'il puisse également le faire avec Skyline ou Dia-NN Viewer), ou même pour configurer un contrôle de qualité personnalisé automatique pour les performances LC-MS.
Les positions peptidiques et de modification au sein d'une protéine peuvent être visualisées en utilisant Alphamap par le Mann Lab https://github.com/mannlabs/alphamap.
La fenêtre du pipeline dans l'interface graphique dia-nn permet de combiner plusieurs étapes d'analyse dans les pipelines. Chaque étape de pipeline est un ensemble de paramètres affichés par l'interface graphique. On peut ajouter de telles étapes au pipeline, mettre à jour les étapes existantes, supprimer les étapes, déplacer les étapes vers le haut et le bas dans le pipeline, désactiver / activer (par double-clic de souris) certaines étapes dans le pipeline et les pipelines d'enregistrement / charge. En outre, les étapes de pipeline individuelles peuvent être copies entre différents onglets d'interface graphique / Windows (utilisez les boutons Copier et coller pour cela). Nous assemblons toujours tous les dia-nn exécutés pour une publication particulière dans un pipeline. On peut également utiliser des pipelines DIA-NN pour stocker des modèles de configuration.
GUI DIA-NN présente des flux de travail intégrés (volet de génération d'ions précurseurs ) pour détecter l'oxydation de la méthionine, l'acétylation de la protéine N-terminale, la phosphorylation et l'ubiquitination (via la détection des adduits Remnant -gg sur les Lysines). D'autres modifications peuvent être déclarées en utilisant --var-mod ou - mod fixe dans des options supplémentaires .
La distinction entre les peptidoformes portant différents ensembles de modifications est un problème non trivial dans la DIA: sans score de peptidoforme spécial, le FDR efficace à peptidoforme peut être dans la plage de 5 à 10% pour les analyses sans bibliothèque. Dia-NN implémente une approche statistique cible-dépoy pour la notation des peptidoformes, qui est activée par l'option peptidoforme (volet d'algorithme ) et est également activée automatiquement chaque fois qu'une modification variable est déclarée, via les paramètres de l'interface graphique ou la commande --var-mod. Les valeurs Q à peptidoforme résultant reflètent la confiance du DIA-NN dans l'exactitude de l'ensemble des modifications rapportées pour le peptide ainsi que l'exactitude de la séquence d'acides aminés identifiée. Ces valeurs Q, cependant, ne garantissent pas l'absence de changements de masse bas en raison de certaines substitutions ou de modifications des acides aminés tels que la désamidation (notez que le DDA ne garantit pas cela non plus).
De plus, Dia-NN présente un algorithme qui rapporte des estimations de confiance de localisation PTM (comme probabilités postérieures pour la localisation correcte de tous les sites PTM variables sur le peptide ainsi que les scores pour les sites individuels), inclus dans le rapport de sortie .Parquet. Les fichiers phosphosites_90 et phosphosites_99. quantité dans la course donnée. L'algorithme «top 1» est utilisé ici car il est probablement le plus robuste contre les valeurs aberrantes et les erreurs de mauvaise localisation. Cependant, qu'il s'agisse en effet ou non de la meilleure option doit être étudiée, ce qui est actuellement difficile en raison du manque de repères avec une vérité au sol connue.
En général, lorsque vous recherchez des PTM, nous recommandons ce qui suit:
Essential: les modifications variables que vous recherchez doivent être spécifiées comme variable (via les cases à cocher GUI ou les options supplémentaires ) à la fois lors de la génération d'une bibliothèque prédite in silico et également lors de l'analyse des données brutes à l'aide de n'importe quelle bibliothèque prédite ou empirique
Paramètres de phosphorylation: modifications de variables max 3, clivage maximum de max 1, phosphorylation est la seule modification variable spécifiée, plage de charge précurseur 2-3; Pour réduire l'utilisation de la RAM, assurez-vous que la plage de masse précurseur spécifiée (lors de la génération d'une bibliothèque prévue) n'est pas plus large que la plage de masse précurseur sélectionnée pour MS / MS par la méthode DIA; Pour accélérer le traitement lors de l'utilisation d'une bibliothèque prévue, générez d'abord une bibliothèque basée sur DIA à partir d'un sous-ensemble d'exécutions d'expérience (par exemple 10+ meilleures exécutions), puis analysez l'ensemble de données en utilisant cette bibliothèque basée sur DIA avec MBR Discabled
Lorsque ce qui précède réussit, essayez également les clivages manqués Max 2
Lorsque vous recherchez des PTM autres que la phosphorylation, dans 95% des cas, il est préférable d'utiliser des modifications variables max 1 à 3 et le clivage manqué Max 1
Lorsqu'il ne recherche pas de PTM, c'est-à-dire que lorsque l'objectif est une quantification relative des protéines, l'activation de modifications variables ne produit généralement pas une profondeur protéomique plus élevée. Bien que cela ne fait généralement pas de mal non plus, cela rendra le traitement plus lent.
À notre connaissance, il n'y a pas de validation publiée de la confiance d'identification pour la détection des peptides désamidés (qui sont faciles à confondre pour les isotopologues plus lourds, à moins que la spécification de masse ait une très haute résolution et une précision de masse / tolérance serrée est utilisé par le moteur de recherche), même pour DDA. Une façon de gagner en confiance dans l'identification des peptides désamidés est de vérifier si quelque chose est identifié si le delta de masse pour la désamidation est déclaré 1,022694, au lieu de la valeur correcte 0,984016. DIA-NN passe ce test avec succès sur plusieurs ensembles de données (ce qui est aucun IDS n'est signalé lors de la spécification de cette `` masse de modification de leurre ''), mais nous recommandons également d'essayer une telle recherche de «masse de modification de leurre» sur plusieurs exécutions à partir de l'expérience à analyser , si vous recherchez des peptides désamidés. Dans chaque cas (masse correcte ou leurre), les --ptm-qvalues doivent être utilisés pour permettre une notation spécifique à PTM pour la désamidation, en plus de la notation du peptidoforme, et soit PTM.Q.Value ou Global.q.Value / Lib. Q.Value utilisée pour le filtrage.
Il convient de noter que lorsque l'objectif ultime est l'identification des protéines, il est largement hors de propos si un peptide modifié est mal identifié, en étant apparié à un spectre provenant d'un peptido-orie différent. Par conséquent, si le but de l'expérience est d'identifier / de quantifier des PTM spécifiques, des substitutions d'acides aminés ou de distinguer les protéines avec une identité de séquence élevée, l'option de notation des peptidoformes est recommandée. Dans tous les autres cas, la notation des peptidoformes est généralement correcte à utiliser mais pas nécessaire, et conduira généralement à un traitement quelque peu plus lent et à une légère diminution des nombres d'identification lors de l'utilisation de MBR.
En général, oui. Cependant, la plupart des workflows fonctionneront sans avoir besoin de reconnaître les modifications. Bien que si des modifications inconnues soient détectées dans la bibliothèque, Dia-NN imprimera un avertissement répertoriant ceux-ci, et il est fortement recommandé de les déclarer en utilisant --mod. Notez que Dia-NN reconnaît déjà de nombreuses modifications courantes et peut également charger la base de données UniMod entière, voir l'option --full-Unimod.
En collaboration avec le laboratoire Slavov, nous avons développé de la Plexdia basée sur DIA-NN, une technologie qui permet de bénéficier d'un multiplexage non isobare (MTRAQ, diméthyl, Silac) en combinaison avec DIA. Pour analyser une expérience de Plexdia, il faut une bibliothèque spectrale prédite ou empirique prédite ou empirique. DIA-NN doit ensuite être fourni avec les ensembles de commandes suivants, selon le scénario d'analyse.
Scénario 1 . La bibliothèque est une bibliothèque régulière sans étiquette (empirique ou prévue), et le multiplexage est obtenu uniquement avec un marquage isotopique, c'est-à-dire sans marquage chimique avec des étiquettes telles que le MTRAQ ou le diméthyle. DIA-NN a alors besoin des options suivantes pour être ajoutées à des options supplémentaires :
Exemple pour les étiquettes Silac L / H sur K et R:
--fixed-mod SILAC,0.0,KR,label
--lib-fixed-mod SILAC
--channels SILAC,L,KR,0:0; SILAC,H,KR,8.014199:10.008269
--original-mods
Notez que dans le Silac ci-dessus est déclaré comme étiquette, c'est-à-dire qu'il n'est pas censé changer le temps de rétention du peptide. C'est également une étiquette de masse zéro ici, car elle ne sert qu'à désigner les acides aminés qui seront étiquetés. Ce que la combinaison de - mod fixe et de-lib-lib-mod fait ici est simplement mis (silac) après chaque K ou R dans la séquence d'ID précurseur, dans la représentation interne de la bibliothèque utilisée par dia-nn. - Channels partage ensuite chaque entrée de bibliothèque en deux, une avec des masses 0 (k) et 0 (r) ajoutées à chaque occurrence de k (silac) ou r (silac) dans la séquence, respectivement, et une autre avec 8,014199 (K ) et 10.008269 (R).
Scénario 2 . La bibliothèque est une bibliothèque régulière sans étiquette (empirique ou prévue), et le multiplexage est obtenu via un marquage chimique avec MTRAQ.
Scénario 2: Étape 1. Étiquetez la bibliothèque in silico avec MTRAQ et exécutez le prédicteur en profondeur pour ajuster les spectres / RTS / IMS. Pour cela, exécutez Dia-NN avec la bibliothèque d'entrée dans le champ Spectral Library , une bibliothèque de sortie spécifiée, des spectres basés sur l'apprentissage en profondeur, la prédiction RTS et IMS activées, la liste des fichiers de données bruts vides et les options suivantes dans des options supplémentaires :
--fixed-mod mTRAQ,140.0949630177,nK
--lib-fixed-mod mTRAQ
--channels mTRAQ,0,nK,0:0; mTRAQ,4,nK,4.0070994:4.0070994;mTRAQ,8,nK,8.0141988132:8.0141988132
--original-mods
Utilisez le fichier .predit.speclib avec le nom correspondant à la bibliothèque de sortie comme bibliothèque spectrale pour l'étape suivante.
Scénario 2: Étape 2. Exécutez Dia-NN avec les options suivantes:
--fixed-mod mTRAQ,140.0949630177,nK
--channels mTRAQ,0,nK,0:0; mTRAQ,4,nK,4.0070994:4.0070994;mTRAQ,8,nK,8.0141988132:8.0141988132
--original-mods
Notez que - le mod fixe-lib n'est plus nécessaire car la bibliothèque générée à l'étape 1 contient déjà (MTRAQ) à l'extrémité N-terminale et lysines de chaque peptide.
Scénario 3 . La bibliothèque est une bibliothèque régulière sans étiquette (empirique ou prévue), et le multiplexage est obtenu via un marquage chimique avec un label autre que MTRAQ. La raison pour laquelle ce scénario est traité différemment du scénario 2 est que le prédicteur in-silico de Dia-NN n'a pas été spécifiquement formé pour des étiquettes autres que MTRAQ, et donc une étape supplémentaire pour générer des prédictions n'est pas nécessaire. Exécutez simplement DIA-NN comme vous le feriez dans le scénario 1, sauf que la déclaration de mod fixée aura une masse non nulle dans ce cas et ne sera pas une étiquette. Par exemple, pour le diméthyle à 5 canaux comme décrit par Thielert et al:
‐‐fixed‐mod Dimethyl, 28.0313, nK
--lib-fixed-mod Dimethyl
‐‐channels Dimethyl,0,nK,0:0; Dimethyl,2,nK,2.0126:2.0126; Dimethyl,4,nK,4.0251:4.0251; Dimethyl,6,nK,6.0377:6.0377; Dimethyl,8,nK,8.0444:8.0444
--original-mods
Scénario 4 . La bibliothèque est une bibliothèque de DIA empirique générée par DIA-NN à partir d'un ensemble de données DIA multiplexé. Par exemple, il pourrait s'agir d'une bibliothèque générée par Dia-NN dans la première passe de MBR (et vous souhaitez le réutiliser pour analyser les mêmes courses ou d'autres séries). Les options supplémentaires seront alors les mêmes que dans le scénario 1, scénario 2: étape 2 ou scénario 3, sauf (important!) - Le-mod-lib fixe ne doit pas être fourni.
Dans tous les scénarios ci-dessus , une option supplémentaire spécifiant la stratégie de normalisation doit être incluse dans des options supplémentaires . Cela peut être soit - normale canal-norme (silac pulsé, renouvellement des protéines) ou-canal-norme (multiplexage d'échantillons indépendants).
Sortir . Nous vous recommandons d'utiliser le rapport principal au format .PARQUET pour toutes les analyses en aval. Notez que PG.Q.Value et GG.Q.Value dans le rapport principal sont spécifiques au canal, lors de l'utilisation du multiplexage. Les quantités pg.maxlfq, gènes.maxlfq et gènes.maxlfq.Unique ne sont que spécifiques au canal si (i) quantum est utilisé et (ii) le rapport correspond au deuxième col de MBR ou MBR n'est pas utilisé. Alternativement, on peut utiliser les matrices (non recommandées), ce sont uniquement au niveau du précurseur. Lorsque vous utilisez des matrices, il est essentiel de spécifier - matrice-ch-qvalue, avec des seuils raisonnables de 0,01 à 0,5. Ce paramètre n'affectera pas la matrice MS1 extraite, qui rapporte simplement les signaux MS1 correspondant à chaque canal, chaque fois qu'un précurseur est identifié dans l'un des canaux - l'utilisation de cette matrice n'est normalement pas recommandée. Les matrices de protéines ne sont pas produites lors de l'analyse des données multiplexées.
Volet d'entrée
Volet de génération d'ions précurseurs
Volet de sortie
Volet d'algorithme
Notez que certaines options ci-dessous sont fortement préjudiciables aux performances et ne sont là qu'à des fins d'analyse comparative. La recommandation consiste donc à utiliser uniquement les options qui devraient être bénéfiques pour une expérience particulière (par exemple celles recommandées dans la présente documentation) sur la base d'une justification claire.