Téléchargement DiaNN - Téléchargement du code source DiaNN

DiaNN

Autre code source

DIA-NN 1.9.2

Télécharger

DIA-NN

DIA-NN - une suite logicielle universelle pour le traitement des données protéomiques par acquisition indépendante des données (DIA). Conçu à l'Université de Cambridge, au Royaume-Uni, dans le laboratoire de Kathryn Lilley (Cambridge Center for Proteomics), DIA-NN a ouvert un nouveau chapitre en protéomique, en introduisant un certain nombre d'algorithmes qui ont permis des expériences à grande échelle fiables, robustes et quantitativement précises en utilisant méthodes à haut débit. DIA-NN est actuellement développé dans le laboratoire de Vadim Demichev à la Charité (Université de Médecine de Berlin, Allemagne).

DIA-NN est construit sur les principes suivants :

Fiabilité obtenue grâce à un contrôle statistique rigoureux
Robustesse obtenue grâce à une modélisation flexible des données et à la sélection automatique des paramètres
Reproductibilité favorisée par un enregistrement approfondi de toutes les étapes d'analyse
Facilité d'utilisation : haut degré d'automatisation, une analyse peut être mise en place en quelques clics de souris, aucune expertise en bioinformatique n'est requise
Options de réglage puissantes pour permettre des expériences non conventionnelles
Évolutivité et rapidité : jusqu'à 1 000 analyses de spécifications de masse traitées par heure

Téléchargement : https://github.com/vdemichev/DiaNN/releases/tag/1.9.2 (il est recommandé d'utiliser la dernière version - DIA-NN 1.9.2)

Merci de citer :
DIA-NN : réseaux de neurones et correction des interférences
permettre une couverture protéomique approfondie dans les méthodes naturelles à haut débit , 2020

Utilisation de DIA-NN pour l'analyse des modifications post-traduction (PTM), telles que la phosphorylation ou l'ubiquitination : le profilage de l'ubiquitinome in vivo résolu dans le temps par DIA-MS révèle des cibles USP7 à l'échelle du protéome Nature Communications, 2021

Utilisation du module de mobilité ionique de DIA-NN pour l'analyse des données timsTOF ou utilisation de DIA-NN en combinaison avec les bibliothèques spectrales générées par FragPipe : analyse de données dia-PASEF à l'aide de FragPipe et DIA-NN pour la protéomique profonde de faibles quantités d'échantillons Nature Communications, 2022

Utilisation de DIA-NN pour l'analyse d'échantillons multiplexés (SILAC, mTRAQ, etc.) : Augmentation du débit de la protéomique sensible par plexDIA Nature Biotechnology, 2022

Utilisation de DIA-NN dans le cadre du flux de travail CysQuant : CysQuant : Quantification simultanée de l'oxydation de la cystéine et de l'abondance des protéines à l'aide de la spectrométrie de masse à acquisition indépendante ou dépendante des données Redox Biology, 2023

Utilisation du module QuantUMS de DIA-NN pour la quantification : QuantUMS : la minimisation de l'incertitude permet une quantification fiable en protéomique biorxiv

Utilisation de DIA-NN pour traiter les données Slice-PASEF : Slice-PASEF : fragmentation de tous les ions pour une sensibilité maximale en protéomique biorxiv

Autres documents clés

Utilisation de DIA-NN pour la protéomique plasmatique et sérique à grande échelle :
Systèmes cellulaires, 2020 et systèmes cellulaires, 2021
Protéomique ultra-rapide avec DIA-NN et Scanning SWATH :
Biotechnologie naturelle, 2021

Package R avec quelques fonctions utiles pour gérer les rapports de sortie de DIA-NN : https://github.com/vdemichev/diann-rpackage

Visualisation des positions des peptides dans la protéine : https://github.com/MannLabs/alphamap (AlphaMap by Mann lab)

Notes et discussions sur la protéomique en général et l'utilisation de DIA-NN : https://github.com/vdemichev/DiaNN/discussions/categories/dia-proteomics-in-detail (cette section sera développée davantage).

Table des matières

Installation
Commencer
Formats de données brutes
Formats de bibliothèque spectrale
Sortir
Recherche sans bibliothèque
Création de bibliothèques spectrales
Match entre les courses
Modification des paramètres par défaut
Outil de ligne de commande
Visualisation
Pipelines automatisés
PTM et peptidoformes
Multiplexage avec plexDIA
Référence des paramètres de l'interface graphique
Référence de ligne de commande
Référence de sortie principale
Questions fréquemment posées (FAQ)
Soutien

Installation

Sous Windows , téléchargez le programme d'installation .exe et exécutez-le. Assurez-vous de ne pas exécuter le programme d'installation à partir d'un lecteur réseau. Il est recommandé d'installer DIA-NN dans le dossier par défaut suggéré par le programme d'installation. Vous pouvez également décompresser simplement l'archive .binaries.zip dans un emplacement de votre choix.

Sous Linux , téléchargez et décompressez le fichier .Linux.zip. La version Linux de DIA-NN est générée sur Linux Mint 21.2, et le système cible doit disposer des bibliothèques standards au moins aussi récentes. Cependant, une telle exigence n'existe pas si vous créez une image de conteneur Docker ou Apptainer/Singularity. Pour générer l'un ou l'autre conteneur, nous vous recommandons de commencer avec la dernière image Docker Debian - dans ce cas, il vous suffit d'installer sudo apt install libgomp1 avant de pouvoir y exécuter DIA-NN. Veuillez également consulter l'excellent guide détaillé de Roger Olivella. Pour de meilleures performances, utilisez mimalloc avec remplacement dynamique comme décrit ici https://github.com/microsoft/mimalloc.

Il est également possible d'exécuter DIA-NN sous Linux en utilisant Wine 6.8 ou version ultérieure.

Commencer

Les données de spectrométrie de masse DIA peuvent être analysées de deux manières : en recherchant dans une base de données de séquences (mode sans bibliothèque) ou en utilisant une « bibliothèque spectrale » - un ensemble de spectres et de temps de rétention connus pour les peptides sélectionnés. Nous discutons en détail du moment où utiliser chacune de ces approches dans la section Recherche sans bibliothèque. Pour les deux types d’analyses, l’utilisation de DIA-NN est très simple :

Cliquez sur Brut (dans le volet Entrée ), sélectionnez vos fichiers de données brutes de spectrométrie de masse. Voir Formats de données brutes pour plus d'informations sur les formats pris en charge.
Cliquez sur Ajouter FASTA , ajoutez une ou plusieurs bases de données de séquences au format UniProt.
Si vous souhaitez utiliser une bibliothèque spectrale, cliquez sur Bibliothèque spectrale et sélectionnez la bibliothèque. Alternativement, pour une analyse sans bibliothèque, sélectionnez FASTA digest pour une recherche/génération de bibliothèque sans bibliothèque (dans le volet Génération d’ions précurseurs ).
Spécifiez le nom du fichier de sortie principal dans le volet Sortie et cliquez sur Exécuter .
Si vous avez conservé « report.tsv » comme sortie principale (située, par défaut, dans le dossier d'installation de DIA-NN), il contiendra la liste de tous les ions précurseurs identifiés, ainsi que différents types de quantités, de mesures de qualité et d'annotations. Le fichier de sortie report.pg_matrix.tsv contiendra les quantités de groupes de protéines, report.gg_matrix.tsv - les quantités de groupes de gènes, report.pr_matrix.tsv - les quantités d'ions précurseurs.

Maintenant, les informations ci-dessus sont suffisantes pour commencer à utiliser DIA-NN, c'est en effet aussi simple que cela ! Le reste de cette documentation peut être utile, mais n'est pas indispensable pour 99% des projets.

Ce qui précède explique comment exécuter DIA-NN avec les paramètres par défaut, et ceux-ci donnent des performances optimales ou presque optimales pour la plupart des expériences. Dans certains cas, cependant, il est préférable d'ajuster les paramètres, voir Modification des paramètres par défaut pour plus de détails.

DIA-NN propose également de puissantes options de réglage pour des expériences sophistiquées. DIA-NN est implémenté sous la forme d'une interface graphique conviviale qui appelle automatiquement un outil de ligne de commande. Mais l'utilisateur peut également transmettre des options/commandes directement à l'outil de ligne de commande, via la zone de texte Options supplémentaires de l'interface. Toutes ces options commencent par un double tiret, suivi du nom de l'option et, le cas échéant, de certains paramètres à définir. Donc, si vous voyez une option/commande avec -- dans son nom mentionné dans cette documentation, cela signifie que cette commande est destinée à être saisie dans la zone de texte Options supplémentaires .

Formats de données brutes

Formats pris en charge : Sciex .wiff, Bruker .d, Thermo .raw, .mzML et .dia (format utilisé par DIA-NN pour stocker les spectres). La conversion de n'importe quel format pris en charge vers .dia est possible. Lors de l'exécution sous Linux (versions natives, pas Wine), seules les données .d, .mzML et .dia sont prises en charge.

Pour la prise en charge .wiff, téléchargez et installez ProteoWizard - choisissez la version (64 bits) qui prend en charge les « fichiers du fournisseur »). Copiez ensuite tous les fichiers avec 'Clearcore' ou 'Sciex' dans leur nom (ce seront des fichiers .dll) du dossier ProteoWizard vers le dossier d'installation de DIA-NN (celui qui contient diann.exe, DIA-NN.exe et un un tas d'autres fichiers).

La lecture des fichiers Thermo .raw nécessite l’installation de Thermo MS File Reader. Il est indispensable d'utiliser spécifiquement la version par le lien ci-dessus (3.0 SP3).

Les fichiers .mzML doivent être centrés et contenir des données sous forme de spectres (par exemple SWATH/DIA) et non de chromatogrammes.

Assistance technologique

DIA et SWATH sont pris en charge
Les schémas d'acquisition avec des fenêtres qui se chevauchent sont pris en charge
Le fractionnement en phase gazeuse est pris en charge
La numérisation SWATH est prise en charge
dia-PASEF/py-diAID est pris en charge
Slice-PASEF est pris en charge (ajoutez --tims-scan aux options supplémentaires)
midia-PASEF et Synchro-PASEF sont pris en charge (ajoutez --tims-scan aux options supplémentaires), mais DIA-NN ne bénéficie actuellement pas de la déconvolution des dimensions du premier trimestre
Orbitrap Astral est pris en charge
FAIMS avec CV constant est pris en charge
FAIMS avec plusieurs CV est pris en charge après avoir fractionné les exécutions, voir ici
BoxCar-DIA est pris en charge, mais DIA-NN n'a pas été optimisé pour cela
Les données Bruker Impact II DIA sont prises en charge après la conversion en .mzML
le multiplexage avec des balises non isobares et SILAC est pris en charge
MSX-DIA n'est pas pris en charge

Conversion

De nombreux formats de spécifications de masse, y compris les quelques-uns qui ne sont pas directement pris en charge par DIA-NN, peuvent être convertis en .mzML à l'aide de l'application MSConvertGUI de ProteoWizard. Cela fonctionne pour tous les formats pris en charge, à l'exception de Bruker .d et SCIEX Scanning SWATH - ceux-ci doivent être accessibles directement par DIA-NN. Les paramètres MSConvert suivants doivent être utilisés pour la conversion :

Formats de bibliothèque spectrale

DIA-NN prend en charge les tables séparées par des virgules (.csv), par des tabulations (.tsv, .xls ou .txt) ou .parquet comme bibliothèques spectrales, ainsi que .speclib (format compact utilisé par DIA-NN), .sptxt (SpectraST, expérimental) et fichiers de bibliothèque .msp (NIST, expérimental). Important : la bibliothèque ne doit pas contenir d'ions précurseurs non fragmentés en tant que « fragments » : chaque ion fragment doit en fait être produit par la fragmentation du squelette peptidique.

En détails

Les bibliothèques au format PeakView ainsi que les bibliothèques produites par FragPipe, TargetedFileConverter (qui fait partie d'OpenMS), exportées depuis Spectronaut (Biognosys) au format .xls ou générées par DIA-NN lui-même sont supportées « telles quelles ».

Pour les bibliothèques .tsv/.xls/.txt générées par d'autres moyens, DIA-NN peut nécessiter que les noms d'en-tête soient spécifiés (séparés par des virgules) (pour les colonnes requises) à l'aide de la commande --library-headers. Utilisez le symbole * à la place du nom d'un en-tête pour conserver sa reconnaissance automatique. Voir ci-dessous les descriptions des colonnes respectives (dans l'ordre dans lequel les en-têtes doivent être spécifiés).

Colonnes obligatoires :

Séquence peptidique modifiée et marquée
Charge précurseur
Précurseur m/z
Temps de rétention de référence - une échelle RT arbitraire peut être utilisée
Ion fragmenté m/z
Intensité relative de l'ion fragment

Il est fortement recommandé que les colonnes contenant les éléments suivants soient également présentes dans la bibliothèque :

ID de protéines - identifiants des isoformes de protéines
Noms des protéines
Noms de gènes
Protéotypique - une colonne contenant des valeurs 0/1, selon que le peptide en question est « protéotypique », c'est-à-dire spécifique à une isoforme de protéine, un nom de protéine ou un gène particulier.
Leurre - Indique si le peptide est un leurre. S'il y a des peptides leurres dans la bibliothèque, DIA-NN les utilise et ne génère pas ses propres leurres. Il est fortement recommandé de ne pas inclure de peptides leurres dans la bibliothèque.
Charge ionique fragmentée
Type d'ion fragment - y ou b ; pour les fragments x et z, spécifiez également le type de fragment comme y, et pour a et c - comme b
Numéro de série du fragment
Type de perte neutre de fragment
Valeur Q
Identifiant du groupe d'élution - s'il n'est pas spécifié, DIA-NN déduira automatiquement les groupes d'élution ; pas nécessaire pour la plupart des flux de travail
Indicateur d'exclusion de fragment - une colonne contenant des valeurs 0/1, 1 signifiant que l'ion fragment ne doit pas être utilisé pour la quantification ; pas nécessaire pour la plupart des flux de travail
Mobilité ionique - valeur 1/K0 pour le précurseur, une échelle IM arbitraire peut être utilisée

Par exemple, une commande --library-headers qui spécifie tous les noms de colonnes à l'exception de la colonne 'Decoy' peut ressembler à ceci :

--library-headers ModifiedPeptide, PrecursorCharge, PrecursorMz, Tr_recalibrated, ProductMz, LibraryIntensity, UniprotID, ProteinName, Genes, Proteotypique,*, FragmentCharge, FragmentType, FragmentSeriesNumber, FragmentLossType, QValue, ExcludeFromAssay, IonMobility

Utilisez --sptxt-acc pour définir la précision de masse du filtrage des fragments (en ppm) lors de la lecture des bibliothèques .sptxt/.msp.

MaxQuant msms.txt peut également être utilisé (expérimental) comme bibliothèque spectrale dans DIA-NN, bien que les modifications corrigées puissent ne pas être lues correctement.

DIA-NN peut convertir n'importe quelle bibliothèque qu'elle prend en charge dans son propre format .parquet. Pour cela, cliquez sur Bibliothèque spectrale (volet Entrée ), sélectionnez la bibliothèque que vous souhaitez convertir, sélectionnez le nom du fichier de la bibliothèque de sortie (volet Sortie ), cliquez sur Exécuter . Si vous utilisez un format de bibliothèque exotique, c'est une bonne idée de le convertir en .parquet de DIA-NN, puis d'examiner la bibliothèque résultante (en utilisant le package R 'arrow' ou Python 'pyarrow') pour voir si le contenu a du sens.

Toutes les bibliothèques .tsv/.xls/.txt/.csv/.parquet ne sont que de simples tableaux avec des données lisibles par l'homme, et peuvent être explorées/éditées, si nécessaire, à l'aide d'Excel ou (idéalement) de R/Python.

Il est important de noter que lorsqu'une bibliothèque est convertie dans un format différent, tous les nombres peuvent être arrondis en utilisant une certaine précision décimale, ce qui signifie qu'ils peuvent ne pas être exactement les mêmes que dans la bibliothèque d'origine (il peut y avoir une infime différence). Ainsi, même si les performances lors de l’analyse à l’aide d’une bibliothèque convertie seront comparables, les résultats ne correspondront pas exactement.

Sortir

Le volet Sortie permet de spécifier où la sortie doit être enregistrée ainsi que les noms de fichiers pour le rapport de sortie principal et (éventuellement) la bibliothèque spectrale de sortie. DIA-NN utilise ces noms de fichiers pour dériver les noms de tous ses fichiers de sortie. Vous trouverez ci-dessous des informations sur les différents types de sorties DIA-NN. Pour la plupart des workflows, il suffit de disposer du rapport principal (pour une analyse en R ou Python - recommandé) ou des matrices (sortie simplifiée pour MS Excel). Lorsque la génération de matrices de sortie est activée, DIA-NN produit également un fichier .manifest.txt avec une brève description des fichiers de sortie générés.

Rapport principal

Un tableau de texte contenant les identifiants des précurseurs et des protéines, ainsi que de nombreuses informations associées. La plupart des noms de colonnes sont explicites et la référence complète se trouve dans Référence de sortie principale. Les mots-clés suivants sont utilisés lors de la dénomination des colonnes :

PG signifie groupe protéique
GG signifie groupe de gènes
Quantité signifie quantité non normalisée
Normalisé signifie quantité normalisée
MaxLFQ signifie quantité de protéine normalisée calculée à l'aide de l'algorithme MaxLFQ - il est fortement recommandé d'utiliser ces quantités MaxLFQ et non les quantités régulières (également rapportées par DIA-NN)
Global fait référence à une valeur q globale, calculée pour l'ensemble de l'expérience.
Lib fait référence à la valeur respective enregistrée dans la bibliothèque spectrale, par exemple Lib.Q.Value signifie la valeur q pour le précurseur de la bibliothèque respective

Remarque : depuis la version 1.9, DIA-NN produit un rapport au format Apache .parquet. Il s'agit d'un format de tableau de texte compressé (réduction de taille d'environ 10x) qui peut être chargé dans une seule ligne de code à l'aide du package R 'arrow' ou du package Python 'pyarrow'. La plupart des nouvelles fonctionnalités (introduites dans DIA-NN 1.9) ne sont reflétées que dans le rapport Parquet. Il est donc recommandé de l'utiliser à la place du rapport .tsv existant dans tous les cas, tandis que le rapport .tsv est toujours généré uniquement pour des raisons de compatibilité avec anciens workflows d'analyse. La génération de l'ancien rapport .tsv peut être désactivée avec --no-main-report. En plus d'utiliser R ou Python, vous pouvez également afficher les fichiers .parquet avec le visualiseur TAD.

Matrices

Ceux-ci contiennent des quantités MaxLFQ normalisées pour les groupes de protéines (« pg_matrix »), les groupes de gènes (« gg_matrix »), les gènes uniques (« unique_genes_matrix » ; c'est-à-dire les gènes identifiés et quantifiés en utilisant uniquement des peptides protéotypiques, c'est-à-dire spécifiques d'un gène), ainsi que des quantités normalisées. quantités de précurseurs (« pr_matrix »). Ils sont filtrés à 1 % de FDR, en utilisant les valeurs q globales pour les groupes de protéines et les valeurs q globales et spécifiques à l'exécution pour les précurseurs. Un filtre FDR supplémentaire de 5 % au niveau des protéines spécifiques à l'exécution est appliqué aux matrices protéiques, utilisez --matrix-spec-q pour l'ajuster. Parfois, DIA-NN rapporte un zéro comme meilleure estimation d'une quantité de précurseur ou de protéine. Ces quantités nulles sont omises des matrices protéines/gènes. Des matrices spéciales de quantification de phosphosite (phosphosites_90 et phosphosites_99 .tsv) sont générées lorsque la phosphorylation (UniMod : 21) est déclarée comme une modification variable, voir PTM et peptidoformes.

Description des protéines

Le fichier .protein_description.tsv est généré avec les matrices et contient des informations de base sur les protéines connues de DIA-NN (ID de séquence, noms, noms de gènes, description, séquence). Les futures versions de DIA-NN incluront davantage d'informations, par exemple le poids moléculaire des protéines.

Rapport de statistiques

Contient un certain nombre de métriques QC qui peuvent être utilisées pour le filtrage des données, par exemple pour exclure les analyses ayant échoué ou comme lecture pour l'optimisation des méthodes. Notez que le nombre de protéines rapporté ici correspond au nombre de protéines uniques (c'est-à-dire identifiées avec des précurseurs protéotypiques) dans une analyse donnée à une valeur q de protéine unique de 1 %. Ce nombre peut être reproduit à partir du rapport principal généré à l'aide du seuil FDR du précurseur de 100 % et filtré à l'aide de Protein.Q.Value <= 0,01 & Proteotypique == 1. Ce qui est compté comme « protéine » ici dépend du paramètre « Inférence de protéine ».

Rapport PDF

Une visualisation d'un certain nombre de mesures de contrôle de qualité, basée sur le rapport principal ainsi que sur le rapport de statistiques. Le rapport PDF ne doit être utilisé que pour une évaluation préliminaire rapide des données et ne doit pas être utilisé dans des publications.

Réanalyse flexible

Le volet Sortie permet de contrôler la manière de gérer les « fichiers .quant ». Maintenant, pour expliquer de quoi il s’agit, regardons comment DIA-NN traite les données brutes. Il effectue d’abord la partie du traitement exigeante en termes de calcul séparément pour chaque exécution individuelle de l’expérience, et enregistre les identifications et les informations quantitatives dans un fichier .quant distinct. Une fois toutes les analyses traitées, il collecte les informations de tous les fichiers .quant et effectue certaines étapes transversales, telles que le calcul de la valeur q globale, l'inférence protéique, le calcul des quantités finales et la normalisation. Cela permet à DIA-NN d’être utilisé de manière très flexible. Par exemple, vous pouvez arrêter le traitement à tout moment, puis reprendre le traitement en commençant par l'exécution à laquelle vous l'avez arrêté. Vous pouvez également supprimer certaines exécutions de l'expérience, ajouter des exécutions supplémentaires et réexécuter rapidement l'analyse, sans avoir besoin de refaire l'analyse des exécutions déjà traitées. Tout cela est activé par l’option Utiliser les fichiers .quant existants lorsqu’ils sont disponibles . Les fichiers .quant sont enregistrés/lus à partir du répertoire Temp/.dia (ou au même emplacement que les fichiers bruts, si aucun dossier temporaire n'est spécifié). Lors de l'utilisation de cette option, l'utilisateur doit s'assurer que les fichiers .quant ont été générés avec exactement les mêmes paramètres que ceux appliqués dans l'analyse en cours, à l'exception du Precursor FDR (à condition qu'il soit <= 5%), Threads , Log level , MBR , normalisation croisée et génération de bibliothèques - ces paramètres peuvent être différents. Il est même possible de transférer des fichiers .quant vers un autre ordinateur et de les réutiliser là-bas, sans transférer les fichiers bruts d'origine. Important : il est fortement recommandé de ne réutiliser les fichiers .quant que lorsque les précisions de masse et la fenêtre d'analyse sont fixées à certaines valeurs (non nulles), sinon DIA-NN effectuera à nouveau leur optimisation en utilisant la première exécution pour laquelle un . Le fichier quant n'a pas été trouvé. De plus, lors de l'utilisation de MBR ou de la création d'une bibliothèque spectrale à partir de données DIA avec la génération de bibliothèque définie sur un profilage intelligent ou complet, les fichiers .quant ne doivent être réutilisés que s'ils ont été générés exactement dans le même ordre que l'ordre actuel des fichiers bruts, c'est-à-dire avec MBR, DIA-NN ne peut actuellement pas combiner plusieurs analyses distinctes.

Remarque : le rapport principal au format .parquet fournit les informations de sortie complètes pour tout type de traitement en aval. Tous les autres types de sortie sont là pour simplifier l'analyse lors de l'utilisation de MS Excel ou d'un logiciel similaire. Les nombres de précurseurs et de protéines signalés dans différents types de fichiers de sortie peuvent sembler différents en raison des différents filtrages utilisés pour les générer. Veuillez consulter les descriptions ci-dessus. Toutes les « matrices » peuvent être reproduites à partir du rapport principal .parquet, si elles sont générées avec le précurseur FDR réglé à 5 %, en utilisant R ou Python.

Recherche sans bibliothèque

DIA-NN dispose d'un module sans bibliothèque très avancé, ce qui est, pour certains types d'expériences, meilleur que l'utilisation d'une bibliothèque spectrale spécifique au projet de haute qualité. En général, les éléments suivants améliorent les performances de la recherche sans bibliothèque par rapport aux bibliothèques spectrales (alors que l'inverse favorise les bibliothèques spectrales) :

nombres élevés de peptides détectables par analyse ;
données hétérogènes (par exemple, les échantillons de tissus cancéreux sont assez hétérogènes, alors que les injections répétées du même échantillon ne le sont pas) ;
de longs gradients chromatographiques ainsi qu'une bonne séparation des peptides dans la dimension de la mobilité ionique ;
grand ensemble de données (bien que le traitement d'un grand ensemble de données en mode sans bibliothèque puisse prendre du temps).

Veuillez noter que dans 99 % des cas, il est essentiel que le MBR soit activé pour une analyse quantitative sans bibliothèque. Il est activé par défaut lors de l'utilisation de l'interface graphique DIA-NN.

Pour la plupart des expériences, il est effectivement judicieux d'essayer une recherche sans bibliothèque. Pour les expériences à moyenne et grande échelle, il peut être judicieux d'essayer d'abord une analyse sans bibliothèque d'un sous-ensemble de données, pour voir si les performances sont correctes (sur l'ensemble de l'ensemble de données, elles seront généralement bien meilleures, donc pas besoin d'être trop strict ici). Nous-mêmes, nous effectuons également souvent une évaluation rapide du contrôle qualité préliminaire de l'expérience en utilisant une bibliothèque publique.

Il est souvent pratique d'effectuer une analyse sans bibliothèque en deux étapes : en créant d'abord une bibliothèque spectrale prédite in silico à partir de la base de données de séquences, puis en analysant avec cette bibliothèque. C’est la stratégie qu’il faut utiliser dans tous les cas, sauf pour de rapides analyses préliminaires. Notez que la fonctionnalité pipeline de DIA-NN permet de planifier facilement des séquences de tâches, telles que la création d'une bibliothèque prédite suivie de plusieurs analyses utilisant cette bibliothèque.

Commentaire

A noter que plus l’espace de recherche est grand (le nombre total de précurseurs considérés), plus il est difficile pour le logiciel d’analyse d’identifier les peptides, et plus la recherche prend du temps. DIA-NN est très efficace pour gérer de très grands espaces de recherche, mais même DIA-NN ne peut pas faire de magie et produire d'aussi bons résultats avec un espace de recherche de 100 millions qu'il le ferait avec un espace de recherche de 2 millions. Il faut donc faire attention à activer simultanément toutes les modifications de variables possibles. Par exemple, autoriser un maximum de 5 modifications variables, tout en ayant activé simultanément l'oxydation de la méthionine, la phospho et la désamidation, n'est probablement pas une bonne idée.

Ici se trouve une distinction importante entre l’analyse des données DIA et DDA. Dans DDA, autoriser toutes les modifications variables possibles a également beaucoup de sens parce que le moteur de recherche doit faire correspondre le spectre à quelque chose - et s'il ne correspond pas au peptide modifié correct, il le sera faussement. Dans DIA, l'approche est fondamentalement différente : le spectre le plus adapté se trouve dans les données pour chaque ion précurseur considéré (il s'agit d'une vue très simplifiée juste pour illustrer le concept). Ainsi, ne pas être capable d'identifier un spectre particulier n'est jamais un problème dans le DIA (en fait, la plupart des spectres sont fortement multiplexés dans le DIA - c'est-à-dire proviennent de plusieurs peptides - et seule une fraction de ceux-ci peut être identifiée). Et par conséquent, cela n'a de sens d'activer une modification de variable particulière que si elle vous intéresse spécifiquement ou si la modification est vraiment omniprésente.

Voir PTM et peptidoformes pour plus d'informations sur la distinction entre les peptidoformes portant différents ensembles de modifications.

Création de bibliothèques spectrales

DIA-NN peut créer une bibliothèque spectrale à partir de n'importe quel ensemble de données DIA. Cela peut être effectué à la fois en mode basé sur une bibliothèque spectrale et en mode sans bibliothèque : il suffit de sélectionner l'option Générer une bibliothèque spectrale dans le volet de sortie.

DIA-NN peut en outre créer une bibliothèque spectrale prédite in silico à partir d'une base de données de séquences (assurez-vous que FASTA digest est activé) ou d'une autre bibliothèque spectrale (souvent utile pour les bibliothèques publiques) : exécutez simplement DIA-NN sans spécifier de fichiers bruts et activez l’option de prédiction des spectres basés sur l’apprentissage profond, des RT et des IM dans le volet Génération d’ions précurseurs . Les modifications actuellement prises en charge par le prédicteur d'apprentissage profond sont : C(cam), M(ox), N-term acétyle, N/Q(dea), S/T/Y(phos), K(-GG), nK( mTRAQ) et nK(TMT). Il convient de noter que si le module de prédiction de DIA-NN ne reconnaît pas une modification, il effectuera quand même une prédiction en l'ignorant simplement. Pour que DIA-NN élimine à la place tous les peptides présentant des modifications inconnues du prédicteur, utilisez --skip-unknown-mods.

Des bibliothèques spectrales peuvent également être créées à partir de données DDA, et en fait, le fractionnement hors ligne + DDA est la méthode de référence pour créer des bibliothèques depuis l'introduction de la protéomique SWATH/DIA. Pour cela, nous vous recommandons d'utiliser FragPipe, qui repose sur le moteur de recherche MSFragger ultra-rapide et très robuste. FragPipe peut en outre être utilisé pour créer des bibliothèques compatibles DIA-NN également à partir de données DIA, similaires à DIA-NN lui-même.

Match entre les courses

MBR est un mode puissant dans DIA-NN, qui est bénéfique pour la plupart des expériences quantitatives, à la fois avec une bibliothèque spectrale et en mode sans bibliothèque. Le MBR entraîne généralement à la fois des numéros d’identification moyens plus élevés, mais également une bien meilleure exhaustivité des données, c’est-à-dire beaucoup moins de valeurs manquantes.

Lors du traitement de n'importe quel ensemble de données, DIA-NN rassemble de nombreuses informations utiles qui auraient pu être utilisées pour mieux traiter les données. Et c'est ce qui est permis par MBR. Avec MBR, DIA-NN crée d'abord une bibliothèque spectrale à partir des données DIA, puis retraite le même ensemble de données avec cette bibliothèque spectrale. L'innovation algorithmique mise en œuvre dans DIA-NN garantit que le FDR est strictement contrôlé : le MBR a été validé sur des ensembles de données allant de 2 exécutions à plus de 1 000 exécutions.

Le MBR doit être activé pour toute expérience quantitative, à moins que vous ne disposiez d'une bibliothèque spectrale spécifique au projet de très haute qualité, qui, selon vous, (i) est susceptible de fournir une couverture presque complète des peptides détectables, cela ne sert à rien d'essayer sans bibliothèque recherche + MBR, et (ii) la plupart des peptides de la bibliothèque sont réellement détectables dans l'expérience DIA. Si seulement (i) est vrai, cela vaut peut-être la peine d'essayer MBR avec la génération de bibliothèque définie sur le profilage des ID .

Le MBR ne doit pas être utilisé pour des expériences non quantitatives, c'est-à-dire lorsque vous souhaitez uniquement créer une bibliothèque spectrale, que vous utiliserez ensuite sur un autre ensemble de données.

On peut « imiter » manuellement le MBR en utilisant une approche en deux étapes qui se traduira par des performances comparables. Tout d’abord, exécutez DIA-NN pour créer une bibliothèque spectrale à partir des analyses DIA (l’ensemble de l’expérience ou simplement son sous-ensemble, ce qui peut être beaucoup plus rapide pour les expériences à grande échelle ou les expériences incluant des essais à blanc/échoués). Utilisez ensuite cette bibliothèque pour analyser l’ensemble de l’expérience. Dans les deux cas, exécutez DIA-NN avec MBR désactivé.

Lorsque vous utilisez MBR (ou son imitation) et que vous vous appuyez sur le rapport principal .parquet (recommandé) au lieu des matrices quantitatives, utilisez les filtres de valeur q suivants :

Lib.Q.Value au lieu de Global.Q.Value
Lorsque vous appliquez un filtre à Q.Value qui est plus strict que le seuil FDR utilisé pour générer la bibliothèque DIA (par exemple filtre Q.Value < 0,001), appliquez toujours le même filtre à Lib.Q.Value.
Lib.PG.Q.Value au lieu de Global.PG.Q.Value
Lib.Peptidoform.Q.Value au lieu de Global.Peptidoform.Q.Value, lors de l'utilisation du score peptidoforme

Modification des paramètres par défaut

DIA-NN peut être utilisé avec succès pour traiter presque toutes les expériences avec les paramètres par défaut. En général, il est recommandé de modifier les paramètres uniquement lorsqu'il est spécifiquement conseillé de le faire dans cette documentation (comme ci-dessous), pour un type d'expérience spécifique, ou s'il existe une justification très claire et convaincante pour le changement.

Dans de nombreux cas, vous souhaiterez peut-être modifier plusieurs paramètres dans le volet Algorithme .

MBR doit être activé dans la plupart des cas, voir Match-between-runs.
Précisions de masse : lorsqu'il est défini sur 0,0, DIA-NN détermine automatiquement les tolérances de masse, en fonction soit de la première analyse de l'expérience (par défaut), soit, si l'option Exécutions non liées est sélectionnée, pour chaque analyse séparément. Cependant, l'algorithme automatique peut être affecté par le bruit dans les données, donc même pour des injections répétées, par exemple acquises sur TripleTOF 6600, il peut facilement donner les tolérances de précision de masse MS2 recommandées dans la plage de 15 ppm à 25 ppm - c'est parfaitement OK. Donc, ce que nous préférons faire dans la plupart des cas, c'est exécuter DIA-NN sur plusieurs acquisitions de l'expérience, avec n'importe quelle bibliothèque spectrale (on peut en choisir une petite qui permet une analyse rapide), voir quelles précisions de masse DIA-NN définit automatiquement (il imprime ses recommandations) et définissez les valeurs sur des moyennes approximatives de celles-ci. En outre, on sait déjà souvent quels paramètres DIA-NN sont optimaux pour des paramètres LC-MS particuliers.
Fenêtre de numérisation : devrait idéalement correspondre au nombre moyen approximatif de points de données par pic. De la même manière que les précisions de masse, DIA-NN peut les déterminer automatiquement, mais nous préférons qu'elles soient fixées à une valeur moyenne.

Veuillez également consulter les conseils sur la recherche sans bibliothèque, les PTM et les peptidoformes et le multiplexage à l'aide de plexDIA, si ceux-ci sont pertinents pour votre expérience.

Notez qu'une fois que vous avez sélectionné une option particulière dans l'interface graphique de DIA-NN, certains autres paramètres peuvent être activés automatiquement. Par exemple, chaque fois que vous choisissez d'effectuer un résumé de base de données FASTA in silico (pour une recherche sans bibliothèque), ou simplement de générer une bibliothèque spectrale à partir de données DIA, le MBR sera également automatiquement sélectionné - car dans 99 % des cas, il est bénéfique.

Outil de ligne de commande

DIA-NN est implémenté sous la forme d'une interface utilisateur graphique (GUI), qui invoque un outil de ligne de commande (diann.exe). L'outil de ligne de commande peut également être utilisé séparément, par exemple dans le cadre de pipelines de traitement automatisés personnalisés. De plus, même en utilisant l'interface graphique, on peut transmettre des options/commandes à l'outil de ligne de commande, dans la zone de texte Options supplémentaires . Certaines de ces options utiles sont mentionnées dans cette documentation et la référence complète est fournie dans Référence de ligne de commande.

Lorsque l'interface graphique lance l'outil de ligne de commande, elle imprime dans la fenêtre de journal l'ensemble exact des commandes qu'elle a utilisées. Ainsi, afin de reproduire le comportement observé lors de l'utilisation de l'interface graphique (par exemple si vous souhaitez faire l'analyse sur un cluster Linux), il suffit de passer exactement les mêmes commandes directement à l'outil de ligne de commande.

 diann.exe [commands]

Les commandes sont traitées dans l'ordre dans lequel elles sont fournies et, pour la plupart des commandes, cet ordre peut être arbitraire.

Sous Linux, le point-virgule ';' Le caractère est traité comme un séparateur de commande, donc ';' dans le cadre des commandes DIA-NN (par exemple --channels) doivent être remplacés par ';' sous Linux pour un comportement correct.

Pour plus de commodité, ainsi que pour gérer des expériences composées de milliers de fichiers, certaines options/commandes peuvent être stockées dans un fichier de configuration. Pour cela, créez un fichier texte avec n'importe quelle extension, par exemple diann_config.cfg, saisissez-y toutes les commandes prises en charge par DIA-NN, puis référencez ce fichier avec --cfg diann_config.cfg (dans la zone de texte Options supplémentaires ou dans la commande utilisée pour appeler l'outil de ligne de commande diann.exe).

Visualisation

DIA-NN propose deux options de visualisation.

Horizon . Pour visualiser les chromatogrammes/spectres dans Skyline, analysez votre expérience avec MBR et une base de données FASTA spécifiée, puis cliquez sur le bouton « Skyline ». DIA-NN lancera automatiquement Skyline (assurez-vous que la version quotidienne 23.1.1.459 ou ultérieure de Skyline/Skyline est installée en tant qu'« Installation administrateur »). Actuellement, ce flux de travail ne prend pas en charge le multiplexage et ne fonctionnera pas avec des modifications dans un format autre qu'UniMod.

Visionneuse DIA-NN . Analysez votre expérience en cochant la case "XICs" et cliquez sur le bouton "Viewer". Par défaut, l'option "XICS" fera des chromatogrammes d'extrait dia-nn pour les ions de fragment de bibliothèque uniquement et à moins de 10s de l'apex Elution. Utiliser --xid [n] pour définir la fenêtre de temps de rétention en n secondes (par exemple - 60, 60 extraire les chromatogrammes à moins d'une minute à compter de l'apex) et - Théorique, pour extraire toutes les charges 1 et 2 y / b - Fragments séries, y compris ceux qui ont des pertes neutres communes. Notez que l'utilisation de la FR - aux-thétique, en particulier en combinaison avec une grande fenêtre de temps de rétention, pourrait nécessiter une quantité importante d'espace disque dans le dossier de sortie. Cependant, la visualisation elle-même est effectivement instantanée, pour toute taille d'expérience.

Remarque : Les chromatogrammes extraits avec "XICS" sont enregistrés au format Apache .PARQUET (les noms de fichiers se terminent par '.xic.Parquet') et peuvent être facilement accessibles à l'aide de R ou Python. Cela peut parfois être pratique pour préparer des chiffres prêts pour la publication (bien qu'il puisse également le faire avec Skyline ou Dia-NN Viewer), ou même pour configurer un contrôle de qualité personnalisé automatique pour les performances LC-MS.

Les positions peptidiques et de modification au sein d'une protéine peuvent être visualisées en utilisant Alphamap par le Mann Lab https://github.com/mannlabs/alphamap.

Pipelines automatisés

La fenêtre du pipeline dans l'interface graphique dia-nn permet de combiner plusieurs étapes d'analyse dans les pipelines. Chaque étape de pipeline est un ensemble de paramètres affichés par l'interface graphique. On peut ajouter de telles étapes au pipeline, mettre à jour les étapes existantes, supprimer les étapes, déplacer les étapes vers le haut et le bas dans le pipeline, désactiver / activer (par double-clic de souris) certaines étapes dans le pipeline et les pipelines d'enregistrement / charge. En outre, les étapes de pipeline individuelles peuvent être copies entre différents onglets d'interface graphique / Windows (utilisez les boutons Copier et coller pour cela). Nous assemblons toujours tous les dia-nn exécutés pour une publication particulière dans un pipeline. On peut également utiliser des pipelines DIA-NN pour stocker des modèles de configuration.

PTM et peptidoforme

GUI DIA-NN présente des flux de travail intégrés (volet de génération d'ions précurseurs ) pour détecter l'oxydation de la méthionine, l'acétylation de la protéine N-terminale, la phosphorylation et l'ubiquitination (via la détection des adduits Remnant -gg sur les Lysines). D'autres modifications peuvent être déclarées en utilisant --var-mod ou - mod fixe dans des options supplémentaires .

La distinction entre les peptidoformes portant différents ensembles de modifications est un problème non trivial dans la DIA: sans score de peptidoforme spécial, le FDR efficace à peptidoforme peut être dans la plage de 5 à 10% pour les analyses sans bibliothèque. Dia-NN implémente une approche statistique cible-dépoy pour la notation des peptidoformes, qui est activée par l'option peptidoforme (volet d'algorithme ) et est également activée automatiquement chaque fois qu'une modification variable est déclarée, via les paramètres de l'interface graphique ou la commande --var-mod. Les valeurs Q à peptidoforme résultant reflètent la confiance du DIA-NN dans l'exactitude de l'ensemble des modifications rapportées pour le peptide ainsi que l'exactitude de la séquence d'acides aminés identifiée. Ces valeurs Q, cependant, ne garantissent pas l'absence de changements de masse bas en raison de certaines substitutions ou de modifications des acides aminés tels que la désamidation (notez que le DDA ne garantit pas cela non plus).

De plus, Dia-NN présente un algorithme qui rapporte des estimations de confiance de localisation PTM (comme probabilités postérieures pour la localisation correcte de tous les sites PTM variables sur le peptide ainsi que les scores pour les sites individuels), inclus dans le rapport de sortie .Parquet. Les fichiers phosphosites_90 et phosphosites_99. quantité dans la course donnée. L'algorithme «top 1» est utilisé ici car il est probablement le plus robuste contre les valeurs aberrantes et les erreurs de mauvaise localisation. Cependant, qu'il s'agisse en effet ou non de la meilleure option doit être étudiée, ce qui est actuellement difficile en raison du manque de repères avec une vérité au sol connue.

En général, lorsque vous recherchez des PTM, nous recommandons ce qui suit:

Essential: les modifications variables que vous recherchez doivent être spécifiées comme variable (via les cases à cocher GUI ou les options supplémentaires ) à la fois lors de la génération d'une bibliothèque prédite in silico et également lors de l'analyse des données brutes à l'aide de n'importe quelle bibliothèque prédite ou empirique
Paramètres de phosphorylation: modifications de variables max 3, clivage maximum de max 1, phosphorylation est la seule modification variable spécifiée, plage de charge précurseur 2-3; Pour réduire l'utilisation de la RAM, assurez-vous que la plage de masse précurseur spécifiée (lors de la génération d'une bibliothèque prévue) n'est pas plus large que la plage de masse précurseur sélectionnée pour MS / MS par la méthode DIA; Pour accélérer le traitement lors de l'utilisation d'une bibliothèque prévue, générez d'abord une bibliothèque basée sur DIA à partir d'un sous-ensemble d'exécutions d'expérience (par exemple 10+ meilleures exécutions), puis analysez l'ensemble de données en utilisant cette bibliothèque basée sur DIA avec MBR Discabled
Lorsque ce qui précède réussit, essayez également les clivages manqués Max 2
Lorsque vous recherchez des PTM autres que la phosphorylation, dans 95% des cas, il est préférable d'utiliser des modifications variables max 1 à 3 et le clivage manqué Max 1
Lorsqu'il ne recherche pas de PTM, c'est-à-dire que lorsque l'objectif est une quantification relative des protéines, l'activation de modifications variables ne produit généralement pas une profondeur protéomique plus élevée. Bien que cela ne fait généralement pas de mal non plus, cela rendra le traitement plus lent.

À notre connaissance, il n'y a pas de validation publiée de la confiance d'identification pour la détection des peptides désamidés (qui sont faciles à confondre pour les isotopologues plus lourds, à moins que la spécification de masse ait une très haute résolution et une précision de masse / tolérance serrée est utilisé par le moteur de recherche), même pour DDA. Une façon de gagner en confiance dans l'identification des peptides désamidés est de vérifier si quelque chose est identifié si le delta de masse pour la désamidation est déclaré 1,022694, au lieu de la valeur correcte 0,984016. DIA-NN passe ce test avec succès sur plusieurs ensembles de données (ce qui est aucun IDS n'est signalé lors de la spécification de cette `` masse de modification de leurre ''), mais nous recommandons également d'essayer une telle recherche de «masse de modification de leurre» sur plusieurs exécutions à partir de l'expérience à analyser , si vous recherchez des peptides désamidés. Dans chaque cas (masse correcte ou leurre), les --ptm-qvalues doivent être utilisés pour permettre une notation spécifique à PTM pour la désamidation, en plus de la notation du peptidoforme, et soit PTM.Q.Value ou Global.q.Value / Lib. Q.Value utilisée pour le filtrage.

Il convient de noter que lorsque l'objectif ultime est l'identification des protéines, il est largement hors de propos si un peptide modifié est mal identifié, en étant apparié à un spectre provenant d'un peptido-orie différent. Par conséquent, si le but de l'expérience est d'identifier / de quantifier des PTM spécifiques, des substitutions d'acides aminés ou de distinguer les protéines avec une identité de séquence élevée, l'option de notation des peptidoformes est recommandée. Dans tous les autres cas, la notation des peptidoformes est généralement correcte à utiliser mais pas nécessaire, et conduira généralement à un traitement quelque peu plus lent et à une légère diminution des nombres d'identification lors de l'utilisation de MBR.

Dia-NN doit-il reconnaître les modifications de la bibliothèque spectrale?

En général, oui. Cependant, la plupart des workflows fonctionneront sans avoir besoin de reconnaître les modifications. Bien que si des modifications inconnues soient détectées dans la bibliothèque, Dia-NN imprimera un avertissement répertoriant ceux-ci, et il est fortement recommandé de les déclarer en utilisant --mod. Notez que Dia-NN reconnaît déjà de nombreuses modifications courantes et peut également charger la base de données UniMod entière, voir l'option --full-Unimod.

Multiplexage à l'aide de Plexdia

En collaboration avec le laboratoire Slavov, nous avons développé de la Plexdia basée sur DIA-NN, une technologie qui permet de bénéficier d'un multiplexage non isobare (MTRAQ, diméthyl, Silac) en combinaison avec DIA. Pour analyser une expérience de Plexdia, il faut une bibliothèque spectrale prédite ou empirique prédite ou empirique. DIA-NN doit ensuite être fourni avec les ensembles de commandes suivants, selon le scénario d'analyse.

Scénario 1 . La bibliothèque est une bibliothèque régulière sans étiquette (empirique ou prévue), et le multiplexage est obtenu uniquement avec un marquage isotopique, c'est-à-dire sans marquage chimique avec des étiquettes telles que le MTRAQ ou le diméthyle. DIA-NN a alors besoin des options suivantes pour être ajoutées à des options supplémentaires :

- mod fixe, pour déclarer le nom de base des étiquettes de canal et des acides aminés associés
--lib-fixed-mod, to in silico appliquer la modification déclarée avec - mod fixe à la bibliothèque
- Channels, pour déclarer les changements de masse pour tous les canaux considérés
- modes originaux, pour empêcher le dia-nn de convertir les modifications déclarées en unimod

Exemple pour les étiquettes Silac L / H sur K et R:

 --fixed-mod SILAC,0.0,KR,label
--lib-fixed-mod SILAC
--channels SILAC,L,KR,0:0; SILAC,H,KR,8.014199:10.008269
--original-mods

Notez que dans le Silac ci-dessus est déclaré comme étiquette, c'est-à-dire qu'il n'est pas censé changer le temps de rétention du peptide. C'est également une étiquette de masse zéro ici, car elle ne sert qu'à désigner les acides aminés qui seront étiquetés. Ce que la combinaison de - mod fixe et de-lib-lib-mod fait ici est simplement mis (silac) après chaque K ou R dans la séquence d'ID précurseur, dans la représentation interne de la bibliothèque utilisée par dia-nn. - Channels partage ensuite chaque entrée de bibliothèque en deux, une avec des masses 0 (k) et 0 (r) ajoutées à chaque occurrence de k (silac) ou r (silac) dans la séquence, respectivement, et une autre avec 8,014199 (K ) et 10.008269 (R).

Scénario 2 . La bibliothèque est une bibliothèque régulière sans étiquette (empirique ou prévue), et le multiplexage est obtenu via un marquage chimique avec MTRAQ.

Scénario 2: Étape 1. Étiquetez la bibliothèque in silico avec MTRAQ et exécutez le prédicteur en profondeur pour ajuster les spectres / RTS / IMS. Pour cela, exécutez Dia-NN avec la bibliothèque d'entrée dans le champ Spectral Library , une bibliothèque de sortie spécifiée, des spectres basés sur l'apprentissage en profondeur, la prédiction RTS et IMS activées, la liste des fichiers de données bruts vides et les options suivantes dans des options supplémentaires :

 --fixed-mod mTRAQ,140.0949630177,nK
--lib-fixed-mod mTRAQ
--channels mTRAQ,0,nK,0:0; mTRAQ,4,nK,4.0070994:4.0070994;mTRAQ,8,nK,8.0141988132:8.0141988132
--original-mods

Utilisez le fichier .predit.speclib avec le nom correspondant à la bibliothèque de sortie comme bibliothèque spectrale pour l'étape suivante.

Scénario 2: Étape 2. Exécutez Dia-NN avec les options suivantes:

 --fixed-mod mTRAQ,140.0949630177,nK
--channels mTRAQ,0,nK,0:0; mTRAQ,4,nK,4.0070994:4.0070994;mTRAQ,8,nK,8.0141988132:8.0141988132
--original-mods

Notez que - le mod fixe-lib n'est plus nécessaire car la bibliothèque générée à l'étape 1 contient déjà (MTRAQ) à l'extrémité N-terminale et lysines de chaque peptide.

Scénario 3 . La bibliothèque est une bibliothèque régulière sans étiquette (empirique ou prévue), et le multiplexage est obtenu via un marquage chimique avec un label autre que MTRAQ. La raison pour laquelle ce scénario est traité différemment du scénario 2 est que le prédicteur in-silico de Dia-NN n'a pas été spécifiquement formé pour des étiquettes autres que MTRAQ, et donc une étape supplémentaire pour générer des prédictions n'est pas nécessaire. Exécutez simplement DIA-NN comme vous le feriez dans le scénario 1, sauf que la déclaration de mod fixée aura une masse non nulle dans ce cas et ne sera pas une étiquette. Par exemple, pour le diméthyle à 5 canaux comme décrit par Thielert et al:

 ‐‐fixed‐mod Dimethyl, 28.0313, nK
--lib-fixed-mod Dimethyl
‐‐channels Dimethyl,0,nK,0:0; Dimethyl,2,nK,2.0126:2.0126; Dimethyl,4,nK,4.0251:4.0251; Dimethyl,6,nK,6.0377:6.0377; Dimethyl,8,nK,8.0444:8.0444
--original-mods

Scénario 4 . La bibliothèque est une bibliothèque de DIA empirique générée par DIA-NN à partir d'un ensemble de données DIA multiplexé. Par exemple, il pourrait s'agir d'une bibliothèque générée par Dia-NN dans la première passe de MBR (et vous souhaitez le réutiliser pour analyser les mêmes courses ou d'autres séries). Les options supplémentaires seront alors les mêmes que dans le scénario 1, scénario 2: étape 2 ou scénario 3, sauf (important!) - Le-mod-lib fixe ne doit pas être fourni.

Dans tous les scénarios ci-dessus , une option supplémentaire spécifiant la stratégie de normalisation doit être incluse dans des options supplémentaires . Cela peut être soit - normale canal-norme (silac pulsé, renouvellement des protéines) ou-canal-norme (multiplexage d'échantillons indépendants).

Sortir . Nous vous recommandons d'utiliser le rapport principal au format .PARQUET pour toutes les analyses en aval. Notez que PG.Q.Value et GG.Q.Value dans le rapport principal sont spécifiques au canal, lors de l'utilisation du multiplexage. Les quantités pg.maxlfq, gènes.maxlfq et gènes.maxlfq.Unique ne sont que spécifiques au canal si (i) quantum est utilisé et (ii) le rapport correspond au deuxième col de MBR ou MBR n'est pas utilisé. Alternativement, on peut utiliser les matrices (non recommandées), ce sont uniquement au niveau du précurseur. Lorsque vous utilisez des matrices, il est essentiel de spécifier - matrice-ch-qvalue, avec des seuils raisonnables de 0,01 à 0,5. Ce paramètre n'affectera pas la matrice MS1 extraite, qui rapporte simplement les signaux MS1 correspondant à chaque canal, chaque fois qu'un précurseur est identifié dans l'un des canaux - l'utilisation de cette matrice n'est normalement pas recommandée. Les matrices de protéines ne sont pas produites lors de l'analyse des données multiplexées.

Référence des paramètres de l'interface graphique

Description des options sélectionnées

Volet d'entrée

Convertir en .DIA Convertir les fichiers bruts sélectionnés au format .dia Dia-NN, pour un traitement ultérieur plus rapide, et enregistrez-les soit dans le même dossier que les fichiers bruts de source respectifs, soit en Temp / .Dia Dir (Pane de sortie ), si le ce dernier est spécifié. La conversion est recommandée pour les fichiers SCIEX, fait généralement peu de différence pour les fichiers Thermo et n'est pas recommandé pour les fichiers Bruker.
L'option de réannotate permet de réanner la bibliothèque spectrale avec des informations protéiques de la base de données FASTA, en utilisant la spécificité de digestion spécifiée
Les contaminants ajoutent des contaminants courants de la base de données Cambridge Center for Proteomics (CCP) et les excluent automatiquement de la quantification, voir la description de l'option --contac-qui-exclure. Cette option s'applique lors de la génération d'une bibliothèque spectrale prévue à partir d'une base de données FASTA ou d'une analyse à l'aide d'une telle bibliothèque, si elle a été générée avec des contaminants activés.

Volet de génération d'ions précurseurs

Fasta Digest demande à Dia-NN de digérer Silico la base de données de séquence, pour la recherche sans bibliothèque ou pour générer une bibliothèque spectrale dans Silico
La prédiction des spectres, RTS et IMS basés sur l'apprentissage en profondeur demande à Dia-NN d'effectuer une prédiction basée sur l'apprentissage en profondeur des spectres, des temps de rétention et des valeurs de mobilité ionique. Cela permet non seulement de fabriquer des bibliothèques spectrales in silico à partir de bases de données de séquence, mais aussi de remplacer les spectres / RTS / IMS dans les bibliothèques existantes par des valeurs prévues

Volet de sortie

Utilisez des fichiers.
Temp / .Dia DIR Spécifiez où les fichiers.

Volet d'algorithme

Précision de masse Définissez la tolérance de masse MS2 (en PPM), voir Modification des paramètres par défaut
Précision de masse MS1 Définir la tolérance de masse MS1 (en PPM), voir Modification des paramètres par défaut
La fenêtre de numérisation définit le rayon de fenêtre de balayage sur une valeur spécifique. Idéalement, devrait être approximativement égal au nombre moyen de points de données par pic, voir Modification des paramètres par défaut
Les analyses non apparentées déterminent les précisions de masse et la fenêtre de numérisation, si automatique, indépendamment pour différentes exécutions, voir [Modification des paramètres par défaut] (# Modification des paramètres par défaut
Les peptidoformes active la notation de la confiance des peptidoformes, voir PTMS et peptidoformes
MBR permet à MBR, devrait être activé pour la plupart des expériences quantitatives, voir MBR
Pas de spectres partagés , s'il faut utiliser un algorithme de type centré sur le spectre pour éliminer les précurseurs interférents. Cet algorithme est particulièrement important lors de l'examen des modifications variables et doit toujours être activé
Le classificateur de réseau neuronal ici «un seul passage» est l'option par défaut et est recommandé. Le mode «double pass» peut être meilleur dans certains scénarios, mais il est presque deux fois plus lent et il pourrait rendre les valeurs FDR signalées légèrement moins conservatrices. Le mode double passe doit être testé contre un seul passage sur l'ensemble de données spécifique, avant qu'une décision ne soit prise de l'utiliser.
Inférence des protéines Ce paramètre affecte principalement la définition de la protéotype, les "gènes" par défaut sont recommandés pour presque toutes les applications, à condition que les informations au niveau du gène soient réellement présentes dans la base de données (les bases de données non-Uniprot pourraient en manquer). Lorsqu'elles sont définies sur "OFF", les groupes de protéines de la bibliothèque spectrale sont utilisés - il est logique que l'inférence des protéines ait déjà été effectuée pendant la génération de bibliothèque
Stratégie de quantification quantique (haute précision) est recommandée pour la plupart des scénarios, utilisez quantum (haute précision) pour des expériences où l'élimination de tout biais de compression de rapport est critique
Normalisation croisée dans le cadre de l'utilisation globale, dépendante de RT (recommandée) ou également de normalisation croisée (expérimentale, expérimentale, très prudente). La normalisation peut également être désactivée en utilisant -
Génération de bibliothèque Ce paramètre détermine si et comment les RT / IM et spectres empiriques sont ajoutés à la bibliothèque nouvellement générée, au lieu des valeurs théoriques. Le profilage IDS, RT & IM est fortement recommandé pour presque tous les workflows. Lors de l'analyse avec une bibliothèque spécifique au projet de haute qualité, peut passer au profilage IDS. Le profilage complet signifie toujours l'utilisation d'informations empiriques et ne peut être bénéfique (dans de très rares cas) que lorsque vous ayez moins de ~ 1000 peptides identifiés par exécution, et seulement si le traitement en aval n'est pas très sensible à un FDR un peu plus élevé.
Vitesse et utilisation de la RAM Ce paramètre est principalement utile pour les analyses sans bibliothèque. Les trois premiers modes auront généralement peu de différence en termes de numéros d'identification, tandis que le mode ultra-rapide est plutôt extrême: environ 5x plus rapidement, mais les numéros d'identification ne sont pas aussi bons et le FDR efficace pourrait être un peu plus élevé. Le paramètre n'affecte que la première passe lors de l'utilisation de MBR

Référence de ligne de commande

Description des options / commandes disponibles

Notez que certaines options ci-dessous sont fortement préjudiciables aux performances et ne sont là qu'à des fins d'analyse comparative. La recommandation consiste donc à utiliser uniquement les options qui devraient être bénéfiques pour une expérience particulière (par exemple celles recommandées dans la présente documentation) sur la base d'une justification claire.

--CFG [Nom de fichier] Spécifie un fichier pour charger des options / commandes à partir de
- La normalisation de la normalisation des normes de canal des échantillons multiplexés sera effectuée de manière spécifique à l'exécution, c'est-à-dire pour effectuer une normalisation, pour chaque dia-nn précurseur de résumer les canaux respectifs dans chaque exécution et normalisera ces sommes à travers les courses: utilisez EG Pour le renouvellement des protéines, les expériences de silac
- La normalisation du canal-norme d'échantillons multiplexés sera effectuée de manière spécifique au canal, c'est-à-dire que chaque canal de chaque analyse est traité comme un échantillon distinct à normaliser: utiliser pour analyser les expériences dans lesquelles le multiplexage des échantillons indépendants est utilisé pour augmenter le débit de débit
- Channels [Channel 1]; [canal 2]; ... répertorie les canaux de multiplexage, dans lesquels chaque déclaration de canal a la forme [canal] = [groupe d'étiquettes], [nom de canal], [sites], [Mass1: Mass2: ...], où [Sites] a la même syntaxe Quant à --var-mod et si n sites sont répertoriés, les masses N sont répertoriées à la fin de la déclaration de la chaîne. La bibliothèque spectrale sera automatiquement divisée en plusieurs canaux, pour les précurseurs portant la modification [du groupe d'étiquettes]. Pour ajouter ce dernier à une bibliothèque spectrale sans étiquette, peut utiliser un silac à module fixe-lib, par exemple - silac mod fixe, 0,0, kr, silac à module fixe-lib. Voir le multiplexage à l'aide de la plexdia pour des exemples d'utilisation
- Clear-mods fait dia-nn `` oublier '' tous les noms de modification intégrée (PTM)
- Compacte-Report demande à Dia-NN de fournir moins d'informations dans le rapport .TSV principal
- Les peptides de contacte-contacter [TAG] correspondant aux ID de séquence de protéines marqués avec l'étiquette spécifiée seront exclus de la normalisation ainsi que de la quantification des groupes de protéines qui n'incluent pas les protéines avec l'étiquette
--Convert fait que dia-nn convertit les fichiers de spécifications de masse au format .dia. Les fichiers sont enregistrés au même emplacement que les fichiers d'entrée, soit dans le Temp / .Dia Dir, s'il est spécifié (dans l'interface graphique ou à l'aide de l'option --Temp)
- CUT [Spécificy 1], [Spécificité 2], ... Spécifie la spécificité de clivage pour le digest in silico. Les sites de clivage (paires d'acides aminés) sont répertoriés séparés par des virgules, «*» indique tout acide aminé et «! indique que le site respectif ne sera pas clivé. Exemples: "- CUT K *, R * ,! * P" - Spécificité tryptique canonique, "- CUT" - Digest Disabled
--decoy-channel [canal] spécifie les masses de canal de leurre, où [canal] a la même syntaxe que pour - Channels
--Decoys-préserve spectre informe dia-nn que les peptides de leurre dans la bibliothèque sont déjà annotés avec des spectres «leurre»
--Dir [dossier] Spécifie un dossier contenant des fichiers bruts à traiter. Tous les fichiers du dossier doivent être au format .raw, .mzml ou .dia
- Direct-Quant Disable Quantum et utiliser des algorithmes de quantification dia-nn hérités à la place, désactive également la quantification des protéines spécifiques au canal lors de l'analyse des échantillons multiplexés
--DL-NO-IM Lors de l'utilisation du prédicteur de l'apprentissage en profondeur, la prédiction des mobilités ioniques ne sera pas effectuée
--DL-NO-RT Lors de l'utilisation du prédicteur en profondeur, la prédiction des temps de rétention ne sera pas effectuée
- Les protéines-duplicataires indiquent que dia-nn de ne pas sauter les entrées dans la base de données de séquences avec des ID en double (tandis que par défaut si plusieurs entrées ont le même ID de protéine, tout sauf la première entrée sera ignoré)
- EXACT-FDR L'estimation FDR approximative pour les peptides confiants basés sur la modélisation paramétrique sera désactivé
- Export-Quant Ajouter des quantités de fragments et des informations de qualité au rapport de sortie .PARQUET
--Ext [String] ajoute une chaîne à la fin de chaque nom de fichier (spécifié avec --f)
--f [Nom de fichier] Spécifie une exécution à analyser, utilisez plusieurs commandes - F pour spécifier plusieurs exécutions
--FASTA [Nom de fichier] Spécifie une base de données de séquences au format Fasta (support complet pour les protéomes Uniprot), utilisez plusieurs commandes - fasta pour spécifier plusieurs bases de données
- Filter-Filter [Nom du fichier] Considérez uniquement les peptides correspondant aux séquences dépouillées spécifiées dans le fichier texte fourni (une séquence par ligne), lors du traitement d'une base de données de séquences
--Fasta-Search demande à Dia-NN d'effectuer un digest in silico de la base de données de séquences
- Fixed-Mod [Name], [Mass], [Sites], [Facultatif: 'Label'] - Ajoute le nom de modification à la liste des noms reconnus et spécifie la modification comme fixe. Même syntaxe que pour --var-mod.
- Force-SwissProt ne considérez que SwissProt (c'est-à-dire marqué des séquences '> sp |') lors du traitement d'une base de données de séquences
- Foreign-Decoys informe Dia-nn que tous les leurres inclus dans la bibliothèque ont été générés par un outil autre que cette version de Dia-NN
--Full-Unimod charge la base de données de modification UniMod complète et désactive la conversion automatique des noms de modification au format UniMod
--Gen-Spec-lib demande à DIA-NN de générer une bibliothèque spectrale
--Gen-Fr-Restriction Annote la bibliothèque avec des informations d'exclusion de fragments, en fonction des analyses analysées (les fragments les moins affectés par les interférences sont sélectionnés pour la quantification, pourquoi les autres sont exclus)
- Global-Mass-Cal désactive l'étalonnage de masse dépendant de RT
- Global Norm demande à DIA-NN d'utiliser une normalisation globale simple au lieu de la normalisation dépendante de RT
- Les paramètres quantiques de hauteur-ACC seront ootisés pour une précision maximale, c'est-à-dire pour minimiser tout biais quantitatif de compression de ratio
- Les ID de séquence de protéines de noms à noms seront également utilisés comme noms de protéines et gènes, toutes les informations sur les noms ou gènes de protéines réels seront ignorés
--il-eq (expérimental) Lorsque vous utilisez la fonction «réannotate», les peptides seront appariés aux protéines tout en considérant l'isoleucine et l'équivalent de la leucine
--im-window [x] corrige la fenêtre d'extraction IM sur la valeur spécifique
--im-window-factor [x] contrôle la taille minimale de la fenêtre d'extraction IM, la valeur par défaut est 2.0
- Les précisions de masse de masse-acc-individuelle , si elles sont présentées sur automatique, seront déterminées indépendamment pour différentes courses
- Individual-Reports Un rapport de sortie séparé sera créé pour chaque exécution
- La fenêtre de numérisation des fenêtres individuelles , si elle est définie sur automatique, sera déterminée indépendamment pour différentes analyses
- Intrassement 0 désactive la suppression des précurseurs interférents
--lib [Nom de fichier] Spécifie une bibliothèque spectrale. L'utilisation de plusieurs commandes - lib (expérimental) permet de charger plusieurs bibliothèques au format .tsv

Développer

Informations supplémentaires

Version DIA-NN 1.9.2
Type Autre code source
Date de mise à jour 2024-11-14
taille 50MB
Provenant de Github

Applications connexes

waymo open dataset

2024-11-18
SmartTube

2024-12-14
Sunamu

2024-12-14
MySchedule.py

2024-12-15
viptools for eslam

2024-12-15
VITAident

2024-12-15

Recommandé pour vous

chat.petals.dev

Autre code source

1.0.0
GPT Prompt Templates

Autre code source

1.0.0
GPTyped

Autre code source

GPTyped 1.0.5
waymo open dataset

Autre code source

December 2023 Update
SmartTube

Autre code source

24.71 Stable
Sunamu

Autre code source

Release 2.2.0
waymo open dataset

Autre code source

December 2023 Update
wp functions

Autres catégories

1.0.0
termwind

Autres catégories

v2.3.0

Actualités connexes Tout