DIA-NN: un paquete de software universal para el procesamiento de datos proteómicos de adquisición independiente de datos (DIA). Concebido en la Universidad de Cambridge, Reino Unido, en el laboratorio de Kathryn Lilley (Centro de Proteómica de Cambridge), DIA-NN abrió un nuevo capítulo en proteómica, introduciendo una serie de algoritmos que permitieron experimentos a gran escala fiables, robustos y cuantitativamente precisos utilizando métodos de alto rendimiento. Actualmente, DIA-NN se está desarrollando en el laboratorio de Vadim Demichev en la Charité (Universidad de Medicina de Berlín, Alemania).
DIA-NN se basa en los siguientes principios:
Descargar : https://github.com/vdemichev/DiaNN/releases/tag/1.9.2 (se recomienda utilizar la última versión: DIA-NN 1.9.2)
Por favor cite:
DIA-NN: redes neuronales y corrección de interferencias
permitir una cobertura profunda del proteoma en Nature Methods de alto rendimiento , 2020
Uso de DIA-NN para el análisis de modificaciones postraduccionales (PTM), como la fosforilación o la ubiquitinación: el perfil de ubiquitinoma in vivo resuelto en el tiempo mediante DIA-MS revela objetivos de USP7 a escala de proteoma completo Nature Communications, 2021
Uso del módulo de movilidad iónica de DIA-NN para el análisis de datos timsTOF o uso de DIA-NN en combinación con bibliotecas espectrales generadas por FragPipe: análisis de datos dia-PASEF utilizando FragPipe y DIA-NN para proteómica profunda de cantidades bajas de muestras Nature Communications, 2022
Uso de DIA-NN para el análisis de muestras multiplexadas (SILAC, mTRAQ, etc.): aumento del rendimiento de proteómica sensible mediante plexDIA Nature Biotechnology, 2022
Uso de DIA-NN como parte del flujo de trabajo de CysQuant: CysQuant: cuantificación simultánea de la oxidación de cisteína y la abundancia de proteínas mediante espectrometría de masas de adquisición independiente o dependiente de datos Redox Biology, 2023
Uso del módulo QuantUMS de DIA-NN para la cuantificación: QuantUMS: la minimización de la incertidumbre permite una cuantificación segura en proteómica biorxiv
Uso de DIA-NN para procesar datos de Slice-PASEF: Slice-PASEF: fragmentación de todos los iones para máxima sensibilidad en proteómica biorxiv
Otros documentos clave
Paquete R con algunas funciones útiles para manejar los informes de salida de DIA-NN: https://github.com/vdemichev/diann-rpackage
Visualización de posiciones de péptidos en la proteína: https://github.com/MannLabs/alphamap (AlphaMap by Mann lab)
Notas y discusiones sobre proteómica en general y el uso de DIA-NN: https://github.com/vdemichev/DiaNN/discussions/categories/dia-proteomics-in-detail (esta sección se ampliará aún más).
Instalación
Empezando
Formatos de datos sin procesar
Formatos de biblioteca espectral
Producción
Búsqueda sin biblioteca
Creación de bibliotecas espectrales.
Partido entre carreras
Cambiar la configuración predeterminada
Herramienta de línea de comandos
Visualización
Tuberías automatizadas
PTM y peptidoformas
Multiplexación usando plexDIA
Referencia de configuración de GUI
Referencia de línea de comando
Referencia de salida principal
Preguntas frecuentes (FAQ)
Apoyo
En Windows , descargue el instalador .exe y ejecútelo. Asegúrese de no ejecutar el instalador desde una unidad de red. Se recomienda instalar DIA-NN en la carpeta predeterminada sugerida por el instalador. Alternativamente, simplemente descomprima el archivo .binaries.zip en la ubicación que elija.
En Linux , descargue y descomprima el archivo .Linux.zip. La versión Linux de DIA-NN se genera en Linux Mint 21.2 y el sistema de destino debe tener las bibliotecas estándar que sean al menos tan recientes. Sin embargo, no existe tal requisito si crea una imagen de contenedor Docker o Apptainer/Singularity. Para generar cualquiera de los contenedores, recomendamos comenzar con la última imagen de Debian Docker; en este caso, solo necesita instalar sudo apt install libgomp1
antes de poder ejecutar DIA-NN en él. Consulte también la excelente guía detallada de Roger Olivella. Para obtener el mejor rendimiento, utilice mimalloc con anulación dinámica como se describe aquí https://github.com/microsoft/mimalloc.
También es posible ejecutar DIA-NN en Linux usando Wine 6.8 o posterior.
Los datos de espectrometría de masas DIA se pueden analizar de dos maneras: buscando en una base de datos de secuencias (modo sin biblioteca) o utilizando una "biblioteca espectral", un conjunto de espectros y tiempos de retención conocidos para péptidos seleccionados. Analizamos en detalle cuándo utilizar cada uno de estos enfoques en la sección de búsqueda sin biblioteca. Para ambos tipos de análisis, utilizar DIA-NN es muy sencillo:
Ahora, la información anterior es suficiente para comenzar a usar DIA-NN. ¡De hecho, es así de fácil! El resto de esta Documentación puede ser útil, pero no es esencial para el 99% de los proyectos.
Lo anterior explica cómo ejecutar DIA-NN con la configuración predeterminada, que produce un rendimiento óptimo o casi óptimo para la mayoría de los experimentos. Sin embargo, en algunos casos es mejor ajustar la configuración; consulte Cambiar la configuración predeterminada para obtener más detalles.
DIA-NN también ofrece potentes opciones de ajuste para experimentos sofisticados. DIA-NN se implementa como una interfaz gráfica fácil de usar que invoca automáticamente una herramienta de línea de comandos. Pero el usuario también puede pasar opciones/comandos a la herramienta de línea de comandos directamente, a través del cuadro de texto Opciones adicionales en la interfaz. Todas estas opciones comienzan con un guión doble, seguido del nombre de la opción y, si corresponde, algunos parámetros que se configurarán. Entonces, si ve alguna opción/comando con -- en su nombre mencionado en esta Documentación, significa que este comando debe escribirse en el cuadro de texto Opciones adicionales .
Formatos soportados: Sciex .wiff, Bruker .d, Thermo .raw, .mzML y .dia (formato utilizado por DIA-NN para almacenar espectros). Es posible la conversión de cualquier formato compatible a .dia. Cuando se ejecuta en Linux (compilaciones nativas, no Wine), solo se admiten datos .d, .mzML y .dia.
Para compatibilidad con .wiff, descargue e instale ProteoWizard; elija la versión (64 bits) que admita "archivos de proveedor"). Luego copie todos los archivos con 'Clearcore' o 'Sciex' en su nombre (serán archivos .dll) de la carpeta ProteoWizard a la carpeta de instalación de DIA-NN (la que contiene diann.exe, DIA-NN.exe y un muchos otros archivos).
La lectura de archivos Thermo .raw requiere la instalación de Thermo MS File Reader. Es imprescindible utilizar específicamente la versión del enlace anterior (3.0 SP3).
Los archivos .mzML deben tener centroide y contener datos como espectros (por ejemplo, SWATH/DIA) y no cromatogramas.
Muchos formatos de especificaciones de masas, incluidos aquellos pocos que no son compatibles directamente con DIA-NN, se pueden convertir a .mzML utilizando la aplicación MSConvertGUI de ProteoWizard. Esto funciona para todos los formatos compatibles, excepto Bruker .d y SCIEX Scanning SWATH; DIA-NN debe acceder a ellos directamente. Se deben utilizar las siguientes configuraciones de MSConvert para la conversión:
DIA-NN admite tablas separadas por comas (.csv), separadas por tabulaciones (.tsv, .xls o .txt) o .parquet como bibliotecas espectrales, así como .speclib (formato compacto utilizado por DIA-NN), .sptxt (SpectraST, experimental) y archivos de biblioteca .msp (NIST, experimental). Importante: la biblioteca no debe contener iones precursores no fragmentados como "fragmentos": cada ion fragmentado debe ser producido realmente por la fragmentación del esqueleto peptídico.
Las bibliotecas en formato PeakView, así como las bibliotecas producidas por FragPipe, TargetedFileConverter (parte de OpenMS), exportadas desde Spectronaut (Biognosys) en formato .xls o generadas por el propio DIA-NN, se admiten "tal cual".
Para las bibliotecas .tsv/.xls/.txt generadas por otros medios, DIA-NN puede requerir que se especifiquen los nombres de los encabezados (separados por comas) (para las columnas que requiere) usando el comando --library-headers. Utilice el símbolo * en lugar del nombre de un encabezado para mantener su reconocimiento automático. Vea a continuación las descripciones de las respectivas columnas (en el orden en que deben especificarse los encabezados).
Columnas requeridas:
Se recomienda encarecidamente que las columnas que contengan lo siguiente también estén presentes en la biblioteca:
Por ejemplo, un comando --library-headers que especifica todos los nombres de las columnas excepto la columna 'Señuelo' puede verse así:
--library-headers Péptido modificado, Carga precursora, PrecursorMz, Tr_recalibrated, ProductMz, LibraryIntensity, UniprotID, Nombre de proteína, Genes, Proteotípico,*, FragmentCharge, FragmentType, FragmentSeriesNumber, FragmentLossType, QValue, ExcludeFromAssay, IonMobility
Utilice --sptxt-acc para configurar la precisión masiva del filtrado de fragmentos (en ppm) al leer bibliotecas .sptxt/.msp.
MaxQuant msms.txt también se puede utilizar (experimentalmente) como biblioteca espectral en DIA-NN, aunque es posible que las modificaciones fijas no se lean correctamente.
DIA-NN puede convertir cualquier biblioteca que admita a su propio formato .parquet. Para esto, haga clic en Biblioteca espectral (panel de entrada ), seleccione la biblioteca que desea convertir, seleccione el nombre del archivo de la biblioteca de salida (panel de salida ), haga clic en Ejecutar . Si usa algún formato de biblioteca exótico, es una buena idea convertirlo al .parquet de DIA-NN y luego examinar la biblioteca resultante (usando el paquete R 'arrow' o Python 'pyarrow') para ver si el contenido tiene sentido.
Todas las bibliotecas .tsv/.xls/.txt/.csv/.parquet son simplemente tablas simples con datos legibles por humanos y se pueden explorar/editar, si es necesario, usando Excel o (idealmente) R/Python.
Es importante destacar que cuando se convierte una biblioteca a un formato diferente, todos los números se pueden redondear usando cierta precisión decimal, lo que significa que es posible que no sean exactamente iguales que en la biblioteca original (puede haber una pequeña diferencia). Por lo tanto, aunque el rendimiento al analizar utilizando una biblioteca convertida será comparable, los resultados no coincidirán exactamente.
El panel Salida permite especificar dónde se debe guardar la salida, así como los nombres de los archivos para el informe de salida principal y (opcionalmente) la biblioteca espectral de salida. DIA-NN utiliza estos nombres de archivos para derivar los nombres de todos sus archivos de salida. A continuación se puede encontrar información sobre los diferentes tipos de salida DIA-NN. Para la mayoría de los flujos de trabajo, solo se necesita el informe principal (para análisis en R o Python, recomendado) o las matrices (salida simplificada para MS Excel). Cuando la generación de matrices de salida está habilitada, DIA-NN también produce un archivo .manifest.txt con una breve descripción de los archivos de salida generados.
Una tabla de texto que contiene identificaciones de precursores y proteínas, así como mucha información asociada. La mayoría de los nombres de las columnas se explican por sí solos y la referencia completa se puede encontrar en Referencia de salida principal. Las siguientes palabras clave se utilizan al nombrar columnas:
Nota: desde la versión 1.9, DIA-NN genera un informe en formato Apache .parquet. Este es un formato de tabla de texto comprimido (reducción de tamaño ~10x) que se puede cargar en una sola línea de código usando el paquete R 'arrow' o el paquete Python 'pyarrow'. La mayor parte de la nueva funcionalidad (introducida en DIA-NN 1.9) solo se refleja en el informe parquet, por lo que se recomienda usarla en lugar del informe .tsv heredado en todos los casos, mientras que el informe .tsv aún se genera solo por compatibilidad con flujos de trabajo de análisis antiguos. La generación del informe .tsv heredado se puede desactivar con --no-main-report. Además de utilizar R o Python, también puede ver archivos .parquet con TAD Viewer.
Estos contienen cantidades MaxLFQ normalizadas para grupos de proteínas ('pg_matrix'), grupos de genes ('gg_matrix'), genes únicos ('unique_genes_matrix'; es decir, genes identificados y cuantificados utilizando sólo péptidos proteotípicos, es decir, específicos de genes), así como valores normalizados. cantidades de precursores ('pr_matrix'). Se filtran al 1% de FDR, utilizando valores q globales para grupos de proteínas y valores q globales y específicos de ejecución para precursores. Se aplica un filtro FDR de nivel de proteína específico de ejecución adicional del 5 % a las matrices de proteínas; utilice --matrix-spec-q para ajustarlo. A veces, DIA-NN informará un cero como la mejor estimación para una cantidad de precursor o proteína. Estas cantidades cero se omiten en las matrices de proteínas/genes. Se generan matrices de cuantificación de fosfositos especiales (fosfositos_90 y fosfositos_99 .tsv) cuando la fosforilación (UniMod:21) se declara como una modificación variable, consulte PTM y peptidoformas.
El archivo .protein_description.tsv se genera junto con las matrices y contiene información básica de proteínas conocida por DIA-NN (ID de secuencia, nombres, nombres de genes, descripción, secuencia). Las versiones futuras de DIA-NN incluirán más información, por ejemplo, el peso molecular de las proteínas.
Contiene una serie de métricas de control de calidad que se pueden utilizar para filtrar datos, por ejemplo, para excluir ejecuciones fallidas o como lectura para la optimización de métodos. Tenga en cuenta que el número de proteínas informadas aquí corresponde al número de proteínas únicas (es decir, identificadas con precursores proteotípicos) en una ejecución determinada con un valor q de proteína única del 1%. Este número se puede reproducir a partir del informe principal generado utilizando el umbral FDR precursor del 100 % y filtrado utilizando Protein.Q.Value <= 0,01 y Proteotypic == 1. Lo que se cuenta como "proteína" aquí depende de la configuración de "Inferencia de proteínas".
Una visualización de una serie de métricas de control de calidad, basadas tanto en el informe principal como en el informe de estadísticas. El informe en PDF debe utilizarse únicamente para una evaluación preliminar rápida de los datos y no debe utilizarse en publicaciones.
El panel Salida permite controlar cómo manejar los 'archivos .quant'. Ahora, para explicar cuáles son, consideremos cómo DIA-NN procesa los datos sin procesar. Primero realiza la parte del procesamiento que requiere computación por separado para cada ejecución individual del experimento y guarda las identificaciones y la información cuantitativa en un archivo .quant separado. Una vez procesadas todas las ejecuciones, recopila la información de todos los archivos .quant y realiza algunos pasos entre ejecuciones, como el cálculo del valor q global, la inferencia de proteínas, el cálculo de cantidades finales y la normalización. Esto permite utilizar DIA-NN de una manera muy flexible. Por ejemplo, puede detener el procesamiento en cualquier momento y luego reanudarlo comenzando con la ejecución en la que lo detuvo. O puede eliminar algunas ejecuciones del experimento, agregar algunas ejecuciones adicionales y volver a ejecutar rápidamente el análisis, sin necesidad de rehacer el análisis de las ejecuciones ya procesadas. Todo esto está habilitado por la opción Usar archivos .quant existentes cuando estén disponibles . Los archivos .quant se guardan o se leen desde el directorio Temp/.dia (o en la misma ubicación que los archivos sin formato, si no se especifica ninguna carpeta temporal). Al utilizar esta opción, el usuario debe asegurarse de que los archivos .quant se hayan generado exactamente con la misma configuración que se aplicó en el análisis actual, con la excepción de Precursor FDR (siempre que sea <= 5%), Subprocesos , Nivel de registro , MBR , normalización de ejecución cruzada y generación de biblioteca : estas configuraciones pueden ser diferentes. De hecho, es posible incluso transferir archivos .quant a otra computadora y reutilizarlos allí, sin transferir los archivos originales. Importante: se recomienda encarecidamente reutilizar archivos .quant solo cuando tanto las precisiones masivas como la ventana de escaneo estén fijadas en algunos valores (distintos de cero); de lo contrario, DIA-NN realizará la optimización de estos una vez más utilizando la primera ejecución para la cual se utilizó un archivo .quant. No se ha encontrado el archivo cuantitativo. Además, cuando se utiliza MBR o se crea una biblioteca espectral a partir de datos DIA con la generación de biblioteca configurada en perfil inteligente o completo, los archivos .quant solo deben reutilizarse si se han generado exactamente en el mismo orden que el orden actual de los archivos sin formato, es decir con MBR DIA-NN actualmente no puede combinar múltiples análisis separados.
Nota: el informe principal en formato .parquet proporciona la información de salida completa para cualquier tipo de procesamiento posterior. Todos los demás tipos de resultados están ahí para simplificar el análisis cuando se utiliza MS Excel o software similar. Los números de precursores y proteínas informados en diferentes tipos de archivos de salida pueden parecer diferentes debido a los diferentes filtros utilizados para generarlos; consulte las descripciones anteriores. Todas las 'matrices' se pueden reproducir desde el informe principal .parquet, si se generan con el precursor FDR establecido en 5%, usando R o Python.
DIA-NN tiene un módulo sin biblioteca muy avanzado que, para ciertos tipos de experimentos, es mejor que usar una biblioteca espectral específica del proyecto de alta calidad. En general, lo siguiente hace que la búsqueda sin biblioteca funcione mejor en comparación con las bibliotecas espectrales (mientras que lo contrario favorece a las bibliotecas espectrales):
Tenga en cuenta que en el 99% de los casos es esencial que MBR esté habilitado para un análisis cuantitativo sin biblioteca. Se activa de forma predeterminada cuando se utiliza la GUI de DIA-NN.
Para la mayoría de los experimentos, tiene sentido intentar la búsqueda sin biblioteca. Para experimentos de mediana y gran escala, podría tener sentido probar primero el análisis sin biblioteca de un subconjunto de datos, para ver si el rendimiento es correcto (en todo el conjunto de datos normalmente será mucho mejor, por lo que no es necesario demasiado estricto aquí). Nosotros mismos también realizamos a menudo una evaluación de control de calidad preliminar rápida del experimento utilizando alguna biblioteca pública.
A menudo es conveniente realizar un análisis sin biblioteca en dos pasos: primero creando una biblioteca espectral predicha in silico a partir de la base de datos de secuencias y luego analizando con esta biblioteca. Esta es la estrategia que debe utilizarse en todos los casos, excepto en los análisis preliminares rápidos. Tenga en cuenta que la funcionalidad de canalización en DIA-NN permite programar fácilmente secuencias de tareas, como la creación de una biblioteca predicha seguida de múltiples análisis utilizando esta biblioteca.
Tenga en cuenta que cuanto mayor sea el espacio de búsqueda (el número total de precursores considerados), más difícil será para el software de análisis identificar péptidos y más tiempo llevará la búsqueda. DIA-NN es muy bueno manejando espacios de búsqueda muy grandes, pero ni siquiera DIA-NN puede hacer magia y producir tan buenos resultados con un espacio de búsqueda de 100 millones, como lo haría con un espacio de búsqueda de 2 millones. Por lo tanto, hay que tener cuidado al habilitar todas las posibles modificaciones de variables a la vez. Por ejemplo, permitir un máximo de 5 modificaciones variables, mientras se habilitan simultáneamente la oxidación de metionina, la fosfo y la desamidación, probablemente no sea una buena idea.
Aquí radica una distinción importante entre el análisis de datos DIA y DDA. En DDA, permitir todas las posibles modificaciones de variables tiene mucho sentido también porque el motor de búsqueda necesita hacer coincidir el espectro con algo, y si no coincide con el péptido modificado correcto, lo hará falsamente. En DIA el enfoque es fundamentalmente diferente: el espectro que mejor coincide se encuentra en los datos de cada ion precursor que se está considerando (esta es una vista muy simplificada sólo para ilustrar el concepto). Por lo tanto, no poder identificar un espectro particular nunca es un problema en DIA (de hecho, la mayoría de los espectros están altamente multiplexados en DIA, es decir, se originan a partir de múltiples péptidos, y solo se puede identificar una fracción de ellos). Y por lo tanto sólo tiene sentido habilitar una modificación de variable particular si está específicamente interesado en ella o si la modificación es realmente ubicua.
Consulte PTM y peptidoformas para obtener información sobre cómo distinguir entre peptidoformas que llevan diferentes conjuntos de modificaciones.
DIA-NN puede crear una biblioteca espectral a partir de cualquier conjunto de datos DIA. Esto se puede hacer tanto en el modo basado en biblioteca espectral como en el modo sin biblioteca: simplemente seleccione la opción Generar biblioteca espectral en el panel de salida.
DIA-NN puede crear además una biblioteca espectral predicha in silico a partir de una base de datos de secuencias (asegúrese de que FASTA digest esté habilitado) u otra biblioteca espectral (a menudo útil para bibliotecas públicas): simplemente ejecute DIA-NN sin especificar ningún archivo sin formato y habilite la opción de predicción de espectros, RT e IM basados en aprendizaje profundo en el panel de generación de iones precursores . Las modificaciones actualmente admitidas por el predictor de aprendizaje profundo son: C(cam), M(ox), N-term acetilo, N/Q(dea), S/T/Y(phos), K(-GG), nK( mTRAQ) y nK(TMT). Es de destacar que si el módulo predictor en DIA-NN no reconoce alguna modificación, igualmente realizará la predicción simplemente ignorándola. Para hacer que DIA-NN descarte cualquier péptido con modificaciones desconocidas para el predictor, use --skip-unknown-mods.
También se pueden crear bibliotecas espectrales a partir de datos DDA y, de hecho, el fraccionamiento fuera de línea + DDA ha sido la forma "estándar de oro" de crear bibliotecas desde la introducción de la proteómica SWATH/DIA. Para ello recomendamos utilizar FragPipe, que se basa en el motor de búsqueda MSFragger, ultrarrápido y muy robusto. FragPipe se puede utilizar además para crear bibliotecas compatibles con DIA-NN también a partir de datos DIA, similar al propio DIA-NN.
MBR es un modo potente en DIA-NN, que resulta beneficioso para la mayoría de los experimentos cuantitativos, tanto con una biblioteca espectral como en modo sin biblioteca. MBR generalmente da como resultado números de identificación promedio más altos, pero también una mayor integridad de los datos, es decir, muchos menos valores faltantes.
Mientras procesa cualquier conjunto de datos, DIA-NN recopila mucha información útil que podría haberse utilizado para procesar mejor los datos. Y eso es lo que permite MBR. Con MBR, DIA-NN primero crea una biblioteca espectral a partir de datos DIA y luego vuelve a procesar el mismo conjunto de datos con esta biblioteca espectral. La innovación algorítmica implementada en DIA-NN garantiza que el FDR esté estrictamente controlado: MBR se ha validado en conjuntos de datos que van desde 2 ejecuciones hasta más de 1000 ejecuciones.
MBR debe habilitarse para cualquier experimento cuantitativo, a menos que tenga una biblioteca espectral específica del proyecto de muy alta calidad, que crea que (i) probablemente proporcione una cobertura casi completa de péptidos detectables, es decir, no tiene sentido probar sin biblioteca buscar + MBR, y (ii) la mayoría de los péptidos de la biblioteca son realmente detectables en el experimento DIA. Si solo (i) es cierto, podría valer la pena seguir probando MBR junto con la generación de biblioteca configurada en perfiles de ID .
MBR no debe usarse para experimentos no cuantitativos, es decir, cuando solo desea crear una biblioteca espectral, que luego usaría en algún otro conjunto de datos.
Se puede "imitar" manualmente el MBR utilizando un enfoque de dos pasos que dará como resultado un rendimiento comparable. Primero, ejecute DIA-NN para crear una biblioteca espectral a partir de las ejecuciones de DIA (el experimento completo o solo su subconjunto, lo que puede ser mucho más rápido para experimentos a gran escala o experimentos que incluyen espacios en blanco/ejecuciones fallidas). Luego use esta biblioteca para analizar todo el experimento. En cualquier caso, ejecute DIA-NN con MBR desactivado.
Cuando utilice MBR (o su imitación) y confíe en el informe principal .parquet (recomendado) en lugar de las matrices cuantitativas, utilice los siguientes filtros de valor q:
DIA-NN se puede utilizar con éxito para procesar casi cualquier experimento con la configuración predeterminada. En general, se recomienda cambiar la configuración solo cuando se lo recomiende específicamente en esta documentación (como a continuación), para un tipo de experimento específico o si existe una justificación muy clara y convincente para el cambio.
En muchos casos, es posible que desee cambiar varios parámetros en el panel Algoritmo .
Consulte también las instrucciones sobre búsqueda sin biblioteca, PTM y peptidoformas y multiplexación mediante plexDIA, si son relevantes para su experimento.
Tenga en cuenta que una vez que seleccione una opción particular en la GUI de DIA-NN, es posible que algunas otras configuraciones se activen automáticamente. Por ejemplo, siempre que elija realizar un resumen de la base de datos FASTA in silico (para búsqueda sin biblioteca), o simplemente generar una biblioteca espectral a partir de datos DIA, MBR también se seleccionará automáticamente, porque en el 99% de los casos es beneficioso.
DIA-NN se implementa como una interfaz gráfica de usuario (GUI), que invoca una herramienta de línea de comandos (diann.exe). La herramienta de línea de comandos también se puede utilizar por separado, por ejemplo, como parte de procesos de procesamiento automatizados personalizados. Además, incluso cuando se utiliza la GUI, se pueden pasar opciones/comandos a la herramienta de línea de comandos, en el cuadro de texto Opciones adicionales . Algunas de estas opciones útiles se mencionan en esta documentación y la referencia completa se proporciona en Referencia de la línea de comandos.
Cuando la GUI inicia la herramienta de línea de comandos, imprime en la ventana de registro el conjunto exacto de comandos que utilizó. Entonces, para reproducir el comportamiento observado al usar la GUI (por ejemplo, si desea realizar el análisis en un clúster de Linux), se pueden pasar exactamente los mismos comandos directamente a la herramienta de línea de comandos.
diann.exe [commands]
Los comandos se procesan en el orden en que se proporcionan y, en la mayoría de los comandos, este orden puede ser arbitrario.
En Linux, el punto y coma ';' El carácter se trata como un separador de comandos, por lo tanto ';' como parte de los comandos DIA-NN (por ejemplo, --channels) deben reemplazarse por ';' en Linux para un comportamiento correcto.
Para mayor comodidad, así como para manejar experimentos que constan de miles de archivos, algunas de las opciones/comandos se pueden almacenar en un archivo de configuración. Para esto, cree un archivo de texto con cualquier extensión, digamos, diann_config.cfg, escriba cualquier comando admitido por DIA-NN allí y luego haga referencia a este archivo con --cfg diann_config.cfg (en el cuadro de texto Opciones adicionales o en el comando utilizado para invocar la herramienta de línea de comandos diann.exe).
DIA-NN proporciona dos opciones de visualización.
Horizonte . Para visualizar cromatogramas/espectros en Skyline, analice su experimento con MBR y una base de datos FASTA especificada y luego haga clic en el botón 'Skyline'. DIA-NN iniciará Skyline automáticamente (asegúrese de tener Skyline/Skyline daily versión 23.1.1.459 o posterior instalada como 'Instalación de administrador'). Actualmente, este flujo de trabajo no admite multiplexación y no funcionará con modificaciones en ningún formato que no sea UniMod.
Visor DIA-NN . Analice su experimento con la casilla de verificación "XIC" marcada y haga clic en el botón "Visor". Por defecto, la opción "XICS" hará cromatogramas de extracto de Dia-Nn solo para los iones de fragmentos de la biblioteca y dentro de los 10 de la elución del ápice. Use --xic [n] para establecer la ventana de tiempo de retención en n segundos (por ejemplo, ácido 60 extraerá cromatogramas dentro de un minuto del ápice) y --xic-teórico-frr para extraer toda la carga 1 y 2 y/b -Series Fragments, incluidos aquellos con pérdidas neutrales comunes. Tenga en cuenta que el uso de --xic-teórico-FR, especialmente en combinación con una gran ventana de tiempo de retención, podría requerir una cantidad significativa de espacio en disco en la carpeta de salida. Sin embargo, la visualización en sí es efectivamente instantánea, para cualquier tamaño de experimento.
Nota : Los cromatogramas extraídos con "XICS" se guardan en Apache. Formato de parquet (los nombres de archivo terminan con '.xic.parquet') y se puede acceder fácilmente usando R o Python. Esto a veces puede ser conveniente para preparar cifras listas para la publicación (aunque también puede hacerlo con Skyline o Dia-Nn Viser), o incluso para configurar un control automático de calidad personalizado para el rendimiento de LC-MS.
Las posiciones de péptidos y modificación dentro de una proteína se pueden visualizar usando Alphamap por el laboratorio de Mann https://github.com/mannlabs/alphamap.
La ventana de la tubería dentro de la GUI DIA-NN permite combinar múltiples pasos de análisis en las tuberías. Cada paso de tubería es un conjunto de configuraciones que muestran la GUI. Uno puede agregar tales pasos a la tubería, actualizar los pasos existentes, eliminar los pasos, mover los pasos hacia arriba/hacia abajo en la tubería, deshabilitar/habilitar (hacer doble clic en el mouse) ciertos pasos dentro de la tubería y guardar/cargar tuberías. Además, los pasos individuales de la tubería se pueden copiar entre diferentes pestañas/ventanas de la GUI (use botones de copia y pegue para esto). Siempre reunimos todas las carreras DIA-NN para una publicación particular en una tubería. También se puede usar tuberías DIA-NN para almacenar plantillas de configuración.
La GUI DIA-NN presenta flujos de trabajo incorporados (panel de generación de iones precursores ) para detectar oxidación de metionina, acetilación de proteínas N-terminales, fosforilación y ubiquitinación (mediante la detección de aductos remanentes -GG en lisinas). Otros modificAitons se pueden declarar utilizando --Var-mod o--Mod-mode en opciones adicionales .
Distinguir entre peptidoformas que llevan diferentes conjuntos de modificaciones es un problema no trivial en DIA: sin una puntuación especial de peptidoforma, el Peptidoform FDR efectivo puede estar en el rango de 5-10% para los análisis sin biblioteca. DIA-NN implementa un enfoque estadístico de Decoy de Target para la puntuación de peptidoformo, que está habilitado por la opción Peptidoforms (panel de algoritmo ) y también se activa automáticamente cada vez que se declara una modificación variable, a través de la configuración de la GUI o el comando --Var-Mod. Los valores de peptidoformo Q resultantes reflejan la confianza de Dia-Nn en la corrección del conjunto de modificaciones reportadas para el péptido, así como la corrección de la secuencia de aminoácidos identificada. Sin embargo, estos valores Q no garantizan la ausencia de bajos cambios de masa debido a algunas sustituciones o modificaciones de aminoácidos como la desamidación (tenga en cuenta que DDA tampoco garantiza esto).
Además, DIA-NN presenta un algoritmo que informa estimaciones de confianza de localización PTM (como probabilidades posteriores para la localización correcta de todos los sitios PTM variables en el péptido, así como puntajes para sitios individuales), incluidas en el informe de salida. Los archivos fosfosites_90 y fosfosites_99 .TSV contienen cantidades específicas de fosfpose, calculadas usando el método Top 1 (experimental), que es la intensidad más alta entre los precursores con el sitio localizado con la confianza especificada (0.9 o 0.99, respectivamente) se usa como el fosfositepesosis. cantidad en la carrera dada. El algoritmo 'Top 1' se usa aquí, ya que es probablemente el más robusto contra los valores atípicos y los errores erróneos. Sin embargo, si esta es o no la mejor opción debe ser investigada, lo que actualmente es un desafío debido a la falta de puntos de referencia con verdad conocida.
En general, al buscar PTMS, recomendamos lo siguiente:
Esencial: las modificaciones variables que está buscando deben especificarse como variables (a través de las casillas de verificación GUI como las opciones adicionales ) tanto cuando se generan una biblioteca predicha in silico como también al analizar los datos sin procesar utilizando cualquier biblioteca pronosticada o empírica
Configuración para la fosforilación: Modificaciones variables Max 3, Max 1 Falló el escisión, la fosforilación es la única modificación variable especificada, el rango de carga precursora 2-3; Para reducir el uso de la RAM, asegúrese de que el rango de masa precursor especificado (al generar una biblioteca predicha) no sea más amplia que el rango de masa precursor seleccionado para MS/MS por el método DIA; Para acelerar el procesamiento cuando se usa una biblioteca predicha, primero genere una biblioteca basada en DIA a partir de un subconjunto de ejecuciones de experimentos (por ejemplo, más de 10 mejores ejecuciones) y luego analice todo el conjunto de datos utilizando esta biblioteca basada en DIA con MBR discapacitado
Cuando lo anterior tenga éxito, también pruebe los escisiones de Max 2 perdidos
Al buscar PTM que no sean la fosforilación, en el 95% de los casos es mejor usar MAX 1 a 3 Modificaciones variables y Max 1 perdió el escote
Cuando no busca PTMS, es decir, cuando el objetivo es la cuantificación relativa de proteínas, habilitar las modificaciones variables típicamente no produce una mayor profundidad proteómica. Si bien generalmente tampoco duele, hará que el procesamiento sea más lento.
Hasta donde sabemos, no existe una validación publicada de la confianza de identificación para la detección de péptidos desamidados (que son fáciles de confundir a isotopólogos más pesados, a menos que la especificación de masa tenga una resolución muy alta y una configuración de precisión de masa/tolerancia más estricta Utilizado por el motor de búsqueda), incluso para DDA. Una forma de ganar confianza en la identificación de péptidos desamidados es verificar si se identifica algo si se declara que el delta de masa para la desamidación es 1.022694, en lugar del valor correcto 0.984016. Dia-Nn pasa esta prueba con éxito en varios conjuntos de datos (eso es que no se informan ID al especificar esta 'masa de modificación de señuelo'), pero recomendamos también probar dicha búsqueda de 'masa de modificación de señuelo' en varias ejecuciones del experimento a analizar , si busca péptidos desamidados. En cada caso (masa correcta o señuelo),-PPTM-QValues debe usarse para habilitar la puntuación específica de PTM para la desamidación, además de la puntuación de peptidoformo, y PTM.Q.Value o Global.q.value/lib. P. Valor utilizado para el filtrado.
Es de destacar que cuando el objetivo final es la identificación de proteínas, es en gran medida irrelevante si un péptido modificado se identifica erróneamente, coincidiendo con un espectro que se origina en un peptidoformo diferente. Por lo tanto, si el propósito del experimento es identificar/cuantificar PTM específicas, sustituciones de aminoácidos o distinguir proteínas con alta identidad de secuencia, entonces se recomienda la opción de puntuación de peptidoformas . En todos los demás casos, la puntuación de peptidoformo generalmente está bien para usar, pero no es necesario, y generalmente conducirá a un procesamiento algo más lento y una ligera disminución en los números de identificación al usar MBR.
En general, sí. Sin embargo, la mayoría de los flujos de trabajo funcionarán sin la necesidad de reconocer modificaciones. Aunque si se detectan modificaciones desconocidas en la biblioteca, DIA-NN imprimirá una advertencia que enumeralas, y se recomienda firmemente declararlas usando--MOD. Tenga en cuenta que DIA-NN ya reconoce muchas modificaciones comunes y también puede cargar toda la base de datos Unimod, consulte la opción-Full-Unimod.
En colaboración con el Laboratorio Slavov, hemos desarrollado Plexdia basado en Dia-Nn, una tecnología que permite beneficiarse de la multiplexación no isobárica (MTRAQ, Dimetil, Silac) en combinación con DIA. Para analizar un experimento de Plexdia, uno necesita una biblioteca espectral predicha o empírica en silico. Dia-Nn luego debe suministrarse con los siguientes conjuntos de comandos, dependiendo del escenario de análisis.
Escenario 1 . La biblioteca es una biblioteca regular libre de etiquetas (empírica o predicha), y la multiplexación se logra exclusivamente con el etiquetado isotópico, es decir, sin etiquetado químico con etiquetas como mtraq o dimetil. Dia-Nn luego necesita las siguientes opciones para agregar a opciones adicionales :
Ejemplo para etiquetas L/H SILAC en K y R:
--fixed-mod SILAC,0.0,KR,label
--lib-fixed-mod SILAC
--channels SILAC,L,KR,0:0; SILAC,H,KR,8.014199:10.008269
--original-mods
Tenga en cuenta que en el Silac anterior se declara como etiqueta, es decir, no se supone que cambie el tiempo de retención del péptido. También es una etiqueta de masa cero aquí, ya que solo sirve para designar los aminoácidos que serán etiquetados. Lo que la combinación de --s-Mod-Mod y--LIB-fijo-Mod hace aquí es simplemente poner (Silac) después de cada K o R en la secuencia de ID precursora, en la representación de la biblioteca interna utilizada por DIA-NN. -Los canales luego dividen cada entrada de biblioteca en dos, una con masas 0 (k) y 0 (r) agregadas en cada ocurrencia de k (Silac) o R (Silac) en la secuencia, respectivamente, y otro con 8.014199 (k ) y 10.008269 (r).
Escenario 2 . La biblioteca es una biblioteca regular libre de etiquetas (empírica o predicha), y la multiplexación se logra a través del etiquetado químico con MTRAQ.
Escenario 2: Paso 1. Etiquete la biblioteca in silico con mtraq y ejecute el predictor de aprendizaje profundo para ajustar los espectros/RTS/IMS. Para esto, ejecute DIA-NN con la biblioteca de entrada en el campo de la biblioteca espectral , una biblioteca de salida especificada, espectros basados en el aprendizaje profundo, predicción RTS e IMS habilitada, lista de archivos de datos sin procesar vacíos y las siguientes opciones en opciones adicionales :
--fixed-mod mTRAQ,140.0949630177,nK
--lib-fixed-mod mTRAQ
--channels mTRAQ,0,nK,0:0; mTRAQ,4,nK,4.0070994:4.0070994;mTRAQ,8,nK,8.0141988132:8.0141988132
--original-mods
Use el archivo .PredicHet.speclib con el nombre correspondiente a la biblioteca de salida como la biblioteca espectral para el siguiente paso.
Escenario 2: Paso 2. Ejecute Dia-Nn con las siguientes opciones:
--fixed-mod mTRAQ,140.0949630177,nK
--channels mTRAQ,0,nK,0:0; mTRAQ,4,nK,4.0070994:4.0070994;mTRAQ,8,nK,8.0141988132:8.0141988132
--original-mods
Tenga en cuenta que--LIB-Fixed-Mod ya no es necesario ya que la biblioteca generada en el Paso 1 ya contiene (MTRAQ) en el extremo N y las lisinas de cada péptido.
Escenario 3 . La biblioteca es una biblioteca regular sin etiqueta (empírica o predicha), y la multiplexación se logra a través del etiquetado químico con una etiqueta que no sea MTRAQ. La razón por la que este escenario se trata de manera diferente al escenario 2 es que el predictor de Dia-Nn in Silico no ha sido capacitado específicamente para etiquetas distintas de MTRAQ, y por lo tanto no es necesario un paso adicional para generar predicciones. Simplemente ejecute Dia-Nn como lo haría en el Escenario 1, excepto que la declaración de modificación fijo tendrá una masa distinta de cero en este caso y no será una etiqueta. Por ejemplo, para el dimetilo de 5 canales descrito por Thielert et al:
‐‐fixed‐mod Dimethyl, 28.0313, nK
--lib-fixed-mod Dimethyl
‐‐channels Dimethyl,0,nK,0:0; Dimethyl,2,nK,2.0126:2.0126; Dimethyl,4,nK,4.0251:4.0251; Dimethyl,6,nK,6.0377:6.0377; Dimethyl,8,nK,8.0444:8.0444
--original-mods
Escenario 4 . La biblioteca es una biblioteca de DIA empírica generada por DIA-NN a partir de un conjunto de datos DIA multiplexado. Por ejemplo, esta podría ser una biblioteca generada por DIA-NN en el primer pase de MBR (y le gustaría reutilizarla para analizar la misma o algunas otras ejecuciones). Las opciones adicionales serán las mismas que en el escenario 1, el escenario 2: Paso 2 o el escenario 3, excepto (¡importante!)--LIB-FIJED-MOD no debe ser suministrado.
En todos los escenarios anteriores , una opción adicional que especifica la estrategia de normalización debe incluirse en opciones adicionales . Esto puede ser: la norma de canal (Silac pulsada, el recambio de proteínas) o la norma de especie de canal (multiplexación de muestras independientes).
Producción . Recomendamos usar el informe principal en formato .parquet para todos los análisis posteriores. Tenga en cuenta que PG.Q.Value y GG.Q.Value en el informe principal son específicos del canal, cuando se utilizan la multiplexación. Las cantidades pg.maxlfq, genes.maxlfq y genes.maxlfq.unique son solo se usan si (i) cuantos y (ii) el informe corresponde al segundo pase de MBR o no se usa. Alternativamente, uno puede usar las matrices (no recomendadas), estas son solo a nivel de precursores. Al usar matrices, es esencial especificar-Matrix-Ch-QValue, con umbrales razonables 0.01 a 0.5. Esta configuración no afectará la matriz MS1 extraída, que simplemente informa las señales MS1 correspondientes a cada canal, siempre que se identifique un precursor en cualquiera de los canales; normalmente no se recomienda usar esta matriz. Las matrices de proteínas no se producen al analizar datos multiplexados.
Panel de entrada
Panel de generación de iones precursores
Panel de salida
Panel de algoritmo
Tenga en cuenta que algunas opciones a continuación son fuertemente perjudiciales para el rendimiento y solo están allí para fines de evaluación comparativa. Por lo tanto, la recomendación es usar solo las opciones que se espera que sean beneficiosas para un experimento particular (por ejemplo, las recomendadas en la presente documentación) en función de algunas liquidaciones claras.