Descarga DiaNN - Descarga del código fuente DiaNN

DiaNN

Otro código fuente

DIA-NN 1.9.2

Descargar

DIA-NN

DIA-NN: un paquete de software universal para el procesamiento de datos proteómicos de adquisición independiente de datos (DIA). Concebido en la Universidad de Cambridge, Reino Unido, en el laboratorio de Kathryn Lilley (Centro de Proteómica de Cambridge), DIA-NN abrió un nuevo capítulo en proteómica, introduciendo una serie de algoritmos que permitieron experimentos a gran escala fiables, robustos y cuantitativamente precisos utilizando métodos de alto rendimiento. Actualmente, DIA-NN se está desarrollando en el laboratorio de Vadim Demichev en la Charité (Universidad de Medicina de Berlín, Alemania).

DIA-NN se basa en los siguientes principios:

Fiabilidad lograda mediante un estricto control estadístico
Robustez lograda mediante modelado flexible de los datos y selección automática de parámetros.
Reproducibilidad promovida por un registro exhaustivo de todos los pasos del análisis.
Facilidad de uso : alto grado de automatización, se puede configurar un análisis con varios clics del mouse, no se requieren conocimientos de bioinformática
Potentes opciones de ajuste para permitir experimentos no convencionales
Escalabilidad y velocidad : hasta 1000 ejecuciones de especificaciones de masas procesadas por hora

Descargar : https://github.com/vdemichev/DiaNN/releases/tag/1.9.2 (se recomienda utilizar la última versión: DIA-NN 1.9.2)

Por favor cite:
DIA-NN: redes neuronales y corrección de interferencias
permitir una cobertura profunda del proteoma en Nature Methods de alto rendimiento , 2020

Uso de DIA-NN para el análisis de modificaciones postraduccionales (PTM), como la fosforilación o la ubiquitinación: el perfil de ubiquitinoma in vivo resuelto en el tiempo mediante DIA-MS revela objetivos de USP7 a escala de proteoma completo Nature Communications, 2021

Uso del módulo de movilidad iónica de DIA-NN para el análisis de datos timsTOF o uso de DIA-NN en combinación con bibliotecas espectrales generadas por FragPipe: análisis de datos dia-PASEF utilizando FragPipe y DIA-NN para proteómica profunda de cantidades bajas de muestras Nature Communications, 2022

Uso de DIA-NN para el análisis de muestras multiplexadas (SILAC, mTRAQ, etc.): aumento del rendimiento de proteómica sensible mediante plexDIA Nature Biotechnology, 2022

Uso de DIA-NN como parte del flujo de trabajo de CysQuant: CysQuant: cuantificación simultánea de la oxidación de cisteína y la abundancia de proteínas mediante espectrometría de masas de adquisición independiente o dependiente de datos Redox Biology, 2023

Uso del módulo QuantUMS de DIA-NN para la cuantificación: QuantUMS: la minimización de la incertidumbre permite una cuantificación segura en proteómica biorxiv

Uso de DIA-NN para procesar datos de Slice-PASEF: Slice-PASEF: fragmentación de todos los iones para máxima sensibilidad en proteómica biorxiv

Otros documentos clave

Uso de DIA-NN para proteómica de plasma y suero a gran escala:
Sistemas celulares, 2020 y Sistemas celulares, 2021
Proteómica ultrarrápida con DIA-NN y Scanning SWATH:
Biotecnología de la naturaleza, 2021

Paquete R con algunas funciones útiles para manejar los informes de salida de DIA-NN: https://github.com/vdemichev/diann-rpackage

Visualización de posiciones de péptidos en la proteína: https://github.com/MannLabs/alphamap (AlphaMap by Mann lab)

Notas y discusiones sobre proteómica en general y el uso de DIA-NN: https://github.com/vdemichev/DiaNN/discussions/categories/dia-proteomics-in-detail (esta sección se ampliará aún más).

Tabla de contenido

Instalación
Empezando
Formatos de datos sin procesar
Formatos de biblioteca espectral
Producción
Búsqueda sin biblioteca
Creación de bibliotecas espectrales.
Partido entre carreras
Cambiar la configuración predeterminada
Herramienta de línea de comandos
Visualización
Tuberías automatizadas
PTM y peptidoformas
Multiplexación usando plexDIA
Referencia de configuración de GUI
Referencia de línea de comando
Referencia de salida principal
Preguntas frecuentes (FAQ)
Apoyo

Instalación

En Windows , descargue el instalador .exe y ejecútelo. Asegúrese de no ejecutar el instalador desde una unidad de red. Se recomienda instalar DIA-NN en la carpeta predeterminada sugerida por el instalador. Alternativamente, simplemente descomprima el archivo .binaries.zip en la ubicación que elija.

En Linux , descargue y descomprima el archivo .Linux.zip. La versión Linux de DIA-NN se genera en Linux Mint 21.2 y el sistema de destino debe tener las bibliotecas estándar que sean al menos tan recientes. Sin embargo, no existe tal requisito si crea una imagen de contenedor Docker o Apptainer/Singularity. Para generar cualquiera de los contenedores, recomendamos comenzar con la última imagen de Debian Docker; en este caso, solo necesita instalar sudo apt install libgomp1 antes de poder ejecutar DIA-NN en él. Consulte también la excelente guía detallada de Roger Olivella. Para obtener el mejor rendimiento, utilice mimalloc con anulación dinámica como se describe aquí https://github.com/microsoft/mimalloc.

También es posible ejecutar DIA-NN en Linux usando Wine 6.8 o posterior.

Empezando

Los datos de espectrometría de masas DIA se pueden analizar de dos maneras: buscando en una base de datos de secuencias (modo sin biblioteca) o utilizando una "biblioteca espectral", un conjunto de espectros y tiempos de retención conocidos para péptidos seleccionados. Analizamos en detalle cuándo utilizar cada uno de estos enfoques en la sección de búsqueda sin biblioteca. Para ambos tipos de análisis, utilizar DIA-NN es muy sencillo:

Haga clic en Sin procesar (en el panel de Entrada ), seleccione sus archivos de datos de espectrometría de masas sin procesar. Consulte Formatos de datos sin procesar para obtener información sobre los formatos admitidos.
Haga clic en Agregar FASTA , agregue una o más bases de datos de secuencia en formato UniProt.
Si desea utilizar una biblioteca espectral, haga clic en Biblioteca espectral y seleccione la biblioteca. Alternativamente, para un análisis sin biblioteca, seleccione FASTA digest para búsqueda/generación de biblioteca sin biblioteca (en el panel Generación de iones precursores ).
Especifique el nombre del archivo de salida principal en el panel Salida y haga clic en Ejecutar .
Si mantuvo 'report.tsv' como salida principal (ubicada, de forma predeterminada, en la carpeta de instalación de DIA-NN), contendrá la lista de todos los iones precursores identificados, junto con diferentes tipos de cantidades, métricas de calidad y anotaciones. El archivo de salida report.pg_matrix.tsv contendrá cantidades de grupos de proteínas, report.gg_matrix.tsv - cantidades de grupos de genes, report.pr_matrix.tsv - cantidades de iones precursores.

Ahora, la información anterior es suficiente para comenzar a usar DIA-NN. ¡De hecho, es así de fácil! El resto de esta Documentación puede ser útil, pero no es esencial para el 99% de los proyectos.

Lo anterior explica cómo ejecutar DIA-NN con la configuración predeterminada, que produce un rendimiento óptimo o casi óptimo para la mayoría de los experimentos. Sin embargo, en algunos casos es mejor ajustar la configuración; consulte Cambiar la configuración predeterminada para obtener más detalles.

DIA-NN también ofrece potentes opciones de ajuste para experimentos sofisticados. DIA-NN se implementa como una interfaz gráfica fácil de usar que invoca automáticamente una herramienta de línea de comandos. Pero el usuario también puede pasar opciones/comandos a la herramienta de línea de comandos directamente, a través del cuadro de texto Opciones adicionales en la interfaz. Todas estas opciones comienzan con un guión doble, seguido del nombre de la opción y, si corresponde, algunos parámetros que se configurarán. Entonces, si ve alguna opción/comando con -- en su nombre mencionado en esta Documentación, significa que este comando debe escribirse en el cuadro de texto Opciones adicionales .

Formatos de datos sin procesar

Formatos soportados: Sciex .wiff, Bruker .d, Thermo .raw, .mzML y .dia (formato utilizado por DIA-NN para almacenar espectros). Es posible la conversión de cualquier formato compatible a .dia. Cuando se ejecuta en Linux (compilaciones nativas, no Wine), solo se admiten datos .d, .mzML y .dia.

Para compatibilidad con .wiff, descargue e instale ProteoWizard; elija la versión (64 bits) que admita "archivos de proveedor"). Luego copie todos los archivos con 'Clearcore' o 'Sciex' en su nombre (serán archivos .dll) de la carpeta ProteoWizard a la carpeta de instalación de DIA-NN (la que contiene diann.exe, DIA-NN.exe y un muchos otros archivos).

La lectura de archivos Thermo .raw requiere la instalación de Thermo MS File Reader. Es imprescindible utilizar específicamente la versión del enlace anterior (3.0 SP3).

Los archivos .mzML deben tener centroide y contener datos como espectros (por ejemplo, SWATH/DIA) y no cromatogramas.

Soporte tecnológico

Se admiten DIA y SWATH
Se admiten esquemas de adquisición con ventanas superpuestas
Se admite el fraccionamiento en fase gaseosa
Se admite el escaneo SWATH
Se admite dia-PASEF/py-diAID
Se admite Slice-PASEF (agregue --tims-scan a Opciones adicionales)
midia-PASEF y Synchro-PASEF son compatibles (agregue --tims-scan a opciones adicionales), pero DIA-NN actualmente no se beneficia de la deconvolución de dimensión Q1
Orbitrap Astral es compatible
Se admite FAIMS con CV constante
Se admite FAIMS con múltiples CV después de dividir las ejecuciones, consulte aquí
BoxCar-DIA es compatible, pero DIA-NN no ha sido optimizado para ello
Los datos de Bruker Impact II DIA son compatibles después de la conversión a .mzML
Se admite la multiplexación con etiquetas no isobáricas y SILAC.
MSX-DIA no es compatible

Conversión

Muchos formatos de especificaciones de masas, incluidos aquellos pocos que no son compatibles directamente con DIA-NN, se pueden convertir a .mzML utilizando la aplicación MSConvertGUI de ProteoWizard. Esto funciona para todos los formatos compatibles, excepto Bruker .d y SCIEX Scanning SWATH; DIA-NN debe acceder a ellos directamente. Se deben utilizar las siguientes configuraciones de MSConvert para la conversión:

Formatos de biblioteca espectral

DIA-NN admite tablas separadas por comas (.csv), separadas por tabulaciones (.tsv, .xls o .txt) o .parquet como bibliotecas espectrales, así como .speclib (formato compacto utilizado por DIA-NN), .sptxt (SpectraST, experimental) y archivos de biblioteca .msp (NIST, experimental). Importante: la biblioteca no debe contener iones precursores no fragmentados como "fragmentos": cada ion fragmentado debe ser producido realmente por la fragmentación del esqueleto peptídico.

En detalle

Las bibliotecas en formato PeakView, así como las bibliotecas producidas por FragPipe, TargetedFileConverter (parte de OpenMS), exportadas desde Spectronaut (Biognosys) en formato .xls o generadas por el propio DIA-NN, se admiten "tal cual".

Para las bibliotecas .tsv/.xls/.txt generadas por otros medios, DIA-NN puede requerir que se especifiquen los nombres de los encabezados (separados por comas) (para las columnas que requiere) usando el comando --library-headers. Utilice el símbolo * en lugar del nombre de un encabezado para mantener su reconocimiento automático. Vea a continuación las descripciones de las respectivas columnas (en el orden en que deben especificarse los encabezados).

Columnas requeridas:

Secuencia peptídica modificada y marcada
carga precursora
Precursor m/z
Tiempo de retención de referencia : se puede utilizar una escala RT arbitraria
Ión fragmento m/z
Intensidad relativa del ion fragmento.

Se recomienda encarecidamente que las columnas que contengan lo siguiente también estén presentes en la biblioteca:

ID de proteínas : identificadores de las isoformas de proteínas
Nombres de proteínas
Nombres de genes
Proteotipicidad : una columna que contiene valores 0/1, dependiendo de si el péptido en cuestión es "proteotípico", es decir, específico de una isoforma de proteína, nombre de proteína o gen en particular.
Señuelo : indica si el péptido es un señuelo. Si hay péptidos señuelo en la biblioteca, DIA-NN los utiliza y no genera sus propios señuelos. Se recomienda encarecidamente no incluir ningún péptido señuelo en la biblioteca.
Carga de iones de fragmento
Tipo de ion de fragmento : y o b; para los fragmentos x y z también especifique el tipo de fragmento como y, y para a y c, como b
Número de serie del fragmento
Tipo de pérdida neutral de fragmento
valor Q
Identificador del grupo de elución : si no se especifica, DIA-NN inferirá los grupos de elución automáticamente; no es necesario para la mayoría de los flujos de trabajo
Indicador de exclusión de fragmento : una columna que contiene valores 0/1, donde 1 significa que el ion fragmento no debe usarse para la cuantificación; no es necesario para la mayoría de los flujos de trabajo
Movilidad de iones : valor 1/K0 para el precursor, se puede utilizar una escala IM arbitraria

Por ejemplo, un comando --library-headers que especifica todos los nombres de las columnas excepto la columna 'Señuelo' puede verse así:

--library-headers Péptido modificado, Carga precursora, PrecursorMz, Tr_recalibrated, ProductMz, LibraryIntensity, UniprotID, Nombre de proteína, Genes, Proteotípico,*, FragmentCharge, FragmentType, FragmentSeriesNumber, FragmentLossType, QValue, ExcludeFromAssay, IonMobility

Utilice --sptxt-acc para configurar la precisión masiva del filtrado de fragmentos (en ppm) al leer bibliotecas .sptxt/.msp.

MaxQuant msms.txt también se puede utilizar (experimentalmente) como biblioteca espectral en DIA-NN, aunque es posible que las modificaciones fijas no se lean correctamente.

DIA-NN puede convertir cualquier biblioteca que admita a su propio formato .parquet. Para esto, haga clic en Biblioteca espectral (panel de entrada ), seleccione la biblioteca que desea convertir, seleccione el nombre del archivo de la biblioteca de salida (panel de salida ), haga clic en Ejecutar . Si usa algún formato de biblioteca exótico, es una buena idea convertirlo al .parquet de DIA-NN y luego examinar la biblioteca resultante (usando el paquete R 'arrow' o Python 'pyarrow') para ver si el contenido tiene sentido.

Todas las bibliotecas .tsv/.xls/.txt/.csv/.parquet son simplemente tablas simples con datos legibles por humanos y se pueden explorar/editar, si es necesario, usando Excel o (idealmente) R/Python.

Es importante destacar que cuando se convierte una biblioteca a un formato diferente, todos los números se pueden redondear usando cierta precisión decimal, lo que significa que es posible que no sean exactamente iguales que en la biblioteca original (puede haber una pequeña diferencia). Por lo tanto, aunque el rendimiento al analizar utilizando una biblioteca convertida será comparable, los resultados no coincidirán exactamente.

Producción

El panel Salida permite especificar dónde se debe guardar la salida, así como los nombres de los archivos para el informe de salida principal y (opcionalmente) la biblioteca espectral de salida. DIA-NN utiliza estos nombres de archivos para derivar los nombres de todos sus archivos de salida. A continuación se puede encontrar información sobre los diferentes tipos de salida DIA-NN. Para la mayoría de los flujos de trabajo, solo se necesita el informe principal (para análisis en R o Python, recomendado) o las matrices (salida simplificada para MS Excel). Cuando la generación de matrices de salida está habilitada, DIA-NN también produce un archivo .manifest.txt con una breve descripción de los archivos de salida generados.

informe principal

Una tabla de texto que contiene identificaciones de precursores y proteínas, así como mucha información asociada. La mayoría de los nombres de las columnas se explican por sí solos y la referencia completa se puede encontrar en Referencia de salida principal. Las siguientes palabras clave se utilizan al nombrar columnas:

PG significa grupo de proteínas.
GG significa grupo de genes
Cantidad significa cantidad no normalizada
Normalizado significa cantidad normalizada
MaxLFQ significa cantidad de proteína normalizada calculada utilizando el algoritmo MaxLFQ; se recomienda encarecidamente utilizar estas cantidades de MaxLFQ y no las cantidades regulares (también informadas por DIA-NN)
Global se refiere a un valor q global, que se calcula para todo el experimento.
Lib se refiere al valor respectivo guardado en la biblioteca espectral, por ejemplo, Lib.Q.Value significa valor q para el precursor de la biblioteca respectiva

Nota: desde la versión 1.9, DIA-NN genera un informe en formato Apache .parquet. Este es un formato de tabla de texto comprimido (reducción de tamaño ~10x) que se puede cargar en una sola línea de código usando el paquete R 'arrow' o el paquete Python 'pyarrow'. La mayor parte de la nueva funcionalidad (introducida en DIA-NN 1.9) solo se refleja en el informe parquet, por lo que se recomienda usarla en lugar del informe .tsv heredado en todos los casos, mientras que el informe .tsv aún se genera solo por compatibilidad con flujos de trabajo de análisis antiguos. La generación del informe .tsv heredado se puede desactivar con --no-main-report. Además de utilizar R o Python, también puede ver archivos .parquet con TAD Viewer.

matrices

Estos contienen cantidades MaxLFQ normalizadas para grupos de proteínas ('pg_matrix'), grupos de genes ('gg_matrix'), genes únicos ('unique_genes_matrix'; es decir, genes identificados y cuantificados utilizando sólo péptidos proteotípicos, es decir, específicos de genes), así como valores normalizados. cantidades de precursores ('pr_matrix'). Se filtran al 1% de FDR, utilizando valores q globales para grupos de proteínas y valores q globales y específicos de ejecución para precursores. Se aplica un filtro FDR de nivel de proteína específico de ejecución adicional del 5 % a las matrices de proteínas; utilice --matrix-spec-q para ajustarlo. A veces, DIA-NN informará un cero como la mejor estimación para una cantidad de precursor o proteína. Estas cantidades cero se omiten en las matrices de proteínas/genes. Se generan matrices de cuantificación de fosfositos especiales (fosfositos_90 y fosfositos_99 .tsv) cuando la fosforilación (UniMod:21) se declara como una modificación variable, consulte PTM y peptidoformas.

Descripción de la proteína

El archivo .protein_description.tsv se genera junto con las matrices y contiene información básica de proteínas conocida por DIA-NN (ID de secuencia, nombres, nombres de genes, descripción, secuencia). Las versiones futuras de DIA-NN incluirán más información, por ejemplo, el peso molecular de las proteínas.

Informe de estadísticas

Contiene una serie de métricas de control de calidad que se pueden utilizar para filtrar datos, por ejemplo, para excluir ejecuciones fallidas o como lectura para la optimización de métodos. Tenga en cuenta que el número de proteínas informadas aquí corresponde al número de proteínas únicas (es decir, identificadas con precursores proteotípicos) en una ejecución determinada con un valor q de proteína única del 1%. Este número se puede reproducir a partir del informe principal generado utilizando el umbral FDR precursor del 100 % y filtrado utilizando Protein.Q.Value <= 0,01 y Proteotypic == 1. Lo que se cuenta como "proteína" aquí depende de la configuración de "Inferencia de proteínas".

Informe en formato PDF

Una visualización de una serie de métricas de control de calidad, basadas tanto en el informe principal como en el informe de estadísticas. El informe en PDF debe utilizarse únicamente para una evaluación preliminar rápida de los datos y no debe utilizarse en publicaciones.

Reanálisis flexible

El panel Salida permite controlar cómo manejar los 'archivos .quant'. Ahora, para explicar cuáles son, consideremos cómo DIA-NN procesa los datos sin procesar. Primero realiza la parte del procesamiento que requiere computación por separado para cada ejecución individual del experimento y guarda las identificaciones y la información cuantitativa en un archivo .quant separado. Una vez procesadas todas las ejecuciones, recopila la información de todos los archivos .quant y realiza algunos pasos entre ejecuciones, como el cálculo del valor q global, la inferencia de proteínas, el cálculo de cantidades finales y la normalización. Esto permite utilizar DIA-NN de una manera muy flexible. Por ejemplo, puede detener el procesamiento en cualquier momento y luego reanudarlo comenzando con la ejecución en la que lo detuvo. O puede eliminar algunas ejecuciones del experimento, agregar algunas ejecuciones adicionales y volver a ejecutar rápidamente el análisis, sin necesidad de rehacer el análisis de las ejecuciones ya procesadas. Todo esto está habilitado por la opción Usar archivos .quant existentes cuando estén disponibles . Los archivos .quant se guardan o se leen desde el directorio Temp/.dia (o en la misma ubicación que los archivos sin formato, si no se especifica ninguna carpeta temporal). Al utilizar esta opción, el usuario debe asegurarse de que los archivos .quant se hayan generado exactamente con la misma configuración que se aplicó en el análisis actual, con la excepción de Precursor FDR (siempre que sea <= 5%), Subprocesos , Nivel de registro , MBR , normalización de ejecución cruzada y generación de biblioteca : estas configuraciones pueden ser diferentes. De hecho, es posible incluso transferir archivos .quant a otra computadora y reutilizarlos allí, sin transferir los archivos originales. Importante: se recomienda encarecidamente reutilizar archivos .quant solo cuando tanto las precisiones masivas como la ventana de escaneo estén fijadas en algunos valores (distintos de cero); de lo contrario, DIA-NN realizará la optimización de estos una vez más utilizando la primera ejecución para la cual se utilizó un archivo .quant. No se ha encontrado el archivo cuantitativo. Además, cuando se utiliza MBR o se crea una biblioteca espectral a partir de datos DIA con la generación de biblioteca configurada en perfil inteligente o completo, los archivos .quant solo deben reutilizarse si se han generado exactamente en el mismo orden que el orden actual de los archivos sin formato, es decir con MBR DIA-NN actualmente no puede combinar múltiples análisis separados.

Nota: el informe principal en formato .parquet proporciona la información de salida completa para cualquier tipo de procesamiento posterior. Todos los demás tipos de resultados están ahí para simplificar el análisis cuando se utiliza MS Excel o software similar. Los números de precursores y proteínas informados en diferentes tipos de archivos de salida pueden parecer diferentes debido a los diferentes filtros utilizados para generarlos; consulte las descripciones anteriores. Todas las 'matrices' se pueden reproducir desde el informe principal .parquet, si se generan con el precursor FDR establecido en 5%, usando R o Python.

Búsqueda sin biblioteca

DIA-NN tiene un módulo sin biblioteca muy avanzado que, para ciertos tipos de experimentos, es mejor que usar una biblioteca espectral específica del proyecto de alta calidad. En general, lo siguiente hace que la búsqueda sin biblioteca funcione mejor en comparación con las bibliotecas espectrales (mientras que lo contrario favorece a las bibliotecas espectrales):

números elevados de péptidos detectables por ejecución;
datos heterogéneos (por ejemplo, las muestras de tejido canceroso son bastante heterogéneas, mientras que las inyecciones repetidas de la misma muestra no lo son);
gradientes cromatográficos largos así como buena separación de péptidos en la dimensión de movilidad iónica;
conjunto de datos grande (aunque procesar un conjunto de datos grande en modo sin biblioteca puede llevar tiempo).

Tenga en cuenta que en el 99% de los casos es esencial que MBR esté habilitado para un análisis cuantitativo sin biblioteca. Se activa de forma predeterminada cuando se utiliza la GUI de DIA-NN.

Para la mayoría de los experimentos, tiene sentido intentar la búsqueda sin biblioteca. Para experimentos de mediana y gran escala, podría tener sentido probar primero el análisis sin biblioteca de un subconjunto de datos, para ver si el rendimiento es correcto (en todo el conjunto de datos normalmente será mucho mejor, por lo que no es necesario demasiado estricto aquí). Nosotros mismos también realizamos a menudo una evaluación de control de calidad preliminar rápida del experimento utilizando alguna biblioteca pública.

A menudo es conveniente realizar un análisis sin biblioteca en dos pasos: primero creando una biblioteca espectral predicha in silico a partir de la base de datos de secuencias y luego analizando con esta biblioteca. Esta es la estrategia que debe utilizarse en todos los casos, excepto en los análisis preliminares rápidos. Tenga en cuenta que la funcionalidad de canalización en DIA-NN permite programar fácilmente secuencias de tareas, como la creación de una biblioteca predicha seguida de múltiples análisis utilizando esta biblioteca.

Comentario

Tenga en cuenta que cuanto mayor sea el espacio de búsqueda (el número total de precursores considerados), más difícil será para el software de análisis identificar péptidos y más tiempo llevará la búsqueda. DIA-NN es muy bueno manejando espacios de búsqueda muy grandes, pero ni siquiera DIA-NN puede hacer magia y producir tan buenos resultados con un espacio de búsqueda de 100 millones, como lo haría con un espacio de búsqueda de 2 millones. Por lo tanto, hay que tener cuidado al habilitar todas las posibles modificaciones de variables a la vez. Por ejemplo, permitir un máximo de 5 modificaciones variables, mientras se habilitan simultáneamente la oxidación de metionina, la fosfo y la desamidación, probablemente no sea una buena idea.

Aquí radica una distinción importante entre el análisis de datos DIA y DDA. En DDA, permitir todas las posibles modificaciones de variables tiene mucho sentido también porque el motor de búsqueda necesita hacer coincidir el espectro con algo, y si no coincide con el péptido modificado correcto, lo hará falsamente. En DIA el enfoque es fundamentalmente diferente: el espectro que mejor coincide se encuentra en los datos de cada ion precursor que se está considerando (esta es una vista muy simplificada sólo para ilustrar el concepto). Por lo tanto, no poder identificar un espectro particular nunca es un problema en DIA (de hecho, la mayoría de los espectros están altamente multiplexados en DIA, es decir, se originan a partir de múltiples péptidos, y solo se puede identificar una fracción de ellos). Y por lo tanto sólo tiene sentido habilitar una modificación de variable particular si está específicamente interesado en ella o si la modificación es realmente ubicua.

Consulte PTM y peptidoformas para obtener información sobre cómo distinguir entre peptidoformas que llevan diferentes conjuntos de modificaciones.

Creación de Bibliotecas espectrales

DIA-NN puede crear una biblioteca espectral a partir de cualquier conjunto de datos DIA. Esto se puede hacer tanto en el modo basado en biblioteca espectral como en el modo sin biblioteca: simplemente seleccione la opción Generar biblioteca espectral en el panel de salida.

DIA-NN puede crear además una biblioteca espectral predicha in silico a partir de una base de datos de secuencias (asegúrese de que FASTA digest esté habilitado) u otra biblioteca espectral (a menudo útil para bibliotecas públicas): simplemente ejecute DIA-NN sin especificar ningún archivo sin formato y habilite la opción de predicción de espectros, RT e IM basados en aprendizaje profundo en el panel de generación de iones precursores . Las modificaciones actualmente admitidas por el predictor de aprendizaje profundo son: C(cam), M(ox), N-term acetilo, N/Q(dea), S/T/Y(phos), K(-GG), nK( mTRAQ) y nK(TMT). Es de destacar que si el módulo predictor en DIA-NN no reconoce alguna modificación, igualmente realizará la predicción simplemente ignorándola. Para hacer que DIA-NN descarte cualquier péptido con modificaciones desconocidas para el predictor, use --skip-unknown-mods.

También se pueden crear bibliotecas espectrales a partir de datos DDA y, de hecho, el fraccionamiento fuera de línea + DDA ha sido la forma "estándar de oro" de crear bibliotecas desde la introducción de la proteómica SWATH/DIA. Para ello recomendamos utilizar FragPipe, que se basa en el motor de búsqueda MSFragger, ultrarrápido y muy robusto. FragPipe se puede utilizar además para crear bibliotecas compatibles con DIA-NN también a partir de datos DIA, similar al propio DIA-NN.

Partido entre carreras

MBR es un modo potente en DIA-NN, que resulta beneficioso para la mayoría de los experimentos cuantitativos, tanto con una biblioteca espectral como en modo sin biblioteca. MBR generalmente da como resultado números de identificación promedio más altos, pero también una mayor integridad de los datos, es decir, muchos menos valores faltantes.

Mientras procesa cualquier conjunto de datos, DIA-NN recopila mucha información útil que podría haberse utilizado para procesar mejor los datos. Y eso es lo que permite MBR. Con MBR, DIA-NN primero crea una biblioteca espectral a partir de datos DIA y luego vuelve a procesar el mismo conjunto de datos con esta biblioteca espectral. La innovación algorítmica implementada en DIA-NN garantiza que el FDR esté estrictamente controlado: MBR se ha validado en conjuntos de datos que van desde 2 ejecuciones hasta más de 1000 ejecuciones.

MBR debe habilitarse para cualquier experimento cuantitativo, a menos que tenga una biblioteca espectral específica del proyecto de muy alta calidad, que crea que (i) probablemente proporcione una cobertura casi completa de péptidos detectables, es decir, no tiene sentido probar sin biblioteca buscar + MBR, y (ii) la mayoría de los péptidos de la biblioteca son realmente detectables en el experimento DIA. Si solo (i) es cierto, podría valer la pena seguir probando MBR junto con la generación de biblioteca configurada en perfiles de ID .

MBR no debe usarse para experimentos no cuantitativos, es decir, cuando solo desea crear una biblioteca espectral, que luego usaría en algún otro conjunto de datos.

Se puede "imitar" manualmente el MBR utilizando un enfoque de dos pasos que dará como resultado un rendimiento comparable. Primero, ejecute DIA-NN para crear una biblioteca espectral a partir de las ejecuciones de DIA (el experimento completo o solo su subconjunto, lo que puede ser mucho más rápido para experimentos a gran escala o experimentos que incluyen espacios en blanco/ejecuciones fallidas). Luego use esta biblioteca para analizar todo el experimento. En cualquier caso, ejecute DIA-NN con MBR desactivado.

Cuando utilice MBR (o su imitación) y confíe en el informe principal .parquet (recomendado) en lugar de las matrices cuantitativas, utilice los siguientes filtros de valor q:

Lib.Q.Value en lugar de Global.Q.Value
Al aplicar un filtro a Q.Value que es más estricto que el umbral FDR utilizado para generar la biblioteca DIA (por ejemplo, filtro Q.Value < 0,001), aplique siempre el mismo filtro a Lib.Q.Value
Lib.PG.Q.Value en lugar de Global.PG.Q.Value
Lib.Peptidoform.Q.Value en lugar de Global.Peptidoform.Q.Value, cuando se utiliza la puntuación de peptidoformo

Cambiar la configuración predeterminada

DIA-NN se puede utilizar con éxito para procesar casi cualquier experimento con la configuración predeterminada. En general, se recomienda cambiar la configuración solo cuando se lo recomiende específicamente en esta documentación (como a continuación), para un tipo de experimento específico o si existe una justificación muy clara y convincente para el cambio.

En muchos casos, es posible que desee cambiar varios parámetros en el panel Algoritmo .

MBR debe estar habilitado en la mayoría de los casos, consulte Coincidencia entre carreras.
Exactitudes de masa : cuando se establece en 0,0, DIA-NN determina las tolerancias de masa automáticamente, basándose en la primera ejecución del experimento (predeterminado) o, si se selecciona la opción Ejecuciones no relacionadas , para cada ejecución por separado. Sin embargo, el algoritmo automático puede verse afectado por el ruido en los datos, por lo que incluso para inyecciones replicadas, por ejemplo, adquiridas en TripleTOF 6600, puede producir fácilmente tolerancias de precisión de masa MS2 recomendadas en el rango de 15 ppm a 25 ppm; esto está perfectamente bien. Entonces, lo que preferimos hacer en la mayoría de los casos es ejecutar DIA-NN en varias adquisiciones del experimento, con cualquier biblioteca espectral (puede elegir alguna pequeña que permita un análisis rápido), ver qué precisiones de masa establece DIA-NN automáticamente (imprime sus recomendaciones), y establecer los valores para aproximar los promedios de éstos. Además, a menudo ya se sabe qué parámetros DIA-NN son óptimos para configuraciones particulares de LC-MS.
Ventana de escaneo : idealmente debería corresponder al número promedio aproximado de puntos de datos por pico. De manera similar a las precisiones de masa, DIA-NN puede determinarlas automáticamente, pero preferimos fijarlas en algún valor promedio.

Consulte también las instrucciones sobre búsqueda sin biblioteca, PTM y peptidoformas y multiplexación mediante plexDIA, si son relevantes para su experimento.

Tenga en cuenta que una vez que seleccione una opción particular en la GUI de DIA-NN, es posible que algunas otras configuraciones se activen automáticamente. Por ejemplo, siempre que elija realizar un resumen de la base de datos FASTA in silico (para búsqueda sin biblioteca), o simplemente generar una biblioteca espectral a partir de datos DIA, MBR también se seleccionará automáticamente, porque en el 99% de los casos es beneficioso.

Herramienta de línea de comandos

DIA-NN se implementa como una interfaz gráfica de usuario (GUI), que invoca una herramienta de línea de comandos (diann.exe). La herramienta de línea de comandos también se puede utilizar por separado, por ejemplo, como parte de procesos de procesamiento automatizados personalizados. Además, incluso cuando se utiliza la GUI, se pueden pasar opciones/comandos a la herramienta de línea de comandos, en el cuadro de texto Opciones adicionales . Algunas de estas opciones útiles se mencionan en esta documentación y la referencia completa se proporciona en Referencia de la línea de comandos.

Cuando la GUI inicia la herramienta de línea de comandos, imprime en la ventana de registro el conjunto exacto de comandos que utilizó. Entonces, para reproducir el comportamiento observado al usar la GUI (por ejemplo, si desea realizar el análisis en un clúster de Linux), se pueden pasar exactamente los mismos comandos directamente a la herramienta de línea de comandos.

 diann.exe [commands]

Los comandos se procesan en el orden en que se proporcionan y, en la mayoría de los comandos, este orden puede ser arbitrario.

En Linux, el punto y coma ';' El carácter se trata como un separador de comandos, por lo tanto ';' como parte de los comandos DIA-NN (por ejemplo, --channels) deben reemplazarse por ';' en Linux para un comportamiento correcto.

Para mayor comodidad, así como para manejar experimentos que constan de miles de archivos, algunas de las opciones/comandos se pueden almacenar en un archivo de configuración. Para esto, cree un archivo de texto con cualquier extensión, digamos, diann_config.cfg, escriba cualquier comando admitido por DIA-NN allí y luego haga referencia a este archivo con --cfg diann_config.cfg (en el cuadro de texto Opciones adicionales o en el comando utilizado para invocar la herramienta de línea de comandos diann.exe).

Visualización

DIA-NN proporciona dos opciones de visualización.

Horizonte . Para visualizar cromatogramas/espectros en Skyline, analice su experimento con MBR y una base de datos FASTA especificada y luego haga clic en el botón 'Skyline'. DIA-NN iniciará Skyline automáticamente (asegúrese de tener Skyline/Skyline daily versión 23.1.1.459 o posterior instalada como 'Instalación de administrador'). Actualmente, este flujo de trabajo no admite multiplexación y no funcionará con modificaciones en ningún formato que no sea UniMod.

Visor DIA-NN . Analice su experimento con la casilla de verificación "XIC" marcada y haga clic en el botón "Visor". Por defecto, la opción "XICS" hará cromatogramas de extracto de Dia-Nn solo para los iones de fragmentos de la biblioteca y dentro de los 10 de la elución del ápice. Use --xic [n] para establecer la ventana de tiempo de retención en n segundos (por ejemplo, ácido 60 extraerá cromatogramas dentro de un minuto del ápice) y --xic-teórico-frr para extraer toda la carga 1 y 2 y/b -Series Fragments, incluidos aquellos con pérdidas neutrales comunes. Tenga en cuenta que el uso de --xic-teórico-FR, especialmente en combinación con una gran ventana de tiempo de retención, podría requerir una cantidad significativa de espacio en disco en la carpeta de salida. Sin embargo, la visualización en sí es efectivamente instantánea, para cualquier tamaño de experimento.

Nota : Los cromatogramas extraídos con "XICS" se guardan en Apache. Formato de parquet (los nombres de archivo terminan con '.xic.parquet') y se puede acceder fácilmente usando R o Python. Esto a veces puede ser conveniente para preparar cifras listas para la publicación (aunque también puede hacerlo con Skyline o Dia-Nn Viser), o incluso para configurar un control automático de calidad personalizado para el rendimiento de LC-MS.

Las posiciones de péptidos y modificación dentro de una proteína se pueden visualizar usando Alphamap por el laboratorio de Mann https://github.com/mannlabs/alphamap.

Tuberías automatizadas

La ventana de la tubería dentro de la GUI DIA-NN permite combinar múltiples pasos de análisis en las tuberías. Cada paso de tubería es un conjunto de configuraciones que muestran la GUI. Uno puede agregar tales pasos a la tubería, actualizar los pasos existentes, eliminar los pasos, mover los pasos hacia arriba/hacia abajo en la tubería, deshabilitar/habilitar (hacer doble clic en el mouse) ciertos pasos dentro de la tubería y guardar/cargar tuberías. Además, los pasos individuales de la tubería se pueden copiar entre diferentes pestañas/ventanas de la GUI (use botones de copia y pegue para esto). Siempre reunimos todas las carreras DIA-NN para una publicación particular en una tubería. También se puede usar tuberías DIA-NN para almacenar plantillas de configuración.

PTMS y peptidoforms

La GUI DIA-NN presenta flujos de trabajo incorporados (panel de generación de iones precursores ) para detectar oxidación de metionina, acetilación de proteínas N-terminales, fosforilación y ubiquitinación (mediante la detección de aductos remanentes -GG en lisinas). Otros modificAitons se pueden declarar utilizando --Var-mod o--Mod-mode en opciones adicionales .

Distinguir entre peptidoformas que llevan diferentes conjuntos de modificaciones es un problema no trivial en DIA: sin una puntuación especial de peptidoforma, el Peptidoform FDR efectivo puede estar en el rango de 5-10% para los análisis sin biblioteca. DIA-NN implementa un enfoque estadístico de Decoy de Target para la puntuación de peptidoformo, que está habilitado por la opción Peptidoforms (panel de algoritmo ) y también se activa automáticamente cada vez que se declara una modificación variable, a través de la configuración de la GUI o el comando --Var-Mod. Los valores de peptidoformo Q resultantes reflejan la confianza de Dia-Nn en la corrección del conjunto de modificaciones reportadas para el péptido, así como la corrección de la secuencia de aminoácidos identificada. Sin embargo, estos valores Q no garantizan la ausencia de bajos cambios de masa debido a algunas sustituciones o modificaciones de aminoácidos como la desamidación (tenga en cuenta que DDA tampoco garantiza esto).

Además, DIA-NN presenta un algoritmo que informa estimaciones de confianza de localización PTM (como probabilidades posteriores para la localización correcta de todos los sitios PTM variables en el péptido, así como puntajes para sitios individuales), incluidas en el informe de salida. Los archivos fosfosites_90 y fosfosites_99 .TSV contienen cantidades específicas de fosfpose, calculadas usando el método Top 1 (experimental), que es la intensidad más alta entre los precursores con el sitio localizado con la confianza especificada (0.9 o 0.99, respectivamente) se usa como el fosfositepesosis. cantidad en la carrera dada. El algoritmo 'Top 1' se usa aquí, ya que es probablemente el más robusto contra los valores atípicos y los errores erróneos. Sin embargo, si esta es o no la mejor opción debe ser investigada, lo que actualmente es un desafío debido a la falta de puntos de referencia con verdad conocida.

En general, al buscar PTMS, recomendamos lo siguiente:

Esencial: las modificaciones variables que está buscando deben especificarse como variables (a través de las casillas de verificación GUI como las opciones adicionales ) tanto cuando se generan una biblioteca predicha in silico como también al analizar los datos sin procesar utilizando cualquier biblioteca pronosticada o empírica
Configuración para la fosforilación: Modificaciones variables Max 3, Max 1 Falló el escisión, la fosforilación es la única modificación variable especificada, el rango de carga precursora 2-3; Para reducir el uso de la RAM, asegúrese de que el rango de masa precursor especificado (al generar una biblioteca predicha) no sea más amplia que el rango de masa precursor seleccionado para MS/MS por el método DIA; Para acelerar el procesamiento cuando se usa una biblioteca predicha, primero genere una biblioteca basada en DIA a partir de un subconjunto de ejecuciones de experimentos (por ejemplo, más de 10 mejores ejecuciones) y luego analice todo el conjunto de datos utilizando esta biblioteca basada en DIA con MBR discapacitado
Cuando lo anterior tenga éxito, también pruebe los escisiones de Max 2 perdidos
Al buscar PTM que no sean la fosforilación, en el 95% de los casos es mejor usar MAX 1 a 3 Modificaciones variables y Max 1 perdió el escote
Cuando no busca PTMS, es decir, cuando el objetivo es la cuantificación relativa de proteínas, habilitar las modificaciones variables típicamente no produce una mayor profundidad proteómica. Si bien generalmente tampoco duele, hará que el procesamiento sea más lento.

Hasta donde sabemos, no existe una validación publicada de la confianza de identificación para la detección de péptidos desamidados (que son fáciles de confundir a isotopólogos más pesados, a menos que la especificación de masa tenga una resolución muy alta y una configuración de precisión de masa/tolerancia más estricta Utilizado por el motor de búsqueda), incluso para DDA. Una forma de ganar confianza en la identificación de péptidos desamidados es verificar si se identifica algo si se declara que el delta de masa para la desamidación es 1.022694, en lugar del valor correcto 0.984016. Dia-Nn pasa esta prueba con éxito en varios conjuntos de datos (eso es que no se informan ID al especificar esta 'masa de modificación de señuelo'), pero recomendamos también probar dicha búsqueda de 'masa de modificación de señuelo' en varias ejecuciones del experimento a analizar , si busca péptidos desamidados. En cada caso (masa correcta o señuelo),-PPTM-QValues debe usarse para habilitar la puntuación específica de PTM para la desamidación, además de la puntuación de peptidoformo, y PTM.Q.Value o Global.q.value/lib. P. Valor utilizado para el filtrado.

Es de destacar que cuando el objetivo final es la identificación de proteínas, es en gran medida irrelevante si un péptido modificado se identifica erróneamente, coincidiendo con un espectro que se origina en un peptidoformo diferente. Por lo tanto, si el propósito del experimento es identificar/cuantificar PTM específicas, sustituciones de aminoácidos o distinguir proteínas con alta identidad de secuencia, entonces se recomienda la opción de puntuación de peptidoformas . En todos los demás casos, la puntuación de peptidoformo generalmente está bien para usar, pero no es necesario, y generalmente conducirá a un procesamiento algo más lento y una ligera disminución en los números de identificación al usar MBR.

¿Dia-Nn necesita reconocer modificaciones en la biblioteca espectral?

En general, sí. Sin embargo, la mayoría de los flujos de trabajo funcionarán sin la necesidad de reconocer modificaciones. Aunque si se detectan modificaciones desconocidas en la biblioteca, DIA-NN imprimirá una advertencia que enumeralas, y se recomienda firmemente declararlas usando--MOD. Tenga en cuenta que DIA-NN ya reconoce muchas modificaciones comunes y también puede cargar toda la base de datos Unimod, consulte la opción-Full-Unimod.

Multiplexación usando plexdia

En colaboración con el Laboratorio Slavov, hemos desarrollado Plexdia basado en Dia-Nn, una tecnología que permite beneficiarse de la multiplexación no isobárica (MTRAQ, Dimetil, Silac) en combinación con DIA. Para analizar un experimento de Plexdia, uno necesita una biblioteca espectral predicha o empírica en silico. Dia-Nn luego debe suministrarse con los siguientes conjuntos de comandos, dependiendo del escenario de análisis.

Escenario 1 . La biblioteca es una biblioteca regular libre de etiquetas (empírica o predicha), y la multiplexación se logra exclusivamente con el etiquetado isotópico, es decir, sin etiquetado químico con etiquetas como mtraq o dimetil. Dia-Nn luego necesita las siguientes opciones para agregar a opciones adicionales :

-Modificado fijo, para declarar el nombre base para las etiquetas del canal y los aminoácidos asociados
--LIB-fijo-mod, a in silico aplicar la modificación declarada con--mode-mod a la biblioteca
-canales, para declarar los cambios de masa para todos los canales considerados
-Modificaciones orígenes, para evitar que Dia-Nn convierta las modificaciones declaradas a UNIMOD

Ejemplo para etiquetas L/H SILAC en K y R:

 --fixed-mod SILAC,0.0,KR,label
--lib-fixed-mod SILAC
--channels SILAC,L,KR,0:0; SILAC,H,KR,8.014199:10.008269
--original-mods

Tenga en cuenta que en el Silac anterior se declara como etiqueta, es decir, no se supone que cambie el tiempo de retención del péptido. También es una etiqueta de masa cero aquí, ya que solo sirve para designar los aminoácidos que serán etiquetados. Lo que la combinación de --s-Mod-Mod y--LIB-fijo-Mod hace aquí es simplemente poner (Silac) después de cada K o R en la secuencia de ID precursora, en la representación de la biblioteca interna utilizada por DIA-NN. -Los canales luego dividen cada entrada de biblioteca en dos, una con masas 0 (k) y 0 (r) agregadas en cada ocurrencia de k (Silac) o R (Silac) en la secuencia, respectivamente, y otro con 8.014199 (k ) y 10.008269 (r).

Escenario 2 . La biblioteca es una biblioteca regular libre de etiquetas (empírica o predicha), y la multiplexación se logra a través del etiquetado químico con MTRAQ.

Escenario 2: Paso 1. Etiquete la biblioteca in silico con mtraq y ejecute el predictor de aprendizaje profundo para ajustar los espectros/RTS/IMS. Para esto, ejecute DIA-NN con la biblioteca de entrada en el campo de la biblioteca espectral , una biblioteca de salida especificada, espectros basados en el aprendizaje profundo, predicción RTS e IMS habilitada, lista de archivos de datos sin procesar vacíos y las siguientes opciones en opciones adicionales :

 --fixed-mod mTRAQ,140.0949630177,nK
--lib-fixed-mod mTRAQ
--channels mTRAQ,0,nK,0:0; mTRAQ,4,nK,4.0070994:4.0070994;mTRAQ,8,nK,8.0141988132:8.0141988132
--original-mods

Use el archivo .PredicHet.speclib con el nombre correspondiente a la biblioteca de salida como la biblioteca espectral para el siguiente paso.

Escenario 2: Paso 2. Ejecute Dia-Nn con las siguientes opciones:

 --fixed-mod mTRAQ,140.0949630177,nK
--channels mTRAQ,0,nK,0:0; mTRAQ,4,nK,4.0070994:4.0070994;mTRAQ,8,nK,8.0141988132:8.0141988132
--original-mods

Tenga en cuenta que--LIB-Fixed-Mod ya no es necesario ya que la biblioteca generada en el Paso 1 ya contiene (MTRAQ) en el extremo N y las lisinas de cada péptido.

Escenario 3 . La biblioteca es una biblioteca regular sin etiqueta (empírica o predicha), y la multiplexación se logra a través del etiquetado químico con una etiqueta que no sea MTRAQ. La razón por la que este escenario se trata de manera diferente al escenario 2 es que el predictor de Dia-Nn in Silico no ha sido capacitado específicamente para etiquetas distintas de MTRAQ, y por lo tanto no es necesario un paso adicional para generar predicciones. Simplemente ejecute Dia-Nn como lo haría en el Escenario 1, excepto que la declaración de modificación fijo tendrá una masa distinta de cero en este caso y no será una etiqueta. Por ejemplo, para el dimetilo de 5 canales descrito por Thielert et al:

 ‐‐fixed‐mod Dimethyl, 28.0313, nK
--lib-fixed-mod Dimethyl
‐‐channels Dimethyl,0,nK,0:0; Dimethyl,2,nK,2.0126:2.0126; Dimethyl,4,nK,4.0251:4.0251; Dimethyl,6,nK,6.0377:6.0377; Dimethyl,8,nK,8.0444:8.0444
--original-mods

Escenario 4 . La biblioteca es una biblioteca de DIA empírica generada por DIA-NN a partir de un conjunto de datos DIA multiplexado. Por ejemplo, esta podría ser una biblioteca generada por DIA-NN en el primer pase de MBR (y le gustaría reutilizarla para analizar la misma o algunas otras ejecuciones). Las opciones adicionales serán las mismas que en el escenario 1, el escenario 2: Paso 2 o el escenario 3, excepto (¡importante!)--LIB-FIJED-MOD no debe ser suministrado.

En todos los escenarios anteriores , una opción adicional que especifica la estrategia de normalización debe incluirse en opciones adicionales . Esto puede ser: la norma de canal (Silac pulsada, el recambio de proteínas) o la norma de especie de canal (multiplexación de muestras independientes).

Producción . Recomendamos usar el informe principal en formato .parquet para todos los análisis posteriores. Tenga en cuenta que PG.Q.Value y GG.Q.Value en el informe principal son específicos del canal, cuando se utilizan la multiplexación. Las cantidades pg.maxlfq, genes.maxlfq y genes.maxlfq.unique son solo se usan si (i) cuantos y (ii) el informe corresponde al segundo pase de MBR o no se usa. Alternativamente, uno puede usar las matrices (no recomendadas), estas son solo a nivel de precursores. Al usar matrices, es esencial especificar-Matrix-Ch-QValue, con umbrales razonables 0.01 a 0.5. Esta configuración no afectará la matriz MS1 extraída, que simplemente informa las señales MS1 correspondientes a cada canal, siempre que se identifique un precursor en cualquiera de los canales; normalmente no se recomienda usar esta matriz. Las matrices de proteínas no se producen al analizar datos multiplexados.

Referencia de configuración de GUI

Descripción de las opciones seleccionadas

Panel de entrada

Convierta a .dia Convierta los archivos sin procesar seleccionados en formato .dia de Dia-Nn, para un procesamiento posterior más rápido, y guárdelos en la misma carpeta que los archivos sin procesar de origen respectivo o en Temp/.dia Dir (Panel de salida ), si el Se especifica el último. La conversión se recomienda para archivos Sciex, generalmente hace poca diferencia para los archivos Thermo y no se recomienda para los archivos Bruker.
La opción ReanNotate permite reannotar la biblioteca espectral con información de proteínas de la base de datos FASTA, utilizando la especificidad de digestión especificada
Los contaminantes agregan contaminantes comunes de la base de datos Cambridge Center for Proteomics (CCP) y los excluyen automáticamente de la cuantificación, consulte la descripción de la opción--CONT-QANT-EXCLUDE. Esta opción se aplica al generar una biblioteca espectral predicha desde una base de datos FASTA o analizar utilizando dicha biblioteca, si se generó con contaminantes habilitados.

Panel de generación de iones precursores

FASTA Digest instruye a Dia-Nn a In Silico Digest la base de datos de secuencia, para la búsqueda sin biblioteca o para generar una biblioteca espectral en Silico
Los espectros basados en el aprendizaje profundo, la predicción de RTS e IMS instruye a DIA-NN que realice una predicción basada en el aprendizaje profundo de los espectros, los tiempos de retención y los valores de movilidad iónica. Esto permite no solo hacer bibliotecas espectrales en silico a partir de bases de datos de secuencia, sino también reemplazar Spectra/RTS/IMS en bibliotecas existentes con valores predichos

Panel de salida

Use archivos .cant existentes cuando esté disponible ID de reutilización/información de cuantificación de un análisis anterior, consulte la salida
TEMP/.dia Dir especifica dónde se guardarán los archivos. Quant para los archivos .dia convertidos, ver salida

Panel de algoritmo

La precisión de la masa establece la tolerancia masiva de MS2 (en PPM), consulte Cambiar la configuración predeterminada
Precisión de masa MS1 Establezca la tolerancia de masa MS1 (en PPM), consulte Cambiar la configuración predeterminada
La ventana de escaneo establece el radio de la ventana de escaneo en un valor específico. Idealmente, debe ser aproximadamente igual al número promedio de puntos de datos por pico, consulte Cambiar la configuración predeterminada
Ejecutas no relacionadas Determine las precisiones de masa y la ventana de escaneo, si es automática, de forma independiente para diferentes ejecuciones, consulte [Cambiar la configuración predeterminada] (#Cambiar la configuración predeterminada
Peptidoforms activa la puntuación de la confianza de la peptidoforma, ver PTMS y peptidoforms
MBR habilita MBR, debe habilitarse para la mayoría de los experimentos cuantitativos, ver MBR
No hay espectros compartidos si se debe usar un algoritmo de tipo Centric de espectro para eliminar los precursores interferentes. Este algoritmo es particularmente importante cuando se considera modificaciones variables y siempre debe habilitarse
El clasificador de red neuronal aquí 'un solo paso' es la opción predeterminada y se recomienda. El modo de 'doble paso' podría ser mejor en algunos escenarios, pero es casi dos veces más lento y podría hacer que los valores de FDR informados sean un poco menos conservadores. El modo de doble paso debe probarse con un solo paso en el conjunto de datos específico, antes de tomar una decisión para usarlo.
Inferencia de proteínas Esta configuración afecta principalmente la definición de proteotipicidad, se recomienda los "genes" predeterminados para casi todas las aplicaciones, siempre que la información a nivel de genes esté realmente presente en la base de datos (las bases de datos no uniprot pueden carecer de ella). Cuando se establece en "apagado", se utilizan grupos de proteínas de la biblioteca espectral: esto tiene sentido si la inferencia de proteínas ya se ha realizado durante la generación de la biblioteca
Estrategia de cuantificación Los Quantums (alta precisión) se recomienda para la mayoría de los escenarios, use Quantums (alta precisión) para experimentos donde la eliminación de cualquier sesgo de compresión de la relación es crítico
Normalización cruzada Si se debe usar global, dependiente de RT (recomendado) o también dependiente de la señal (experimental, tenga mucho cuidado con ello) normalización cruzada. La normalización también se puede deshabilitar por completo usando--no-norma
Generación de la biblioteca Esta configuración determina si se agregan RTS/IMS y Spectra empíricos a la biblioteca recién generada, en lugar de los valores teóricos. IDS, RT & IM GRAFILE se recomienda encarecidamente para casi todos los flujos de trabajo. Al analizar con una biblioteca específica de proyectos de alta calidad, puede cambiar a perfiles IDS. El perfil completo significa siempre usar información empírica, y solo puede ser beneficioso (en casos muy raros) cuando se tienen menos de ~ 1000 péptidos identificados por ejecución, y solo si el procesamiento aguas abajo no es muy sensible a un FDR un poco más alto.
Velocidad y uso de RAM Esta configuración es principalmente útil para análisis sin biblioteca. Los primeros tres modos generalmente tendrán poca diferencia en términos de números de identificación, mientras que el modo ultra rápido es bastante extremo: aproximadamente 5 veces más rápido, pero los números de identificación no son tan buenos y el FDR efectivo podría ser algo más alto. La configuración afecta solo al primer pase cuando se usa MBR

Referencia de línea de comandos

Descripción de las opciones/comandos disponibles

Tenga en cuenta que algunas opciones a continuación son fuertemente perjudiciales para el rendimiento y solo están allí para fines de evaluación comparativa. Por lo tanto, la recomendación es usar solo las opciones que se espera que sean beneficiosas para un experimento particular (por ejemplo, las recomendadas en la presente documentación) en función de algunas liquidaciones claras.

--cfg [nombre del archivo] Especifica un archivo para cargar opciones/comandos desde
-La normalización de la norma de canal de las muestras multiplexadas se realizará de manera específica de ejecución, es decir, para realizar la normalización, para cada ión por precursor Dia-nn sumará los canales respectivos dentro de cada ejecución y normalizará estas sumas a través de las ejecuciones: use EG Para experimentos de Silac de rotación de proteínas
-La normalización de la especie de especificación de channel de muestras multiplexadas se realizará de manera específica del canal, es decir, cada canal de cada ejecución se trata como una muestra separada para normalizarse: se use para analizar experimentos en los que la multiplexación de muestras independientes se usa para aumentar el rendimiento
-canales [canal 1]; [Canal 2]; ... Enumera los canales de multiplexación, en los que cada declaración de canal tiene la forma [canal] = [grupo de etiquetas], [nombre del canal], [sitios], [mass1: mass2: ...], en donde [sitios] tiene la misma sintaxis En cuanto a --var-mod y si se enumeran n sitios, las masas N se enumeran al final de la declaración del canal. La biblioteca espectral se dividirá automáticamente en múltiples canales, para precursores que llevan la modificación [grupo de etiquetas]. Para agregar este último a una biblioteca espectral sin etiqueta, puede usar--LIB-MOD-MOD, EG-SILAC-MOD FIJADO, 0.0, KR, etiqueta-Lab-LIB-LIB-MOD SILAC. Ver multiplexación usando plexdia para ejemplos de uso
--Clear-Mods hace que los nombres de modificación incorporada (PTM) diá-nn 'olviden'
-Compact-Informar instruye a DIA-NN que proporcione menos información en el informe principal .tsv
-Los péptidos de exclusión [de la etiqueta] de contenido de contenido correspondiente correspondientes a los ID de secuencia de proteínas etiquetados con la etiqueta especificada se excluirán de la normalización, así como la cuantificación de grupos de proteínas que no incluyen proteínas con la etiqueta
-Convertir hace que Dia-Nn convierta los archivos de especificación de masa en el formato .dia. Los archivos se guardan en la misma ubicación que los archivos de entrada, o en el DIR TEMP/.DIA, si se especifica (en la GUI o utilizando la opción - -Temp)
--Cut [Especificty 1], [Especificidad 2], ... Especifica la especificidad de escisión para el Digest in Silico. Los sitios de escisión (pares de aminoácidos) se enumeran separados por comas, '*' Indica cualquier aminoácido y '!' indica que el sitio respectivo no se escindirá. Ejemplos: "-Cut K*, R*,!*P"-Especificidad tríptica canónica, "--Cut"-Digest Discapacitado
--Decoy-Channel [canal] especifica las masas de canales de señuelo, en donde [canal] tiene la misma sintaxis que para-canales
--Decoys-Preserve-Spectrum informa a Dia-Nn que los péptidos señuelos en la biblioteca ya están anotados con espectros 'señuelo'
--Dir [carpeta] Especifica una carpeta que contiene archivos RAW a procesar. Todos los archivos en la carpeta deben estar en el formato .mzml o .dia
-Direct-Quant Desactive Quantums y use algoritmos de cuantificación Legacy Dia-Nn en su lugar, también deshabilita la cuantificación de proteínas específicas del canal al analizar muestras multiplexadas
--dl-no-IM Al usar el predictor de aprendizaje profundo, la predicción de las movilidades de iones no se realizará
--dl-no-rt Al usar el predictor de aprendizaje profundo, la predicción de los tiempos de retención no se realizará
--Duplicate-proteínas instruye a DIA-NN que no se saltea las entradas en la base de datos de secuencia con ID duplicados (mientras que por defecto si varias entradas tienen la misma ID de proteína, todas menos la primera entrada se omitirán)
-La estimación de FDR aproximada de Exact FDR para los péptidos seguros basados en el modelado paramétrico se deshabilitará
-Cantidad de fragmento de Export-Cantado e información de calidad al Informe de salida .Parquet
--ext [string] agrega una cadena al final de cada nombre de archivo (especificado con --f)
--f [Nombre del archivo] Especifica una ejecución a analizar, use múltiples comandos para especificar múltiples ejecuciones
--fasta [nombre del archivo] Especifica una base de datos de secuencia en formato FASTA (soporte completo para proteomas uniprot), use múltiples comandos-FASTA para especificar múltiples bases de datos
--Fasta-Filter [Nombre del archivo] Solo considere los péptidos que coinciden con las secuencias despojadas especificadas en el archivo de texto proporcionado (una secuencia por línea), al procesar una base de datos de secuencia
--Fasta-Search instruye a Dia-Nn que realice un resumen in silico de la base de datos de secuencia
--Fixed-Mod [Nombre], [Mass], [Sitios], [Opcional: 'Label'] -Agrega el nombre de modificación a la lista de nombres reconocidos y especifica la modificación como fija. Misma sintaxis que para --var-mod.
--force-swissprot solo considere secuencias swissprot (es decir, marcadas con '> sp |') al procesar una base de datos de secuencia
-Decoys de Foreign le informa a Dia-Nn que cualquier señuelos incluidos en la biblioteca ha sido generado por una herramienta que no sea esta versión de Dia-Nn
-Full-Unimod Carga la base de datos de modificación UNIMOD completa y deshabilita la conversión automática de los nombres de modificación en el formato Unimod
-Gen-Spec-LIB instruye a Dia-Nn que genere una biblioteca espectral
-Gen-Fr-Restriction anota la biblioteca con información de exclusión de fragmentos, basada en las ejecuciones que se analizan (se seleccionan fragmentos menos afectados por interferencias para la cuantificación, por qué se excluyen el resto)
-Global-Mass-Cal Desactiva la calibración de masa dependiente de RT
-La norma global instruye a DIA-NN que use una normalización global simple en lugar de normalización dependiente de RT
-Los ajustes de Quantums altos de ACC se otimizarán para la máxima precisión, es decir, para minimizar cualquier sesgo cuantitativo de compresión de la relación
--Dids-to-nombres Los ID de secuencia de proteínas también se utilizarán como nombres de proteínas y genes, cualquier información sobre los nombres o genes reales se ignorará
--il-eq (experimental) Cuando se usa la función 'reannotato', los péptidos coincidirán con las proteínas mientras consideran la isoleucina y la leucina equivalente
--im-window [x] corrige la ventana de extracción IM al valor específico
--MiM-Window-Factor [x] controla el tamaño mínimo de la ventana de extracción de IM, el valor predeterminado es 2.0
-Las precisiones de masa de Mass-ACC individual , si se establecen en automática, se determinarán de forma independiente para diferentes ejecuciones
-individual informes Se creará un informe de salida separado para cada ejecución
-La ventana de escaneo individual de Windows , si se establece en automática, se determinará de forma independiente para diferentes ejecuciones
-intento 0 deshabilita la eliminación de precursores interferentes
--LIB [Nombre del archivo] Especifica una biblioteca espectral. El uso de múltiples comandos -libers (experimentales) permite cargar múltiples bibliotecas en formato .tsv

Expandir

Información adicional

Versión DIA-NN 1.9.2
Tipo Otro código fuente
Fecha de actualización 2024-11-14
tamaño 50MB
Proviene de Github

Aplicaciones relacionadas

waymo open dataset

2024-11-18
SmartTube

2024-12-14
Sunamu

2024-12-14
MySchedule.py

2024-12-15
viptools for eslam

2024-12-15
VITAident

2024-12-15

Recomendado para ti

chat.petals.dev

Otro código fuente

1.0.0
GPT Prompt Templates

Otro código fuente

1.0.0
GPTyped

Otro código fuente

GPTyped 1.0.5
waymo open dataset

Otro código fuente

December 2023 Update
SmartTube

Otro código fuente

24.71 Stable
Sunamu

Otro código fuente

Release 2.2.0
waymo open dataset

Otro código fuente

December 2023 Update
wp functions

Otras categorias

1.0.0
termwind

Otras categorias

v2.3.0

Información relacionada Todo