DIA-NN - um conjunto de software universal para processamento de dados proteômicos de aquisição independente de dados (DIA). Concebido na Universidade de Cambridge, Reino Unido, no laboratório de Kathryn Lilley (Cambridge Centre for Proteomics), o DIA-NN abriu um novo capítulo na proteômica, introduzindo uma série de algoritmos que permitiram experimentos em larga escala confiáveis, robustos e quantitativamente precisos usando métodos de alto rendimento. O DIA-NN está atualmente sendo desenvolvido no laboratório de Vadim Demichev na Charité (Universidade de Medicina de Berlim, Alemanha).
DIA-NN é construído sobre os seguintes princípios:
Download : https://github.com/vdemichev/DiaNN/releases/tag/1.9.2 (recomenda-se usar a versão mais recente - DIA-NN 1.9.2)
Por favor cite:
DIA-NN: redes neurais e correção de interferência
permitir cobertura proteômica profunda em métodos Nature de alto rendimento , 2020
Usando DIA-NN para a análise de modificações pós-tradução (PTMs), como fosforilação ou ubiquitinação: perfil de ubiquitinoma in vivo resolvido no tempo por DIA-MS revela alvos USP7 em escala de proteoma Nature Communications, 2021
Usando o módulo de mobilidade iônica do DIA-NN para análise de dados timsTOF ou usando DIA-NN em combinação com bibliotecas espectrais geradas por FragPipe: análise de dados dia-PASEF usando FragPipe e DIA-NN para proteômica profunda de baixas quantidades de amostras Nature Communications, 2022
Usando DIA-NN para a análise de amostras multiplexadas (SILAC, mTRAQ, etc): Aumentando o rendimento de proteômica sensível por plexDIA Nature Biotechnology, 2022
Usando DIA-NN como parte do fluxo de trabalho CysQuant: CysQuant: Quantificação simultânea de oxidação de cisteína e abundância de proteínas usando espectrometria de massa de aquisição independente ou dependente de dados Redox Biology, 2023
Usando o módulo QuantUMS do DIA-NN para quantificação: QuantUMS: a minimização da incerteza permite quantificação confiável em proteômica biorxiv
Usando DIA-NN para processar dados Slice-PASEF: Slice-PASEF: fragmentando todos os íons para máxima sensibilidade em proteômica biorxiv
Outros documentos importantes
Pacote R com algumas funções úteis para lidar com os relatórios de saída do DIA-NN: https://github.com/vdemichev/diann-rpackage
Visualização das posições dos peptídeos na proteína: https://github.com/MannLabs/alphamap (AlphaMap by Mann lab)
Notas e discussões sobre proteômica em geral e o uso do DIA-NN: https://github.com/vdemichev/DiaNN/discussions/categories/dia-proteomics-in-detail (esta seção será expandida ainda mais).
Instalação
Começando
Formatos de dados brutos
Formatos de biblioteca espectral
Saída
Pesquisa sem biblioteca
Criação de bibliotecas espectrais
Partida entre corridas
Alterando as configurações padrão
Ferramenta de linha de comando
Visualização
Pipelines automatizados
PTMs e peptidoformas
Multiplexação usando plexDIA
Referência de configurações da GUI
Referência de linha de comando
Referência de saída principal
Perguntas frequentes (FAQ)
Apoiar
No Windows , baixe o instalador .exe e execute-o. Certifique-se de não executar o instalador a partir de uma unidade de rede. Recomenda-se instalar o DIA-NN na pasta padrão sugerida pelo instalador. Alternativamente, basta descompactar o arquivo .binaries.zip em um local de sua escolha.
No Linux , baixe e descompacte o arquivo .Linux.zip. A versão Linux do DIA-NN é gerada no Linux Mint 21.2, e o sistema de destino deve ter as bibliotecas padrão que sejam pelo menos tão recentes. No entanto, esse requisito não existe se você criar uma imagem de contêiner Docker ou Apptainer/Singularity. Para gerar qualquer um dos contêineres, recomendamos começar com a imagem mais recente do debian docker - neste caso, você só precisa instalar sudo apt install libgomp1
antes de poder executar o DIA-NN nele. Consulte também o excelente guia detalhado de Roger Olivella. Para obter o melhor desempenho, use mimalloc com substituição dinâmica conforme descrito aqui https://github.com/microsoft/mimalloc.
Também é possível executar o DIA-NN no Linux usando Wine 6.8 ou posterior.
Os dados de espectrometria de massa DIA podem ser analisados de duas maneiras: pesquisando em um banco de dados de sequências (modo livre de biblioteca) ou usando uma "biblioteca espectral" - um conjunto de espectros conhecidos e tempos de retenção para peptídeos selecionados. Discutimos em detalhes quando usar cada uma dessas abordagens na seção de pesquisa sem biblioteca. Para ambos os tipos de análise, usar DIA-NN é muito simples:
Agora, as informações acima são suficientes para começar a usar o DIA-NN, é realmente muito fácil! O restante desta documentação pode ser útil, mas não é essencial para 99% dos projetos.
A descrição acima mostra como executar o DIA-NN com configurações padrão, e elas produzem desempenho ideal ou quase ideal para a maioria dos experimentos. Em alguns casos, entretanto, é melhor ajustar as configurações; consulte Alterando as configurações padrão para obter mais detalhes.
DIA-NN também oferece opções de ajuste poderosas para experimentos sofisticados. DIA-NN é implementado como uma interface gráfica amigável que invoca automaticamente uma ferramenta de linha de comando. Mas o usuário também pode passar opções/comandos diretamente para a ferramenta de linha de comando, por meio da caixa de texto Opções adicionais na interface. Todas essas opções começam com um traço duplo – seguido do nome da opção e, se aplicável, de alguns parâmetros a serem definidos. Portanto, se você vir alguma opção/comando com -- em seu nome mencionado nesta documentação, significa que este comando deve ser digitado na caixa de texto Opções adicionais .
Formatos suportados: Sciex .wiff, Bruker .d, Thermo .raw, .mzML e .dia (formato usado pelo DIA-NN para armazenar espectros). A conversão de qualquer formato suportado para .dia é possível. Ao executar no Linux (compilações nativas, não no Wine), apenas dados .d, .mzML e .dia são suportados.
Para suporte .wiff, baixe e instale o ProteoWizard - escolha a versão (64 bits) que suporta "arquivos de fornecedor"). Em seguida, copie todos os arquivos com 'Clearcore' ou 'Sciex' em seus nomes (estes serão arquivos .dll) da pasta ProteoWizard para a pasta de instalação do DIA-NN (aquela que contém diann.exe, DIA-NN.exe e um monte de outros arquivos).
A leitura de arquivos Thermo .raw requer a instalação do Thermo MS File Reader. É imprescindível utilizar especificamente a versão do link acima (3.0 SP3).
Os arquivos .mzML devem ser centrados e conter dados como espectros (por exemplo, SWATH/DIA) e não cromatogramas.
Muitos formatos de especificação de massa, incluindo aqueles poucos que não são suportados diretamente pelo DIA-NN, podem ser convertidos para .mzML usando o aplicativo MSConvertGUI do ProteoWizard. Isso funciona para todos os formatos suportados, exceto Bruker .d e SCIEX Scanning SWATH - eles precisam ser acessados diretamente pelo DIA-NN. As seguintes configurações do MSConvert devem ser usadas para conversão:
DIA-NN suporta tabelas separadas por vírgulas (.csv), separadas por tabulações (.tsv, .xls ou .txt) ou .parquet como bibliotecas espectrais, bem como .speclib (formato compacto usado pelo DIA-NN), .sptxt (SpectraST, experimental) e arquivos de biblioteca .msp (NIST, experimental). Importante: a biblioteca não deve conter íons precursores não fragmentados como 'fragmentos': cada íon fragmentado deve na verdade ser produzido pela fragmentação da estrutura peptídica.
Bibliotecas no formato PeakView, bem como bibliotecas produzidas por FragPipe, TargetedFileConverter (parte do OpenMS), exportadas do Spectronaut (Biognosys) no formato .xls ou geradas pelo próprio DIA-NN são suportadas “como estão”.
Para bibliotecas .tsv/.xls/.txt geradas por outros meios, DIA-NN pode exigir que os nomes dos cabeçalhos sejam especificados (separados por vírgulas) (para as colunas necessárias) usando o comando --library-headers. Use o símbolo * em vez do nome de um cabeçalho para manter seu reconhecimento automático. Veja abaixo as descrições das respectivas colunas (na ordem em que os cabeçalhos precisam ser especificados).
Colunas obrigatórias:
É altamente recomendável que colunas contendo o seguinte também estejam presentes na biblioteca:
Por exemplo, um comando --library-headers que especifica todos os nomes de colunas, exceto a coluna 'Decoy', pode ter a seguinte aparência:
--library-headers ModifiedPeptide,PrecursorCharge,PrecursorMz,Tr_recalibrated,ProductMz,LibraryIntensity,UniprotID,ProteinName,Genes,Proteotypic,*,FragmentCharge,FragmentType,FragmentSeriesNumber,FragmentLossType,QValue,ExcludeFromAssay,IonMobility
Use --sptxt-acc para definir a precisão da massa da filtragem de fragmentos (em ppm) ao ler bibliotecas .sptxt/.msp.
MaxQuant msms.txt também pode ser usado (experimental) como uma biblioteca espectral no DIA-NN, embora modificações fixas possam não ser lidas corretamente.
DIA-NN pode converter qualquer biblioteca compatível em seu próprio formato .parquet. Para isso, clique em Biblioteca espectral (painel Entrada ), selecione a biblioteca que deseja converter, selecione o nome do arquivo da biblioteca de saída (painel Saída ), clique em Executar . Se você usar algum formato de biblioteca exótico, é uma boa ideia convertê-lo para .parquet do DIA-NN e então examinar a biblioteca resultante (usando o pacote R 'arrow' ou Python 'pyarrow') para ver se o conteúdo faz sentido.
Todas as bibliotecas .tsv/.xls/.txt/.csv/.parquet são apenas tabelas simples com dados legíveis por humanos e podem ser exploradas/editadas, se necessário, usando Excel ou (idealmente) R/Python.
É importante ressaltar que quando qualquer biblioteca está sendo convertida para um formato diferente, todos os números podem ser arredondados usando certa precisão decimal, o que significa que eles podem não ser exatamente iguais aos da biblioteca original (pode haver uma pequena diferença). Assim, embora o desempenho ao analisar usando uma biblioteca convertida seja comparável, os resultados não corresponderão exatamente.
O painel Saída permite especificar onde a saída deve ser salva, bem como os nomes dos arquivos do relatório de saída principal e (opcionalmente) a biblioteca espectral de saída. DIA-NN usa esses nomes de arquivo para derivar os nomes de todos os seus arquivos de saída. Abaixo você encontra informações sobre diferentes tipos de saída DIA-NN. Para a maioria dos fluxos de trabalho é necessário apenas o relatório principal (para análise em R ou Python - recomendado) ou as matrizes (saída simplificada para MS Excel). Quando a geração de matrizes de saída está habilitada, o DIA-NN também produz um arquivo .manifest.txt com uma breve descrição dos arquivos de saída gerados.
Uma tabela de texto contendo IDs de precursores e proteínas, bem como muitas informações associadas. A maioria dos nomes de colunas são autoexplicativos e a referência completa pode ser encontrada em Referência de saída principal. As seguintes palavras-chave são usadas ao nomear colunas:
Nota: desde a versão 1.9, o DIA-NN produz um relatório no formato Apache .parquet. Este é um formato de tabela de texto compactado (redução de tamanho de aproximadamente 10x) que pode ser carregado em uma única linha de código usando o pacote R 'arrow' ou o pacote Python 'pyarrow'. A maioria das novas funcionalidades (introduzidas no DIA-NN 1.9) são refletidas apenas no relatório parquet, por isso é recomendado usá-lo em vez do relatório .tsv legado em todos os casos, enquanto o relatório .tsv ainda é gerado apenas para compatibilidade com fluxos de trabalho de análise antigos. A geração do relatório .tsv legado pode ser desativada com --no-main-report. Além de usar R ou Python, você também pode visualizar arquivos .parquet com o TAD Viewer.
Estes contêm quantidades MaxLFQ normalizadas para grupos de proteínas ('pg_matrix'), grupos de genes ('gg_matrix'), genes únicos ('unique_genes_matrix'; ou seja, genes identificados e quantificados usando apenas peptídeos proteotípicos, ou seja, específicos de genes), bem como normalizados quantidades para precursores ('pr_matrix'). Eles são filtrados a 1% FDR, usando valores q globais para grupos de proteínas e valores q globais e específicos de execução para precursores. Filtro FDR adicional de nível de proteína específico de execução de 5% é aplicado às matrizes de proteína, use --matrix-spec-q para ajustá-lo. Às vezes, o DIA-NN relatará um zero como a melhor estimativa para um precursor ou quantidade de proteína. Essas quantidades zero são omitidas das matrizes de proteínas/genes. Matrizes especiais de quantificação de fosfosita (fosfositas_90 e fosfositas_99 .tsv) são geradas quando a fosforilação (UniMod:21) é declarada como uma modificação variável, consulte PTMs e peptidoformas.
O arquivo .protein_description.tsv é gerado junto com as Matrizes e contém informações básicas de proteínas conhecidas pelo DIA-NN (IDs de sequência, nomes, nomes de genes, descrição, sequência). Versões futuras do DIA-NN incluirão mais informações, por exemplo, peso molecular da proteína.
Contém diversas métricas de CQ que podem ser usadas para filtragem de dados, por exemplo, para excluir execuções com falha ou como leitura para otimização de métodos. Observe que o número de proteínas relatado aqui corresponde ao número de proteínas únicas (isto é, identificadas com precursores proteotípicos) em uma determinada corrida com 1% do valor q da proteína única. Este número pode ser reproduzido a partir do relatório principal gerado usando o limiar FDR do precursor de 100% e filtrado usando Protein.Q.Value <= 0,01 & Proteotypic == 1. O que é contado como 'proteína' aqui depende da configuração 'Inferência de proteína'.
Uma visualização de uma série de métricas de CQ, com base no relatório principal e também no relatório de estatísticas. O relatório em PDF deve ser utilizado apenas para avaliação preliminar rápida dos dados e não deve ser utilizado em publicações.
O painel Saída permite controlar como lidar com os 'arquivos .quant'. Agora, para explicar o que são, vamos considerar como o DIA-NN processa os dados brutos. Ele primeiro executa a parte computacionalmente exigente do processamento separadamente para cada execução individual no experimento e salva as identificações e informações quantitativas em um arquivo .quant separado. Depois que todas as execuções são processadas, ele coleta as informações de todos os arquivos .quant e executa algumas etapas de execução cruzada, como cálculo global do valor q, inferência de proteínas, cálculo de quantidades finais e normalização. Isso permite que o DIA-NN seja usado de maneira muito flexível. Por exemplo, você pode interromper o processamento a qualquer momento e depois retomar o processamento começando pela execução em que parou. Ou você pode remover algumas execuções do experimento, adicionar algumas execuções extras e executar novamente a análise rapidamente, sem a necessidade de refazer a análise das execuções já processadas. Tudo isso é habilitado pela opção Usar arquivos .quant existentes quando disponíveis . Os arquivos .quant são salvos/lidos no diretório Temp/.dia (ou no mesmo local dos arquivos brutos, se não houver nenhuma pasta temporária especificada). Ao utilizar esta opção, o usuário deve garantir que os arquivos .quant foram gerados exatamente com as mesmas configurações aplicadas na análise atual, com exceção do Precursor FDR (desde que seja <= 5%), Threads , Log level , MBR , normalização cruzada e geração de biblioteca - essas configurações podem ser diferentes. Na verdade, é possível até mesmo transferir arquivos .quant para outro computador e reutilizá-los lá - sem transferir os arquivos brutos originais. Importante: é altamente recomendável reutilizar arquivos .quant apenas quando as precisões de massa e a janela de varredura estiverem fixadas em alguns valores (diferentes de zero), caso contrário, o DIA-NN realizará a otimização destes novamente usando a primeira execução para a qual um . O arquivo quant não foi encontrado. Além disso, ao usar MBR ou criar uma biblioteca espectral a partir de dados DIA com geração de biblioteca definida como perfil inteligente ou completo, os arquivos .quant só devem ser reutilizados se tiverem sido gerados exatamente na mesma ordem que a ordem atual dos arquivos brutos, ou seja com MBR DIA-NN atualmente não pode combinar múltiplas análises separadas.
Nota: o relatório principal no formato .parquet fornece informações completas de saída para qualquer tipo de processamento downstream. Todos os outros tipos de saída existem para simplificar a análise ao usar o MS Excel ou software semelhante. Os números de precursores e proteínas relatados em diferentes tipos de arquivos de saída podem parecer diferentes devido à filtragem diferente usada para gerá-los. Consulte as descrições acima. Todas as 'matrizes' podem ser reproduzidas a partir do relatório principal .parquet, se geradas com o precursor FDR definido como 5%, usando R ou Python.
O DIA-NN possui um módulo sem biblioteca muito avançado, que é, para certos tipos de experimentos, melhor do que usar uma biblioteca espectral específica de projeto de alta qualidade. Em geral, o seguinte faz com que a pesquisa sem biblioteca tenha um desempenho melhor em comparação com as bibliotecas espectrais (enquanto o oposto favorece as bibliotecas espectrais):
Observe que em 99% dos casos é essencial que o MBR esteja habilitado para uma análise quantitativa sem biblioteca. Ele é ativado por padrão ao usar a GUI DIA-NN.
Para a maioria dos experimentos, faz sentido tentar a pesquisa sem biblioteca. Para experimentos de média e grande escala, pode fazer sentido tentar primeiro a análise sem biblioteca de um subconjunto de dados, para ver se o desempenho está bom (em todo o conjunto de dados normalmente será muito melhor, então não há necessidade de ser muito rigoroso aqui). Nós também realizamos frequentemente uma rápida avaliação preliminar de CQ do experimento usando alguma biblioteca pública.
Muitas vezes é conveniente realizar análises sem biblioteca em duas etapas: primeiro criando uma biblioteca espectral prevista in silico a partir do banco de dados de sequência e depois analisando com esta biblioteca. Esta é a estratégia que deve ser utilizada em todos os casos, exceto em análises preliminares rápidas. Observe que a funcionalidade de pipeline no DIA-NN permite agendar facilmente sequências de tarefas, como a criação de uma biblioteca prevista seguida de múltiplas análises usando esta biblioteca.
Observe que quanto maior o espaço de busca (o número total de precursores considerados), mais difícil será para o software de análise identificar os peptídeos e mais tempo levará a busca. DIA-NN é muito bom em lidar com espaços de busca muito grandes, mas mesmo DIA-NN não consegue fazer mágica e produzir resultados tão bons com um espaço de busca de 100 milhões, como faria com um espaço de busca de 2 milhões. Portanto, é preciso ter cuidado ao ativar todas as modificações possíveis de variáveis de uma só vez. Por exemplo, permitir no máximo 5 modificações variáveis, embora tenha a oxidação da metionina, fosfo e desamidação ativadas simultaneamente, provavelmente não é uma boa ideia.
Aqui reside uma distinção importante entre análise de dados DIA e DDA. No DDA, permitir todas as modificações variáveis possíveis faz muito sentido também porque o mecanismo de busca precisa combinar o espectro com algo - e se não corresponder ao peptídeo modificado correto, será correspondido falsamente. No DIA a abordagem é fundamentalmente diferente: o espectro de melhor correspondência é encontrado nos dados de cada íon precursor considerado (esta é uma visão muito simplificada apenas para ilustrar o conceito). Portanto, não ser capaz de identificar um espectro específico nunca é um problema no DIA (na verdade, a maioria dos espectros são altamente multiplexados no DIA - isto é, originados de múltiplos peptídeos - e apenas uma fração deles pode ser identificada). E, portanto, só faz sentido ativar uma modificação de variável específica se você estiver especificamente interessado nela ou se a modificação for realmente onipresente.
Consulte PTMs e peptidoformas para obter informações sobre como distinguir entre peptidoformas contendo diferentes conjuntos de modificações.
DIA-NN pode criar uma biblioteca espectral a partir de qualquer conjunto de dados DIA. Isso pode ser feito nos modos baseado em biblioteca espectral e sem biblioteca: basta selecionar a opção Gerar biblioteca espectral no painel de saída.
O DIA-NN pode ainda criar uma biblioteca espectral prevista in silico a partir de um banco de dados de sequência (certifique-se de que o resumo FASTA esteja ativado) ou de outra biblioteca espectral (geralmente útil para bibliotecas públicas): basta executar o DIA-NN sem especificar nenhum arquivo bruto e habilite a opção de previsão de espectros baseados em aprendizagem profunda, RTs e IMs no painel de geração de íons precursores . As modificações atualmente suportadas pelo preditor de aprendizagem profunda são: C(cam), M(ox), acetil N-term, N/Q(dea), S/T/Y(phos), K(-GG), nK( mTRAQ) e nK(TMT). É importante ressaltar que se o módulo preditor no DIA-NN não reconhecer alguma modificação, ele ainda realizará a previsão, ignorando-a. Para fazer com que o DIA-NN descarte quaisquer peptídeos com modificações desconhecidas para o preditor, use --skip-unknown-mods.
Bibliotecas espectrais também podem ser criadas a partir de dados DDA e, de fato, o fracionamento offline + DDA tem sido a forma 'padrão ouro' de criar bibliotecas desde a introdução da proteômica SWATH/DIA. Para isso recomendamos o uso do FragPipe, que é baseado no mecanismo de busca ultrarrápido e altamente robusto MSFragger. O FragPipe pode ainda ser usado para criar bibliotecas compatíveis com DIA-NN também a partir de dados DIA, semelhante ao próprio DIA-NN.
MBR é um modo poderoso no DIA-NN, que é benéfico para a maioria dos experimentos quantitativos, tanto com uma biblioteca espectral quanto no modo sem biblioteca. O MBR normalmente resulta em números de ID médios mais altos, mas também em uma integridade de dados muito melhor, ou seja, muito menos valores ausentes.
Ao processar qualquer conjunto de dados, o DIA-NN reúne muitas informações úteis que poderiam ter sido usadas para processar melhor os dados. E é isso que o MBR permite. Com o MBR, o DIA-NN primeiro cria uma biblioteca espectral a partir dos dados do DIA e depois reprocessa o mesmo conjunto de dados com esta biblioteca espectral. A inovação algorítmica implementada no DIA-NN garante que o FDR seja rigorosamente controlado: o MBR foi validado em conjuntos de dados que variam de 2 execuções a mais de 1.000 execuções.
O MBR deve ser habilitado para qualquer experimento quantitativo, a menos que você tenha uma biblioteca espectral específica do projeto de alta qualidade, que você acha que (i) provavelmente fornecerá cobertura quase completa de peptídeos detectáveis, ou seja, não há sentido em tentar sem biblioteca pesquisa + MBR, e (ii) a maioria dos peptídeos na biblioteca são realmente detectáveis no experimento DIA. Se apenas (i) for verdadeiro, ainda vale a pena tentar o MBR junto com a geração da biblioteca definida para o perfil de IDs .
O MBR não deve ser usado para experimentos não quantitativos, ou seja, quando você deseja apenas criar uma biblioteca espectral, que usaria em algum outro conjunto de dados.
Pode-se 'imitar' manualmente o MBR usando uma abordagem em duas etapas que resultará em desempenho comparável. Primeiro, execute o DIA-NN para criar uma biblioteca espectral a partir das execuções do DIA (todo o experimento ou apenas seu subconjunto, o que pode ser muito mais rápido para experimentos em larga escala ou experimentos incluindo execuções em branco/falhadas). Em seguida, use esta biblioteca para analisar todo o experimento. Em ambos os casos, execute o DIA-NN com o MBR desabilitado.
Ao usar o MBR (ou sua imitação) e contar com o relatório .parquet principal (recomendado) em vez das matrizes quantitativas, use os seguintes filtros de valor q:
DIA-NN pode ser usado com sucesso para processar quase qualquer experimento com configurações padrão. Em geral, recomenda-se alterar as configurações somente quando for especificamente recomendado fazê-lo nesta Documentação (como abaixo), para um tipo de experimento específico ou se houver uma justificativa muito clara e convincente para a alteração.
Em muitos casos, pode-se querer alterar vários parâmetros no painel Algoritmo .
Consulte também as orientações sobre pesquisa sem biblioteca, PTMs e peptidoformas e multiplexação usando plexDIA, se forem relevantes para o seu experimento.
Observe que depois de selecionar uma opção específica na GUI do DIA-NN, algumas outras configurações podem ser ativadas automaticamente. Por exemplo, sempre que você optar por realizar um resumo do banco de dados FASTA in silico (para pesquisa sem biblioteca) ou apenas gerar uma biblioteca espectral a partir de dados DIA, o MBR também será selecionado automaticamente - porque em 99% dos casos é benéfico.
DIA-NN é implementado como uma interface gráfica de usuário (GUI), que invoca uma ferramenta de linha de comando (diann.exe). A ferramenta de linha de comando também pode ser usada separadamente, por exemplo, como parte de pipelines de processamento automatizados personalizados. Além disso, mesmo ao usar a GUI, é possível passar opções/comandos para a ferramenta de linha de comando, na caixa de texto Opções adicionais . Algumas dessas opções úteis são mencionadas nesta documentação, e a referência completa é fornecida em Referência da linha de comando.
Quando a GUI inicia a ferramenta de linha de comando, ela imprime na janela de log o conjunto exato de comandos usados. Portanto, para reproduzir o comportamento observado ao usar a GUI (por exemplo, se você quiser fazer a análise em um cluster Linux), basta passar exatamente os mesmos comandos diretamente para a ferramenta de linha de comando.
diann.exe [commands]
Os comandos são processados na ordem em que são fornecidos e, com a maioria dos comandos, essa ordem pode ser arbitrária.
No Linux, o ponto e vírgula ';' caractere é tratado como um separador de comando, portanto ';' como parte dos comandos DIA-NN (por exemplo, --channels) precisam ser substituídos por ';' no Linux para comportamento correto.
Por conveniência, bem como para lidar com experimentos que consistem em milhares de arquivos, algumas das opções/comandos podem ser armazenadas em um arquivo de configuração. Para isso, crie um arquivo de texto com qualquer extensão, digamos, diann_config.cfg, digite qualquer comando suportado pelo DIA-NN nele e, em seguida, faça referência a esse arquivo com --cfg diann_config.cfg (na caixa de texto Opções adicionais ou em o comando usado para invocar a ferramenta de linha de comando diann.exe).
DIA-NN oferece duas opções de visualização.
Horizonte . Para visualizar cromatogramas/espectros no Skyline, analise seu experimento com MBR e um banco de dados FASTA especificado e clique no botão 'Skyline'. O DIA-NN iniciará automaticamente o Skyline (certifique-se de ter o Skyline/Skyline versão diária 23.1.1.459 ou posterior instalado como 'Instalação do administrador'). Atualmente este fluxo de trabalho não suporta multiplexação e não funcionará com modificações em qualquer formato que não seja UniMod.
Visualizador DIA-NN . Analise seu experimento com a caixa de seleção "XICs" marcada e clique no botão 'Visualizador'. Por padrão, a opção "xics" fará com que os cromatogramas de extrato DIA-NN apenas para os íons de fragmentos da biblioteca e dentro de 10s do ápice de eluição. Use --xic [n] para definir a janela de tempo de retenção para N Segundos (por exemplo-Oxic 60 extrairá cromatogramas a um minuto do ápice) e-teóricos-FR para extrair toda a carga 1 e 2 y/b -Peries fragmentos, incluindo aqueles com perdas neutras comuns. Observe que o uso de FR-teórico, especialmente em combinação com a grande janela de tempo de retenção, pode exigir uma quantidade significativa de espaço em disco na pasta de saída. No entanto, a visualização em si é efetivamente instantânea, para qualquer tamanho de experimento.
Nota : Os cromatogramas extraídos com "xics" são salvos no formato Apache .Parquet (os nomes dos arquivos terminam com '.xic.parquet') e podem ser facilmente acessados usando R ou Python. Às vezes, isso pode ser conveniente para preparar números prontos para a publicação (embora também possam fazer isso com o Skyline ou o DIA-NN Viewer), ou mesmo para configurar o controle automático de qualidade personalizada para o desempenho do LC-MS.
As posições de peptídeo e modificação dentro de uma proteína podem ser visualizadas usando o Alphamap pelo Mann Lab https://github.com/mannlabs/alphamap.
A janela de pipeline dentro da GUI DIA-NN permite combinar várias etapas de análise nos pipelines. Cada etapa do pipeline é um conjunto de configurações, conforme exibido pela GUI. Pode-se adicionar essas etapas ao pipeline, atualizar as etapas existentes, remover as etapas, mover etapas para cima/para baixo no pipeline, desativar/ativar (por clique de mouse duplo) certas etapas dentro do pipeline e salvar/carregar pipelines. Além disso, as etapas individuais do pipeline podem ser cópicas entre diferentes guias/janelas da GUI (use botões de copiar e colar para isso). Sempre montamos todas as execuções do DIA-NN para uma publicação específica em um pipeline. Pode-se também usar pipelines DIA-NN para armazenar modelos de configuração.
A GUI da DIA-NN apresenta fluxos de trabalho embutidos (painel de geração de íons precursores ) para detectar oxidação da metionina, acetilação da proteína N-terminal, fosforilação e ubiquitinação (através da detecção de adutos remanescentes -gg em lisinas). Outros modificadores podem ser declarados usando --Var-Mod ou--Fixed-Mod em opções adicionais .
A distinção entre peptidoformas com diferentes conjuntos de modificações é um problema não trivial no DIA: sem a pontuação especial de peptidofórdio, a peptidofórdia efetiva FDR pode estar no intervalo de 5 a 10% para análises livres de bibliotecas. O DIA-NN implementa uma abordagem estatística-Decoy para a pontuação de peptidoform, que é ativada pela opção Peptidoforms (painel de algoritmo ) e também é ativada automaticamente sempre que uma modificação variável for declarada, através das configurações da GUI ou do comando --Var-Mod. Os valores q peptidofórdios resultantes refletem a confiança de Dia-NN na correção do conjunto de modificações relatadas para o peptídeo, bem como a correção da sequência de aminoácidos identificada. Esses valores Q, no entanto, não garantem a ausência de baixas mudanças de massa devido a algumas substituições ou modificações de aminoácidos, como a desamidação (observe que o DDA também não garante isso).
Além disso, o DIA-NN possui um algoritmo que relata estimativas de confiança da localização do PTM (como probabilidades posteriores para a localização correta de todos os locais de PTM variáveis no peptídeo, bem como pontuações para sites individuais), incluídos no relatório de saída .Parquet. Os arquivos fosfositos_90 e fosfositos_99 .TSV contêm quantidades específicas para fosfostas, calculadas usando o método 1 top 1 (experimental), que é a maior intensidade entre precursores com o local localizado com a confiança especificada (0,9 ou 0,99, respectivamente) é usada como fosfita quantidade na execução dada. O algoritmo 'Top 1' é usado aqui, pois é provavelmente o mais robusto contra outliers e erros de localização. No entanto, se essa é realmente a melhor opção precisa ser investigada, o que atualmente é desafiador devido à falta de parâmetros de referência com a verdade conhecida.
Em geral, ao procurar PTMS, recomendamos o seguinte:
Essencial: as modificações variáveis que você procura devem ser especificadas como variável (através das caixas de seleção da GUI ou das opções adicionais ) ao gerar uma biblioteca prevista em silico e também ao analisar os dados brutos usando qualquer biblioteca prevista ou empírica
Configurações para fosforilação: max 3 modificações variáveis, clivagem máxima 1, fosforilação é a única modificação variável especificada, intervalo de carga precursor 2-3; Para reduzir o uso de RAM, verifique se a faixa de massa precursora especificada (ao gerar uma biblioteca prevista) não é mais larga que a faixa de massa precursora selecionada para MS/MS pelo método DIA; Para acelerar o processamento ao usar uma biblioteca prevista, primeiro gere uma biblioteca baseada em DIA a partir de um subconjunto de experimentos (por exemplo, mais de 10 melhores execuções) e depois analise todo o conjunto de dados usando esta biblioteca baseada em DIA com MBR desativado
Quando o exposto acima for bem -sucedido, tente também max 2 codivagens perdidas
Ao procurar PTMs que não sejam a fosforilação, em 95% dos casos melhores para usar o máximo 1 a 3 modificações variáveis e o máximo 1 de clivagem perdida
Quando não está procurando PTMS, ou seja, quando a meta é a quantificação relativa de proteínas, permitindo modificações variáveis normalmente não produz profundidade proteômica mais alta. Embora geralmente não doeu, tornará o processamento mais lento.
Até onde sabemos, não há validação publicada da confiança de identificação para a detecção de peptídeos desamidados (que são fáceis de confundir a isotopólogos mais pesados, a menos que a especificação de massa tenha uma resolução muito alta e uma precisão/tolerância em massa rígida seja usado pelo mecanismo de pesquisa), mesmo para o DDA. Uma maneira de ganhar confiança na identificação de peptídeos desamidados é verificar se alguma coisa é identificada se o delta de massa para desamidação for declarado como 1,022694, em vez do valor correto 0,984016. O DIA-NN passa este teste com sucesso em vários conjuntos de dados (que não são relatados IDs ao especificar essa 'massa de modificação de engodo'), mas recomendamos também experimentar essa pesquisa de 'Modificação de Modificação de engodo' em várias corridas do experimento a ser analisado , se estiver procurando peptídeos desamidados. Em cada caso (massa correta ou chamariz), -PTM-QValues devem ser usados para permitir a pontuação específica de PTM para desamidação, além da pontuação do peptidoforma e Ptm.q.value ou global.q.value/lib. Q.Value usado para filtragem.
É importante notar que, quando o objetivo final é a identificação de proteínas, é amplamente irrelevante se um peptídeo modificado for identificado incorretamente, sendo comparado a um espectro originário de um peptidoforma diferente. Portanto, se o objetivo do experimento é identificar/quantificar PTMs específicos, substituições de aminoácidos ou distinguir proteínas com alta identidade de sequência, recomenda -se a opção de pontuação das peptidoformas . Em todos os outros casos, a pontuação da peptidoforma é normalmente boa para usar, mas não é necessária, e geralmente leva a um processamento um pouco mais lento e uma ligeira diminuição nos números de identificação ao usar o MBR.
Em geral, sim. No entanto, a maioria dos fluxos de trabalho funcionará sem a necessidade de reconhecer modificações. Embora se as modificações desconhecidas forem detectadas na biblioteca, o dia-nn imprimirá um aviso listando-os e é fortemente recomendado declará-los usando--mod. Observe que o Dia-NN já reconhece muitas modificações comuns e também pode carregar todo o banco de dados Unimod, consulte a opção --full-unimod.
Em colaboração com o Laboratório Slavov, desenvolvemos o Plexdia baseado no DIA-NN, uma tecnologia que permite se beneficiar da multiplexação não isobárica (mtraq, dimetil, silac) em combinação com o DIA. Para analisar um experimento de Plexdia, é necessário que seja previsto uma biblioteca espectral prevista ou empírica em silico. O DIA-NN precisa ser fornecido com os seguintes conjuntos de comandos, dependendo do cenário de análise.
Cenário 1 . A biblioteca é uma biblioteca sem rótulo regular (empírica ou prevista), e a multiplexação é alcançada puramente com marcação isotópica, ou seja, sem marcação química com tags como mtraq ou dimetil. Dia-nn precisa das seguintes opções a serem adicionadas a opções adicionais :
Exemplo de etiquetas L/H Silac em K e R:
--fixed-mod SILAC,0.0,KR,label
--lib-fixed-mod SILAC
--channels SILAC,L,KR,0:0; SILAC,H,KR,8.014199:10.008269
--original-mods
Observe que, no Silac acima, é declarado como etiqueta, ou seja, não deve alterar o tempo de retenção do peptídeo. É também uma etiqueta de massa zero aqui, pois serve apenas para designar os aminoácidos que serão rotulados. O que a combinação de-Mod e--Lib-Fixed-Mod aqui é simplesmente colocado (SILAC) após cada K ou R na sequência de ID precursor, na representação da biblioteca interna usada pelo DIA-NN. -Os canais dividem cada entrada da biblioteca em dois, um com massas 0 (k) e 0 (r) adicionado a cada ocorrência de k (silac) ou r (silac) na sequência, respectivamente, e outro com 8.014199 (k ) e 10.008269 (r).
Cenário 2 . A biblioteca é uma biblioteca sem rótulo regular (empírica ou prevista), e a multiplexação é alcançada via marcação química com mtraq.
Cenário 2: Etapa 1. Rotule a biblioteca em silico com mtraq e execute o preditor de aprendizado profundo para ajustar os espectros/rts/ims. Para isso, execute o dia-nn com a biblioteca de entrada no campo da biblioteca espectral , uma biblioteca de saída especificada, espectros baseados em aprendizado profundo, previsão de RTS e IMS ativados, lista de arquivos de dados brutos vazios e as seguintes opções em opções adicionais :
--fixed-mod mTRAQ,140.0949630177,nK
--lib-fixed-mod mTRAQ
--channels mTRAQ,0,nK,0:0; mTRAQ,4,nK,4.0070994:4.0070994;mTRAQ,8,nK,8.0141988132:8.0141988132
--original-mods
Use o arquivo .PredicTict.Speclib com o nome correspondente à biblioteca de saída como a biblioteca espectral para a próxima etapa.
Cenário 2: Etapa 2. Execute o Dia-NN com as seguintes opções:
--fixed-mod mTRAQ,140.0949630177,nK
--channels mTRAQ,0,nK,0:0; mTRAQ,4,nK,4.0070994:4.0070994;mTRAQ,8,nK,8.0141988132:8.0141988132
--original-mods
Observe que--LIB-Fixed-Mod não é mais necessário, pois a biblioteca gerada na Etapa 1 já contém (mtraq) no terminal N e lisinas de cada peptídeo.
Cenário 3 . A biblioteca é uma biblioteca sem rótulo regular (empírica ou prevista), e a multiplexação é alcançada por meio de marcação química com uma etiqueta que não seja o MTRAQ. A razão pela qual esse cenário é tratado de maneira diferente do cenário 2 é que o Preditor de DiA-NN no silico não foi treinado especificamente para rótulos que não sejam o MTRAQ e, portanto, uma etapa extra para gerar previsões não é necessária. Simplesmente execute o Dia-NN, como faria no cenário 1, exceto que a declaração-fixo do modelo terá uma massa diferente de zero neste caso e não será um rótulo. Por exemplo, para dimetil de 5 canais, como descrito por Thielert et al:
‐‐fixed‐mod Dimethyl, 28.0313, nK
--lib-fixed-mod Dimethyl
‐‐channels Dimethyl,0,nK,0:0; Dimethyl,2,nK,2.0126:2.0126; Dimethyl,4,nK,4.0251:4.0251; Dimethyl,6,nK,6.0377:6.0377; Dimethyl,8,nK,8.0444:8.0444
--original-mods
Cenário 4 . A biblioteca é uma biblioteca empírica do DIA gerada pelo DIA-NN a partir de um conjunto de dados DIA multiplexado. Por exemplo, isso pode ser uma biblioteca gerada pela DIA-NN na primeira passagem do MBR (e você gostaria de reutilizá-la para analisar as mesmas ou algumas outras execuções). As opções adicionais serão as mesmas do cenário 1, cenário 2: Etapa 2 ou cenário 3, exceto (importante!)-Mod-Mod com fibração de liberação não deve ser fornecida.
Em todos os cenários acima , uma opção extra que especifica a estratégia de normalização deve ser incluída em opções adicionais . Isso pode ser-Norm-norma (SILAC pulsado, rotatividade de proteínas) ou-Norm-especificação (multiplexação de amostras independentes).
Saída . Recomendamos o uso do relatório principal no formato .Parquet para todas as análises a jusante. Observe que Pg.Q.Value e GG.Q.Value no relatório principal são específicos do canal, ao usar a multiplexação. As quantidades pg.maxlfq, genes.maxlfq e genes.maxlfq.unique são apenas específicas do canal se (i) os quantums forem utilizados e (ii) o relatório corresponde à segunda passagem de MBR ou MBR não for utilizada. Como alternativa, pode-se usar as matrizes (não recomendadas), elas são apenas no nível do precursor. Ao usar matrizes, é essencial especificar--matriz-ch-qvalue, com limiares razoáveis de 0,01 a 0,5. Essa configuração não afetará a matriz MS1 extraída, que simplesmente relata sinais de MS1 correspondentes a cada canal, sempre que um precursor for identificado em qualquer um dos canais - usando essa matriz normalmente não é recomendada. As matrizes de proteínas não são produzidas ao analisar dados multiplexados.
Painel de entrada
Painel de geração de íons precursores
Painel de saída
Painel de algoritmo
Observe que algumas opções abaixo são fortemente prejudiciais ao desempenho e estão lá apenas para fins de benchmarking. Portanto, a recomendação é usar apenas as opções que devem ser benéficas para um experimento específico (por exemplo, as recomendadas na presente documentação) com base em alguma lógica clara.