Download DiaNN - Download do código-fonte DiaNN

DiaNN

Outro código-fonte

DIA-NN 1.9.2

Baixar

DIA-NN

DIA-NN - um conjunto de software universal para processamento de dados proteômicos de aquisição independente de dados (DIA). Concebido na Universidade de Cambridge, Reino Unido, no laboratório de Kathryn Lilley (Cambridge Centre for Proteomics), o DIA-NN abriu um novo capítulo na proteômica, introduzindo uma série de algoritmos que permitiram experimentos em larga escala confiáveis, robustos e quantitativamente precisos usando métodos de alto rendimento. O DIA-NN está atualmente sendo desenvolvido no laboratório de Vadim Demichev na Charité (Universidade de Medicina de Berlim, Alemanha).

DIA-NN é construído sobre os seguintes princípios:

Confiabilidade alcançada por meio de controle estatístico rigoroso
Robustez alcançada através de modelagem flexível dos dados e seleção automática de parâmetros
Reprodutibilidade promovida pelo registro completo de todas as etapas da análise
Facilidade de uso : alto grau de automação, uma análise pode ser configurada com vários cliques do mouse, sem necessidade de conhecimentos de bioinformática
Opções de ajuste poderosas para permitir experimentos não convencionais
Escalabilidade e velocidade : até 1.000 execuções de especificação de massa processadas por hora

Download : https://github.com/vdemichev/DiaNN/releases/tag/1.9.2 (recomenda-se usar a versão mais recente - DIA-NN 1.9.2)

Por favor cite:
DIA-NN: redes neurais e correção de interferência
permitir cobertura proteômica profunda em métodos Nature de alto rendimento , 2020

Usando DIA-NN para a análise de modificações pós-tradução (PTMs), como fosforilação ou ubiquitinação: perfil de ubiquitinoma in vivo resolvido no tempo por DIA-MS revela alvos USP7 em escala de proteoma Nature Communications, 2021

Usando o módulo de mobilidade iônica do DIA-NN para análise de dados timsTOF ou usando DIA-NN em combinação com bibliotecas espectrais geradas por FragPipe: análise de dados dia-PASEF usando FragPipe e DIA-NN para proteômica profunda de baixas quantidades de amostras Nature Communications, 2022

Usando DIA-NN para a análise de amostras multiplexadas (SILAC, mTRAQ, etc): Aumentando o rendimento de proteômica sensível por plexDIA Nature Biotechnology, 2022

Usando DIA-NN como parte do fluxo de trabalho CysQuant: CysQuant: Quantificação simultânea de oxidação de cisteína e abundância de proteínas usando espectrometria de massa de aquisição independente ou dependente de dados Redox Biology, 2023

Usando o módulo QuantUMS do DIA-NN para quantificação: QuantUMS: a minimização da incerteza permite quantificação confiável em proteômica biorxiv

Usando DIA-NN para processar dados Slice-PASEF: Slice-PASEF: fragmentando todos os íons para máxima sensibilidade em proteômica biorxiv

Outros documentos importantes

Usando DIA-NN para proteômica plasmática e sérica em larga escala:
Sistemas Celulares, 2020 e Sistemas Celulares, 2021
Proteômica ultrarrápida com DIA-NN e Scanning SWATH:
Biotecnologia da Natureza, 2021

Pacote R com algumas funções úteis para lidar com os relatórios de saída do DIA-NN: https://github.com/vdemichev/diann-rpackage

Visualização das posições dos peptídeos na proteína: https://github.com/MannLabs/alphamap (AlphaMap by Mann lab)

Notas e discussões sobre proteômica em geral e o uso do DIA-NN: https://github.com/vdemichev/DiaNN/discussions/categories/dia-proteomics-in-detail (esta seção será expandida ainda mais).

Índice

Instalação
Começando
Formatos de dados brutos
Formatos de biblioteca espectral
Saída
Pesquisa sem biblioteca
Criação de bibliotecas espectrais
Partida entre corridas
Alterando as configurações padrão
Ferramenta de linha de comando
Visualização
Pipelines automatizados
PTMs e peptidoformas
Multiplexação usando plexDIA
Referência de configurações da GUI
Referência de linha de comando
Referência de saída principal
Perguntas frequentes (FAQ)
Apoiar

Instalação

No Windows , baixe o instalador .exe e execute-o. Certifique-se de não executar o instalador a partir de uma unidade de rede. Recomenda-se instalar o DIA-NN na pasta padrão sugerida pelo instalador. Alternativamente, basta descompactar o arquivo .binaries.zip em um local de sua escolha.

No Linux , baixe e descompacte o arquivo .Linux.zip. A versão Linux do DIA-NN é gerada no Linux Mint 21.2, e o sistema de destino deve ter as bibliotecas padrão que sejam pelo menos tão recentes. No entanto, esse requisito não existe se você criar uma imagem de contêiner Docker ou Apptainer/Singularity. Para gerar qualquer um dos contêineres, recomendamos começar com a imagem mais recente do debian docker - neste caso, você só precisa instalar sudo apt install libgomp1 antes de poder executar o DIA-NN nele. Consulte também o excelente guia detalhado de Roger Olivella. Para obter o melhor desempenho, use mimalloc com substituição dinâmica conforme descrito aqui https://github.com/microsoft/mimalloc.

Também é possível executar o DIA-NN no Linux usando Wine 6.8 ou posterior.

Começando

Os dados de espectrometria de massa DIA podem ser analisados de duas maneiras: pesquisando em um banco de dados de sequências (modo livre de biblioteca) ou usando uma "biblioteca espectral" - um conjunto de espectros conhecidos e tempos de retenção para peptídeos selecionados. Discutimos em detalhes quando usar cada uma dessas abordagens na seção de pesquisa sem biblioteca. Para ambos os tipos de análise, usar DIA-NN é muito simples:

Clique em Bruto (no painel Entrada ), selecione seus arquivos de dados brutos de espectrometria de massa. Consulte Formatos de dados brutos para obter informações sobre formatos suportados.
Clique em Adicionar FASTA e adicione um ou mais bancos de dados de sequência no formato UniProt.
Se desejar usar uma biblioteca espectral, clique em Biblioteca espectral e selecione a biblioteca. Alternativamente, para análise sem biblioteca, selecione resumo FASTA para pesquisa/geração de biblioteca sem biblioteca (no painel de geração de íons precursores ).
Especifique o nome do arquivo de saída principal no painel Saída e clique em Executar .
Se você manteve 'report.tsv' como saída principal (localizada, por padrão, na pasta de instalação do DIA-NN), ele conterá a lista de todos os íons precursores identificados, juntamente com diferentes tipos de quantidades, métricas de qualidade e anotações. O arquivo de saída report.pg_matrix.tsv conterá quantidades de grupos de proteínas, report.gg_matrix.tsv - quantidades de grupos de genes, report.pr_matrix.tsv - quantidades de íons precursores.

Agora, as informações acima são suficientes para começar a usar o DIA-NN, é realmente muito fácil! O restante desta documentação pode ser útil, mas não é essencial para 99% dos projetos.

A descrição acima mostra como executar o DIA-NN com configurações padrão, e elas produzem desempenho ideal ou quase ideal para a maioria dos experimentos. Em alguns casos, entretanto, é melhor ajustar as configurações; consulte Alterando as configurações padrão para obter mais detalhes.

DIA-NN também oferece opções de ajuste poderosas para experimentos sofisticados. DIA-NN é implementado como uma interface gráfica amigável que invoca automaticamente uma ferramenta de linha de comando. Mas o usuário também pode passar opções/comandos diretamente para a ferramenta de linha de comando, por meio da caixa de texto Opções adicionais na interface. Todas essas opções começam com um traço duplo – seguido do nome da opção e, se aplicável, de alguns parâmetros a serem definidos. Portanto, se você vir alguma opção/comando com -- em seu nome mencionado nesta documentação, significa que este comando deve ser digitado na caixa de texto Opções adicionais .

Formatos de dados brutos

Formatos suportados: Sciex .wiff, Bruker .d, Thermo .raw, .mzML e .dia (formato usado pelo DIA-NN para armazenar espectros). A conversão de qualquer formato suportado para .dia é possível. Ao executar no Linux (compilações nativas, não no Wine), apenas dados .d, .mzML e .dia são suportados.

Para suporte .wiff, baixe e instale o ProteoWizard - escolha a versão (64 bits) que suporta "arquivos de fornecedor"). Em seguida, copie todos os arquivos com 'Clearcore' ou 'Sciex' em seus nomes (estes serão arquivos .dll) da pasta ProteoWizard para a pasta de instalação do DIA-NN (aquela que contém diann.exe, DIA-NN.exe e um monte de outros arquivos).

A leitura de arquivos Thermo .raw requer a instalação do Thermo MS File Reader. É imprescindível utilizar especificamente a versão do link acima (3.0 SP3).

Os arquivos .mzML devem ser centrados e conter dados como espectros (por exemplo, SWATH/DIA) e não cromatogramas.

Suporte tecnológico

DIA e SWATH são suportados
Esquemas de aquisição com janelas sobrepostas são suportados
O fracionamento em fase gasosa é suportado
A digitalização SWATH é suportada
dia-PASEF/py-diAID é suportado
Slice-PASEF é suportado (adicione --tims-scan às opções adicionais)
midia-PASEF e Synchro-PASEF são suportados (adicione --tims-scan às opções adicionais), mas DIA-NN atualmente não se beneficia da desconvolução da dimensão Q1
Orbitrap Astral é suportado
FAIMS com CV constante é suportado
FAIMS com vários CVs é suportado após a divisão das execuções, veja aqui
BoxCar-DIA é compatível, mas DIA-NN não foi otimizado para isso
Os dados DIA do Bruker Impact II são suportados após a conversão para .mzML
multiplexação com tags não isobáricas e SILAC é suportada
MSX-DIA não é suportado

Conversão

Muitos formatos de especificação de massa, incluindo aqueles poucos que não são suportados diretamente pelo DIA-NN, podem ser convertidos para .mzML usando o aplicativo MSConvertGUI do ProteoWizard. Isso funciona para todos os formatos suportados, exceto Bruker .d e SCIEX Scanning SWATH - eles precisam ser acessados diretamente pelo DIA-NN. As seguintes configurações do MSConvert devem ser usadas para conversão:

Formatos de biblioteca espectral

DIA-NN suporta tabelas separadas por vírgulas (.csv), separadas por tabulações (.tsv, .xls ou .txt) ou .parquet como bibliotecas espectrais, bem como .speclib (formato compacto usado pelo DIA-NN), .sptxt (SpectraST, experimental) e arquivos de biblioteca .msp (NIST, experimental). Importante: a biblioteca não deve conter íons precursores não fragmentados como 'fragmentos': cada íon fragmentado deve na verdade ser produzido pela fragmentação da estrutura peptídica.

Em detalhes

Bibliotecas no formato PeakView, bem como bibliotecas produzidas por FragPipe, TargetedFileConverter (parte do OpenMS), exportadas do Spectronaut (Biognosys) no formato .xls ou geradas pelo próprio DIA-NN são suportadas “como estão”.

Para bibliotecas .tsv/.xls/.txt geradas por outros meios, DIA-NN pode exigir que os nomes dos cabeçalhos sejam especificados (separados por vírgulas) (para as colunas necessárias) usando o comando --library-headers. Use o símbolo * em vez do nome de um cabeçalho para manter seu reconhecimento automático. Veja abaixo as descrições das respectivas colunas (na ordem em que os cabeçalhos precisam ser especificados).

Colunas obrigatórias:

Sequência peptídica modificada e marcada
Carga precursora
Precursor m/z
Tempo de retenção de referência - escala RT arbitrária pode ser usada
Fragmento de íon m/z
Intensidade relativa do íon fragmento

É altamente recomendável que colunas contendo o seguinte também estejam presentes na biblioteca:

IDs de proteínas - identificadores para as isoformas de proteínas
Nomes de proteínas
Nomes de genes
Proteotipicidade - uma coluna contendo valores 0/1, dependendo se o peptídeo em questão é 'proteotípico', que é específico para uma determinada isoforma de proteína, nome de proteína ou gene
Isca - Indica se o peptídeo é uma isca. Se houver peptídeos chamarizes na biblioteca, o DIA-NN os utiliza e não gera seus próprios chamarizes. É altamente recomendável não incluir nenhum peptídeo chamariz na biblioteca.
Carga de íon fragmentado
Tipo de íon fragmento - y ou b; para fragmentos x e z também especifique o tipo de fragmento como y, e para a e c - como b
Número de série do fragmento
Tipo de perda neutra de fragmento
Valor Q
Identificador do grupo de eluição - se não for especificado, o DIA-NN inferirá grupos de eluição automaticamente; não é necessário para a maioria dos fluxos de trabalho
Excluir indicador de fragmento - coluna contendo valores 0/1, sendo 1 significando que o íon fragmento não deve ser utilizado para quantificação; não é necessário para a maioria dos fluxos de trabalho
Mobilidade Iônica - valor 1/K0 para o precursor, escala IM arbitrária pode ser usada

Por exemplo, um comando --library-headers que especifica todos os nomes de colunas, exceto a coluna 'Decoy', pode ter a seguinte aparência:

--library-headers ModifiedPeptide,PrecursorCharge,PrecursorMz,Tr_recalibrated,ProductMz,LibraryIntensity,UniprotID,ProteinName,Genes,Proteotypic,*,FragmentCharge,FragmentType,FragmentSeriesNumber,FragmentLossType,QValue,ExcludeFromAssay,IonMobility

Use --sptxt-acc para definir a precisão da massa da filtragem de fragmentos (em ppm) ao ler bibliotecas .sptxt/.msp.

MaxQuant msms.txt também pode ser usado (experimental) como uma biblioteca espectral no DIA-NN, embora modificações fixas possam não ser lidas corretamente.

DIA-NN pode converter qualquer biblioteca compatível em seu próprio formato .parquet. Para isso, clique em Biblioteca espectral (painel Entrada ), selecione a biblioteca que deseja converter, selecione o nome do arquivo da biblioteca de saída (painel Saída ), clique em Executar . Se você usar algum formato de biblioteca exótico, é uma boa ideia convertê-lo para .parquet do DIA-NN e então examinar a biblioteca resultante (usando o pacote R 'arrow' ou Python 'pyarrow') para ver se o conteúdo faz sentido.

Todas as bibliotecas .tsv/.xls/.txt/.csv/.parquet são apenas tabelas simples com dados legíveis por humanos e podem ser exploradas/editadas, se necessário, usando Excel ou (idealmente) R/Python.

É importante ressaltar que quando qualquer biblioteca está sendo convertida para um formato diferente, todos os números podem ser arredondados usando certa precisão decimal, o que significa que eles podem não ser exatamente iguais aos da biblioteca original (pode haver uma pequena diferença). Assim, embora o desempenho ao analisar usando uma biblioteca convertida seja comparável, os resultados não corresponderão exatamente.

Saída

O painel Saída permite especificar onde a saída deve ser salva, bem como os nomes dos arquivos do relatório de saída principal e (opcionalmente) a biblioteca espectral de saída. DIA-NN usa esses nomes de arquivo para derivar os nomes de todos os seus arquivos de saída. Abaixo você encontra informações sobre diferentes tipos de saída DIA-NN. Para a maioria dos fluxos de trabalho é necessário apenas o relatório principal (para análise em R ou Python - recomendado) ou as matrizes (saída simplificada para MS Excel). Quando a geração de matrizes de saída está habilitada, o DIA-NN também produz um arquivo .manifest.txt com uma breve descrição dos arquivos de saída gerados.

Relatório principal

Uma tabela de texto contendo IDs de precursores e proteínas, bem como muitas informações associadas. A maioria dos nomes de colunas são autoexplicativos e a referência completa pode ser encontrada em Referência de saída principal. As seguintes palavras-chave são usadas ao nomear colunas:

PG significa grupo de proteínas
GG significa grupo genético
Quantidade significa quantidade não normalizada
Normalizado significa quantidade normalizada
MaxLFQ significa quantidade de proteína normalizada calculada usando o algoritmo MaxLFQ - é altamente recomendável usar essas quantidades MaxLFQ e não as quantidades regulares (também relatadas pelo DIA-NN)
Global refere-se a um valor q global, que é calculado para todo o experimento
Lib refere-se ao respectivo valor salvo na biblioteca espectral, por exemplo, Lib.Q.Value significa valor q para o respectivo precursor da biblioteca

Nota: desde a versão 1.9, o DIA-NN produz um relatório no formato Apache .parquet. Este é um formato de tabela de texto compactado (redução de tamanho de aproximadamente 10x) que pode ser carregado em uma única linha de código usando o pacote R 'arrow' ou o pacote Python 'pyarrow'. A maioria das novas funcionalidades (introduzidas no DIA-NN 1.9) são refletidas apenas no relatório parquet, por isso é recomendado usá-lo em vez do relatório .tsv legado em todos os casos, enquanto o relatório .tsv ainda é gerado apenas para compatibilidade com fluxos de trabalho de análise antigos. A geração do relatório .tsv legado pode ser desativada com --no-main-report. Além de usar R ou Python, você também pode visualizar arquivos .parquet com o TAD Viewer.

Matrizes

Estes contêm quantidades MaxLFQ normalizadas para grupos de proteínas ('pg_matrix'), grupos de genes ('gg_matrix'), genes únicos ('unique_genes_matrix'; ou seja, genes identificados e quantificados usando apenas peptídeos proteotípicos, ou seja, específicos de genes), bem como normalizados quantidades para precursores ('pr_matrix'). Eles são filtrados a 1% FDR, usando valores q globais para grupos de proteínas e valores q globais e específicos de execução para precursores. Filtro FDR adicional de nível de proteína específico de execução de 5% é aplicado às matrizes de proteína, use --matrix-spec-q para ajustá-lo. Às vezes, o DIA-NN relatará um zero como a melhor estimativa para um precursor ou quantidade de proteína. Essas quantidades zero são omitidas das matrizes de proteínas/genes. Matrizes especiais de quantificação de fosfosita (fosfositas_90 e fosfositas_99 .tsv) são geradas quando a fosforilação (UniMod:21) é declarada como uma modificação variável, consulte PTMs e peptidoformas.

Descrição da proteína

O arquivo .protein_description.tsv é gerado junto com as Matrizes e contém informações básicas de proteínas conhecidas pelo DIA-NN (IDs de sequência, nomes, nomes de genes, descrição, sequência). Versões futuras do DIA-NN incluirão mais informações, por exemplo, peso molecular da proteína.

Relatório de estatísticas

Contém diversas métricas de CQ que podem ser usadas para filtragem de dados, por exemplo, para excluir execuções com falha ou como leitura para otimização de métodos. Observe que o número de proteínas relatado aqui corresponde ao número de proteínas únicas (isto é, identificadas com precursores proteotípicos) em uma determinada corrida com 1% do valor q da proteína única. Este número pode ser reproduzido a partir do relatório principal gerado usando o limiar FDR do precursor de 100% e filtrado usando Protein.Q.Value <= 0,01 & Proteotypic == 1. O que é contado como 'proteína' aqui depende da configuração 'Inferência de proteína'.

Relatório em PDF

Uma visualização de uma série de métricas de CQ, com base no relatório principal e também no relatório de estatísticas. O relatório em PDF deve ser utilizado apenas para avaliação preliminar rápida dos dados e não deve ser utilizado em publicações.

Reanálise flexível

O painel Saída permite controlar como lidar com os 'arquivos .quant'. Agora, para explicar o que são, vamos considerar como o DIA-NN processa os dados brutos. Ele primeiro executa a parte computacionalmente exigente do processamento separadamente para cada execução individual no experimento e salva as identificações e informações quantitativas em um arquivo .quant separado. Depois que todas as execuções são processadas, ele coleta as informações de todos os arquivos .quant e executa algumas etapas de execução cruzada, como cálculo global do valor q, inferência de proteínas, cálculo de quantidades finais e normalização. Isso permite que o DIA-NN seja usado de maneira muito flexível. Por exemplo, você pode interromper o processamento a qualquer momento e depois retomar o processamento começando pela execução em que parou. Ou você pode remover algumas execuções do experimento, adicionar algumas execuções extras e executar novamente a análise rapidamente, sem a necessidade de refazer a análise das execuções já processadas. Tudo isso é habilitado pela opção Usar arquivos .quant existentes quando disponíveis . Os arquivos .quant são salvos/lidos no diretório Temp/.dia (ou no mesmo local dos arquivos brutos, se não houver nenhuma pasta temporária especificada). Ao utilizar esta opção, o usuário deve garantir que os arquivos .quant foram gerados exatamente com as mesmas configurações aplicadas na análise atual, com exceção do Precursor FDR (desde que seja <= 5%), Threads , Log level , MBR , normalização cruzada e geração de biblioteca - essas configurações podem ser diferentes. Na verdade, é possível até mesmo transferir arquivos .quant para outro computador e reutilizá-los lá - sem transferir os arquivos brutos originais. Importante: é altamente recomendável reutilizar arquivos .quant apenas quando as precisões de massa e a janela de varredura estiverem fixadas em alguns valores (diferentes de zero), caso contrário, o DIA-NN realizará a otimização destes novamente usando a primeira execução para a qual um . O arquivo quant não foi encontrado. Além disso, ao usar MBR ou criar uma biblioteca espectral a partir de dados DIA com geração de biblioteca definida como perfil inteligente ou completo, os arquivos .quant só devem ser reutilizados se tiverem sido gerados exatamente na mesma ordem que a ordem atual dos arquivos brutos, ou seja com MBR DIA-NN atualmente não pode combinar múltiplas análises separadas.

Nota: o relatório principal no formato .parquet fornece informações completas de saída para qualquer tipo de processamento downstream. Todos os outros tipos de saída existem para simplificar a análise ao usar o MS Excel ou software semelhante. Os números de precursores e proteínas relatados em diferentes tipos de arquivos de saída podem parecer diferentes devido à filtragem diferente usada para gerá-los. Consulte as descrições acima. Todas as 'matrizes' podem ser reproduzidas a partir do relatório principal .parquet, se geradas com o precursor FDR definido como 5%, usando R ou Python.

Pesquisa sem biblioteca

O DIA-NN possui um módulo sem biblioteca muito avançado, que é, para certos tipos de experimentos, melhor do que usar uma biblioteca espectral específica de projeto de alta qualidade. Em geral, o seguinte faz com que a pesquisa sem biblioteca tenha um desempenho melhor em comparação com as bibliotecas espectrais (enquanto o oposto favorece as bibliotecas espectrais):

números elevados de peptídeos detectáveis por corrida;
dados heterogêneos (por exemplo, amostras de tecido cancerígeno são bastante heterogêneas, enquanto injeções replicadas da mesma amostra não o são);
longos gradientes cromatográficos, bem como boa separação de peptídeos na dimensão de mobilidade iônica;
grande conjunto de dados (embora o processamento de um grande conjunto de dados no modo sem biblioteca possa levar algum tempo).

Observe que em 99% dos casos é essencial que o MBR esteja habilitado para uma análise quantitativa sem biblioteca. Ele é ativado por padrão ao usar a GUI DIA-NN.

Para a maioria dos experimentos, faz sentido tentar a pesquisa sem biblioteca. Para experimentos de média e grande escala, pode fazer sentido tentar primeiro a análise sem biblioteca de um subconjunto de dados, para ver se o desempenho está bom (em todo o conjunto de dados normalmente será muito melhor, então não há necessidade de ser muito rigoroso aqui). Nós também realizamos frequentemente uma rápida avaliação preliminar de CQ do experimento usando alguma biblioteca pública.

Muitas vezes é conveniente realizar análises sem biblioteca em duas etapas: primeiro criando uma biblioteca espectral prevista in silico a partir do banco de dados de sequência e depois analisando com esta biblioteca. Esta é a estratégia que deve ser utilizada em todos os casos, exceto em análises preliminares rápidas. Observe que a funcionalidade de pipeline no DIA-NN permite agendar facilmente sequências de tarefas, como a criação de uma biblioteca prevista seguida de múltiplas análises usando esta biblioteca.

Comentário

Observe que quanto maior o espaço de busca (o número total de precursores considerados), mais difícil será para o software de análise identificar os peptídeos e mais tempo levará a busca. DIA-NN é muito bom em lidar com espaços de busca muito grandes, mas mesmo DIA-NN não consegue fazer mágica e produzir resultados tão bons com um espaço de busca de 100 milhões, como faria com um espaço de busca de 2 milhões. Portanto, é preciso ter cuidado ao ativar todas as modificações possíveis de variáveis de uma só vez. Por exemplo, permitir no máximo 5 modificações variáveis, embora tenha a oxidação da metionina, fosfo e desamidação ativadas simultaneamente, provavelmente não é uma boa ideia.

Aqui reside uma distinção importante entre análise de dados DIA e DDA. No DDA, permitir todas as modificações variáveis possíveis faz muito sentido também porque o mecanismo de busca precisa combinar o espectro com algo - e se não corresponder ao peptídeo modificado correto, será correspondido falsamente. No DIA a abordagem é fundamentalmente diferente: o espectro de melhor correspondência é encontrado nos dados de cada íon precursor considerado (esta é uma visão muito simplificada apenas para ilustrar o conceito). Portanto, não ser capaz de identificar um espectro específico nunca é um problema no DIA (na verdade, a maioria dos espectros são altamente multiplexados no DIA - isto é, originados de múltiplos peptídeos - e apenas uma fração deles pode ser identificada). E, portanto, só faz sentido ativar uma modificação de variável específica se você estiver especificamente interessado nela ou se a modificação for realmente onipresente.

Consulte PTMs e peptidoformas para obter informações sobre como distinguir entre peptidoformas contendo diferentes conjuntos de modificações.

Criação de bibliotecas espectrais

DIA-NN pode criar uma biblioteca espectral a partir de qualquer conjunto de dados DIA. Isso pode ser feito nos modos baseado em biblioteca espectral e sem biblioteca: basta selecionar a opção Gerar biblioteca espectral no painel de saída.

O DIA-NN pode ainda criar uma biblioteca espectral prevista in silico a partir de um banco de dados de sequência (certifique-se de que o resumo FASTA esteja ativado) ou de outra biblioteca espectral (geralmente útil para bibliotecas públicas): basta executar o DIA-NN sem especificar nenhum arquivo bruto e habilite a opção de previsão de espectros baseados em aprendizagem profunda, RTs e IMs no painel de geração de íons precursores . As modificações atualmente suportadas pelo preditor de aprendizagem profunda são: C(cam), M(ox), acetil N-term, N/Q(dea), S/T/Y(phos), K(-GG), nK( mTRAQ) e nK(TMT). É importante ressaltar que se o módulo preditor no DIA-NN não reconhecer alguma modificação, ele ainda realizará a previsão, ignorando-a. Para fazer com que o DIA-NN descarte quaisquer peptídeos com modificações desconhecidas para o preditor, use --skip-unknown-mods.

Bibliotecas espectrais também podem ser criadas a partir de dados DDA e, de fato, o fracionamento offline + DDA tem sido a forma 'padrão ouro' de criar bibliotecas desde a introdução da proteômica SWATH/DIA. Para isso recomendamos o uso do FragPipe, que é baseado no mecanismo de busca ultrarrápido e altamente robusto MSFragger. O FragPipe pode ainda ser usado para criar bibliotecas compatíveis com DIA-NN também a partir de dados DIA, semelhante ao próprio DIA-NN.

Partida entre corridas

MBR é um modo poderoso no DIA-NN, que é benéfico para a maioria dos experimentos quantitativos, tanto com uma biblioteca espectral quanto no modo sem biblioteca. O MBR normalmente resulta em números de ID médios mais altos, mas também em uma integridade de dados muito melhor, ou seja, muito menos valores ausentes.

Ao processar qualquer conjunto de dados, o DIA-NN reúne muitas informações úteis que poderiam ter sido usadas para processar melhor os dados. E é isso que o MBR permite. Com o MBR, o DIA-NN primeiro cria uma biblioteca espectral a partir dos dados do DIA e depois reprocessa o mesmo conjunto de dados com esta biblioteca espectral. A inovação algorítmica implementada no DIA-NN garante que o FDR seja rigorosamente controlado: o MBR foi validado em conjuntos de dados que variam de 2 execuções a mais de 1.000 execuções.

O MBR deve ser habilitado para qualquer experimento quantitativo, a menos que você tenha uma biblioteca espectral específica do projeto de alta qualidade, que você acha que (i) provavelmente fornecerá cobertura quase completa de peptídeos detectáveis, ou seja, não há sentido em tentar sem biblioteca pesquisa + MBR, e (ii) a maioria dos peptídeos na biblioteca são realmente detectáveis no experimento DIA. Se apenas (i) for verdadeiro, ainda vale a pena tentar o MBR junto com a geração da biblioteca definida para o perfil de IDs .

O MBR não deve ser usado para experimentos não quantitativos, ou seja, quando você deseja apenas criar uma biblioteca espectral, que usaria em algum outro conjunto de dados.

Pode-se 'imitar' manualmente o MBR usando uma abordagem em duas etapas que resultará em desempenho comparável. Primeiro, execute o DIA-NN para criar uma biblioteca espectral a partir das execuções do DIA (todo o experimento ou apenas seu subconjunto, o que pode ser muito mais rápido para experimentos em larga escala ou experimentos incluindo execuções em branco/falhadas). Em seguida, use esta biblioteca para analisar todo o experimento. Em ambos os casos, execute o DIA-NN com o MBR desabilitado.

Ao usar o MBR (ou sua imitação) e contar com o relatório .parquet principal (recomendado) em vez das matrizes quantitativas, use os seguintes filtros de valor q:

Lib.Q.Value em vez de Global.Q.Value
Ao aplicar um filtro a Q.Value que seja mais rigoroso que o limite de FDR usado para gerar a biblioteca DIA (por exemplo, filtro Q.Value < 0,001), aplique sempre o mesmo filtro a Lib.Q.Value
Lib.PG.Q.Value em vez de Global.PG.Q.Value
Lib.Peptidoform.Q.Value em vez de Global.Peptidoform.Q.Value, ao usar a pontuação peptidoform

Alterando as configurações padrão

DIA-NN pode ser usado com sucesso para processar quase qualquer experimento com configurações padrão. Em geral, recomenda-se alterar as configurações somente quando for especificamente recomendado fazê-lo nesta Documentação (como abaixo), para um tipo de experimento específico ou se houver uma justificativa muito clara e convincente para a alteração.

Em muitos casos, pode-se querer alterar vários parâmetros no painel Algoritmo .

O MBR deve ser habilitado na maioria dos casos, consulte Correspondência entre execuções.
Precisões de massa : quando definido como 0,0, DIA-NN determina as tolerâncias de massa automaticamente, com base na primeira execução do experimento (padrão) ou, se a opção Execuções não relacionadas estiver selecionada, para cada execução separadamente. No entanto, o algoritmo automático pode ser afetado pelo ruído nos dados, portanto, mesmo para injeções replicadas, digamos, adquiridas no TripleTOF 6600, ele pode facilmente produzir tolerâncias de precisão de massa MS2 recomendadas na faixa de 15 ppm - 25 ppm - isso é perfeitamente aceitável. Então, o que preferimos fazer na maioria dos casos é executar o DIA-NN em diversas aquisições do experimento, com qualquer biblioteca espectral (pode escolher alguma pequena que permita uma análise rápida), ver quais precisões de massa o DIA-NN define automaticamente (imprime suas recomendações) e defina os valores para médias aproximadas destes. Além disso, muitas vezes já se sabe quais parâmetros DIA-NN são ideais para configurações específicas de LC-MS.
Janela de varredura : idealmente deve corresponder ao número médio aproximado de pontos de dados por pico. Da mesma forma que as precisões de massa, podem ser determinadas automaticamente pelo DIA-NN, mas preferimos fixá-las em algum valor médio.

Consulte também as orientações sobre pesquisa sem biblioteca, PTMs e peptidoformas e multiplexação usando plexDIA, se forem relevantes para o seu experimento.

Observe que depois de selecionar uma opção específica na GUI do DIA-NN, algumas outras configurações podem ser ativadas automaticamente. Por exemplo, sempre que você optar por realizar um resumo do banco de dados FASTA in silico (para pesquisa sem biblioteca) ou apenas gerar uma biblioteca espectral a partir de dados DIA, o MBR também será selecionado automaticamente - porque em 99% dos casos é benéfico.

Ferramenta de linha de comando

DIA-NN é implementado como uma interface gráfica de usuário (GUI), que invoca uma ferramenta de linha de comando (diann.exe). A ferramenta de linha de comando também pode ser usada separadamente, por exemplo, como parte de pipelines de processamento automatizados personalizados. Além disso, mesmo ao usar a GUI, é possível passar opções/comandos para a ferramenta de linha de comando, na caixa de texto Opções adicionais . Algumas dessas opções úteis são mencionadas nesta documentação, e a referência completa é fornecida em Referência da linha de comando.

Quando a GUI inicia a ferramenta de linha de comando, ela imprime na janela de log o conjunto exato de comandos usados. Portanto, para reproduzir o comportamento observado ao usar a GUI (por exemplo, se você quiser fazer a análise em um cluster Linux), basta passar exatamente os mesmos comandos diretamente para a ferramenta de linha de comando.

 diann.exe [commands]

Os comandos são processados na ordem em que são fornecidos e, com a maioria dos comandos, essa ordem pode ser arbitrária.

No Linux, o ponto e vírgula ';' caractere é tratado como um separador de comando, portanto ';' como parte dos comandos DIA-NN (por exemplo, --channels) precisam ser substituídos por ';' no Linux para comportamento correto.

Por conveniência, bem como para lidar com experimentos que consistem em milhares de arquivos, algumas das opções/comandos podem ser armazenadas em um arquivo de configuração. Para isso, crie um arquivo de texto com qualquer extensão, digamos, diann_config.cfg, digite qualquer comando suportado pelo DIA-NN nele e, em seguida, faça referência a esse arquivo com --cfg diann_config.cfg (na caixa de texto Opções adicionais ou em o comando usado para invocar a ferramenta de linha de comando diann.exe).

Visualização

DIA-NN oferece duas opções de visualização.

Horizonte . Para visualizar cromatogramas/espectros no Skyline, analise seu experimento com MBR e um banco de dados FASTA especificado e clique no botão 'Skyline'. O DIA-NN iniciará automaticamente o Skyline (certifique-se de ter o Skyline/Skyline versão diária 23.1.1.459 ou posterior instalado como 'Instalação do administrador'). Atualmente este fluxo de trabalho não suporta multiplexação e não funcionará com modificações em qualquer formato que não seja UniMod.

Visualizador DIA-NN . Analise seu experimento com a caixa de seleção "XICs" marcada e clique no botão 'Visualizador'. Por padrão, a opção "xics" fará com que os cromatogramas de extrato DIA-NN apenas para os íons de fragmentos da biblioteca e dentro de 10s do ápice de eluição. Use --xic [n] para definir a janela de tempo de retenção para N Segundos (por exemplo-Oxic 60 extrairá cromatogramas a um minuto do ápice) e-teóricos-FR para extrair toda a carga 1 e 2 y/b -Peries fragmentos, incluindo aqueles com perdas neutras comuns. Observe que o uso de FR-teórico, especialmente em combinação com a grande janela de tempo de retenção, pode exigir uma quantidade significativa de espaço em disco na pasta de saída. No entanto, a visualização em si é efetivamente instantânea, para qualquer tamanho de experimento.

Nota : Os cromatogramas extraídos com "xics" são salvos no formato Apache .Parquet (os nomes dos arquivos terminam com '.xic.parquet') e podem ser facilmente acessados usando R ou Python. Às vezes, isso pode ser conveniente para preparar números prontos para a publicação (embora também possam fazer isso com o Skyline ou o DIA-NN Viewer), ou mesmo para configurar o controle automático de qualidade personalizada para o desempenho do LC-MS.

As posições de peptídeo e modificação dentro de uma proteína podem ser visualizadas usando o Alphamap pelo Mann Lab https://github.com/mannlabs/alphamap.

Oleodutos automatizados

A janela de pipeline dentro da GUI DIA-NN permite combinar várias etapas de análise nos pipelines. Cada etapa do pipeline é um conjunto de configurações, conforme exibido pela GUI. Pode-se adicionar essas etapas ao pipeline, atualizar as etapas existentes, remover as etapas, mover etapas para cima/para baixo no pipeline, desativar/ativar (por clique de mouse duplo) certas etapas dentro do pipeline e salvar/carregar pipelines. Além disso, as etapas individuais do pipeline podem ser cópicas entre diferentes guias/janelas da GUI (use botões de copiar e colar para isso). Sempre montamos todas as execuções do DIA-NN para uma publicação específica em um pipeline. Pode-se também usar pipelines DIA-NN para armazenar modelos de configuração.

PTMS e peptidoformas

A GUI da DIA-NN apresenta fluxos de trabalho embutidos (painel de geração de íons precursores ) para detectar oxidação da metionina, acetilação da proteína N-terminal, fosforilação e ubiquitinação (através da detecção de adutos remanescentes -gg em lisinas). Outros modificadores podem ser declarados usando --Var-Mod ou--Fixed-Mod em opções adicionais .

A distinção entre peptidoformas com diferentes conjuntos de modificações é um problema não trivial no DIA: sem a pontuação especial de peptidofórdio, a peptidofórdia efetiva FDR pode estar no intervalo de 5 a 10% para análises livres de bibliotecas. O DIA-NN implementa uma abordagem estatística-Decoy para a pontuação de peptidoform, que é ativada pela opção Peptidoforms (painel de algoritmo ) e também é ativada automaticamente sempre que uma modificação variável for declarada, através das configurações da GUI ou do comando --Var-Mod. Os valores q peptidofórdios resultantes refletem a confiança de Dia-NN na correção do conjunto de modificações relatadas para o peptídeo, bem como a correção da sequência de aminoácidos identificada. Esses valores Q, no entanto, não garantem a ausência de baixas mudanças de massa devido a algumas substituições ou modificações de aminoácidos, como a desamidação (observe que o DDA também não garante isso).

Além disso, o DIA-NN possui um algoritmo que relata estimativas de confiança da localização do PTM (como probabilidades posteriores para a localização correta de todos os locais de PTM variáveis no peptídeo, bem como pontuações para sites individuais), incluídos no relatório de saída .Parquet. Os arquivos fosfositos_90 e fosfositos_99 .TSV contêm quantidades específicas para fosfostas, calculadas usando o método 1 top 1 (experimental), que é a maior intensidade entre precursores com o local localizado com a confiança especificada (0,9 ou 0,99, respectivamente) é usada como fosfita quantidade na execução dada. O algoritmo 'Top 1' é usado aqui, pois é provavelmente o mais robusto contra outliers e erros de localização. No entanto, se essa é realmente a melhor opção precisa ser investigada, o que atualmente é desafiador devido à falta de parâmetros de referência com a verdade conhecida.

Em geral, ao procurar PTMS, recomendamos o seguinte:

Essencial: as modificações variáveis que você procura devem ser especificadas como variável (através das caixas de seleção da GUI ou das opções adicionais ) ao gerar uma biblioteca prevista em silico e também ao analisar os dados brutos usando qualquer biblioteca prevista ou empírica
Configurações para fosforilação: max 3 modificações variáveis, clivagem máxima 1, fosforilação é a única modificação variável especificada, intervalo de carga precursor 2-3; Para reduzir o uso de RAM, verifique se a faixa de massa precursora especificada (ao gerar uma biblioteca prevista) não é mais larga que a faixa de massa precursora selecionada para MS/MS pelo método DIA; Para acelerar o processamento ao usar uma biblioteca prevista, primeiro gere uma biblioteca baseada em DIA a partir de um subconjunto de experimentos (por exemplo, mais de 10 melhores execuções) e depois analise todo o conjunto de dados usando esta biblioteca baseada em DIA com MBR desativado
Quando o exposto acima for bem -sucedido, tente também max 2 codivagens perdidas
Ao procurar PTMs que não sejam a fosforilação, em 95% dos casos melhores para usar o máximo 1 a 3 modificações variáveis e o máximo 1 de clivagem perdida
Quando não está procurando PTMS, ou seja, quando a meta é a quantificação relativa de proteínas, permitindo modificações variáveis normalmente não produz profundidade proteômica mais alta. Embora geralmente não doeu, tornará o processamento mais lento.

Até onde sabemos, não há validação publicada da confiança de identificação para a detecção de peptídeos desamidados (que são fáceis de confundir a isotopólogos mais pesados, a menos que a especificação de massa tenha uma resolução muito alta e uma precisão/tolerância em massa rígida seja usado pelo mecanismo de pesquisa), mesmo para o DDA. Uma maneira de ganhar confiança na identificação de peptídeos desamidados é verificar se alguma coisa é identificada se o delta de massa para desamidação for declarado como 1,022694, em vez do valor correto 0,984016. O DIA-NN passa este teste com sucesso em vários conjuntos de dados (que não são relatados IDs ao especificar essa 'massa de modificação de engodo'), mas recomendamos também experimentar essa pesquisa de 'Modificação de Modificação de engodo' em várias corridas do experimento a ser analisado , se estiver procurando peptídeos desamidados. Em cada caso (massa correta ou chamariz), -PTM-QValues devem ser usados para permitir a pontuação específica de PTM para desamidação, além da pontuação do peptidoforma e Ptm.q.value ou global.q.value/lib. Q.Value usado para filtragem.

É importante notar que, quando o objetivo final é a identificação de proteínas, é amplamente irrelevante se um peptídeo modificado for identificado incorretamente, sendo comparado a um espectro originário de um peptidoforma diferente. Portanto, se o objetivo do experimento é identificar/quantificar PTMs específicos, substituições de aminoácidos ou distinguir proteínas com alta identidade de sequência, recomenda -se a opção de pontuação das peptidoformas . Em todos os outros casos, a pontuação da peptidoforma é normalmente boa para usar, mas não é necessária, e geralmente leva a um processamento um pouco mais lento e uma ligeira diminuição nos números de identificação ao usar o MBR.

O dia-nn precisa reconhecer modificações na biblioteca espectral?

Em geral, sim. No entanto, a maioria dos fluxos de trabalho funcionará sem a necessidade de reconhecer modificações. Embora se as modificações desconhecidas forem detectadas na biblioteca, o dia-nn imprimirá um aviso listando-os e é fortemente recomendado declará-los usando--mod. Observe que o Dia-NN já reconhece muitas modificações comuns e também pode carregar todo o banco de dados Unimod, consulte a opção --full-unimod.

Multiplexação usando Plexdia

Em colaboração com o Laboratório Slavov, desenvolvemos o Plexdia baseado no DIA-NN, uma tecnologia que permite se beneficiar da multiplexação não isobárica (mtraq, dimetil, silac) em combinação com o DIA. Para analisar um experimento de Plexdia, é necessário que seja previsto uma biblioteca espectral prevista ou empírica em silico. O DIA-NN precisa ser fornecido com os seguintes conjuntos de comandos, dependendo do cenário de análise.

Cenário 1 . A biblioteca é uma biblioteca sem rótulo regular (empírica ou prevista), e a multiplexação é alcançada puramente com marcação isotópica, ou seja, sem marcação química com tags como mtraq ou dimetil. Dia-nn precisa das seguintes opções a serem adicionadas a opções adicionais :

-Moda-fixada, para declarar o nome base dos rótulos do canal e dos aminoácidos associados
-Mod-Mod fixo, para Silico Aplicar a modificação declarada com-Mod-Mod na Biblioteca
-Os canais, para declarar as mudanças de massa para todos os canais considerados
-Modos originais, para impedir que o dia-nn converte as modificações declaradas para Unimod

Exemplo de etiquetas L/H Silac em K e R:

 --fixed-mod SILAC,0.0,KR,label
--lib-fixed-mod SILAC
--channels SILAC,L,KR,0:0; SILAC,H,KR,8.014199:10.008269
--original-mods

Observe que, no Silac acima, é declarado como etiqueta, ou seja, não deve alterar o tempo de retenção do peptídeo. É também uma etiqueta de massa zero aqui, pois serve apenas para designar os aminoácidos que serão rotulados. O que a combinação de-Mod e--Lib-Fixed-Mod aqui é simplesmente colocado (SILAC) após cada K ou R na sequência de ID precursor, na representação da biblioteca interna usada pelo DIA-NN. -Os canais dividem cada entrada da biblioteca em dois, um com massas 0 (k) e 0 (r) adicionado a cada ocorrência de k (silac) ou r (silac) na sequência, respectivamente, e outro com 8.014199 (k ) e 10.008269 (r).

Cenário 2 . A biblioteca é uma biblioteca sem rótulo regular (empírica ou prevista), e a multiplexação é alcançada via marcação química com mtraq.

Cenário 2: Etapa 1. Rotule a biblioteca em silico com mtraq e execute o preditor de aprendizado profundo para ajustar os espectros/rts/ims. Para isso, execute o dia-nn com a biblioteca de entrada no campo da biblioteca espectral , uma biblioteca de saída especificada, espectros baseados em aprendizado profundo, previsão de RTS e IMS ativados, lista de arquivos de dados brutos vazios e as seguintes opções em opções adicionais :

 --fixed-mod mTRAQ,140.0949630177,nK
--lib-fixed-mod mTRAQ
--channels mTRAQ,0,nK,0:0; mTRAQ,4,nK,4.0070994:4.0070994;mTRAQ,8,nK,8.0141988132:8.0141988132
--original-mods

Use o arquivo .PredicTict.Speclib com o nome correspondente à biblioteca de saída como a biblioteca espectral para a próxima etapa.

Cenário 2: Etapa 2. Execute o Dia-NN com as seguintes opções:

 --fixed-mod mTRAQ,140.0949630177,nK
--channels mTRAQ,0,nK,0:0; mTRAQ,4,nK,4.0070994:4.0070994;mTRAQ,8,nK,8.0141988132:8.0141988132
--original-mods

Observe que--LIB-Fixed-Mod não é mais necessário, pois a biblioteca gerada na Etapa 1 já contém (mtraq) no terminal N e lisinas de cada peptídeo.

Cenário 3 . A biblioteca é uma biblioteca sem rótulo regular (empírica ou prevista), e a multiplexação é alcançada por meio de marcação química com uma etiqueta que não seja o MTRAQ. A razão pela qual esse cenário é tratado de maneira diferente do cenário 2 é que o Preditor de DiA-NN no silico não foi treinado especificamente para rótulos que não sejam o MTRAQ e, portanto, uma etapa extra para gerar previsões não é necessária. Simplesmente execute o Dia-NN, como faria no cenário 1, exceto que a declaração-fixo do modelo terá uma massa diferente de zero neste caso e não será um rótulo. Por exemplo, para dimetil de 5 canais, como descrito por Thielert et al:

 ‐‐fixed‐mod Dimethyl, 28.0313, nK
--lib-fixed-mod Dimethyl
‐‐channels Dimethyl,0,nK,0:0; Dimethyl,2,nK,2.0126:2.0126; Dimethyl,4,nK,4.0251:4.0251; Dimethyl,6,nK,6.0377:6.0377; Dimethyl,8,nK,8.0444:8.0444
--original-mods

Cenário 4 . A biblioteca é uma biblioteca empírica do DIA gerada pelo DIA-NN a partir de um conjunto de dados DIA multiplexado. Por exemplo, isso pode ser uma biblioteca gerada pela DIA-NN na primeira passagem do MBR (e você gostaria de reutilizá-la para analisar as mesmas ou algumas outras execuções). As opções adicionais serão as mesmas do cenário 1, cenário 2: Etapa 2 ou cenário 3, exceto (importante!)-Mod-Mod com fibração de liberação não deve ser fornecida.

Em todos os cenários acima , uma opção extra que especifica a estratégia de normalização deve ser incluída em opções adicionais . Isso pode ser-Norm-norma (SILAC pulsado, rotatividade de proteínas) ou-Norm-especificação (multiplexação de amostras independentes).

Saída . Recomendamos o uso do relatório principal no formato .Parquet para todas as análises a jusante. Observe que Pg.Q.Value e GG.Q.Value no relatório principal são específicos do canal, ao usar a multiplexação. As quantidades pg.maxlfq, genes.maxlfq e genes.maxlfq.unique são apenas específicas do canal se (i) os quantums forem utilizados e (ii) o relatório corresponde à segunda passagem de MBR ou MBR não for utilizada. Como alternativa, pode-se usar as matrizes (não recomendadas), elas são apenas no nível do precursor. Ao usar matrizes, é essencial especificar--matriz-ch-qvalue, com limiares razoáveis de 0,01 a 0,5. Essa configuração não afetará a matriz MS1 extraída, que simplesmente relata sinais de MS1 correspondentes a cada canal, sempre que um precursor for identificado em qualquer um dos canais - usando essa matriz normalmente não é recomendada. As matrizes de proteínas não são produzidas ao analisar dados multiplexados.

Referência de configurações da GUI

Descrição das opções selecionadas

Painel de entrada

Converta para .dia converte os arquivos brutos selecionados em formato .dia do dia-nn, para um processamento subsequente mais rápido, e salve-os na mesma pasta que os respectivos arquivos brutos de origem ou em temp/.dia dir (painel de saída ), se o painel o último é especificado. A conversão é recomendada para arquivos Sciex, normalmente faz pouca diferença para arquivos Thermo e não é recomendada para arquivos Bruker.
A opção Reannotate permite reantar a biblioteca espectral com informações de proteína do banco de dados FASTA, usando a especificada especificada especificada
Os contaminantes adicionam contaminantes comuns do banco de dados do Centro de Proteômica (CCP) de Cambridge (CCP) e os exclui automaticamente da quantificação, consulte a descrição da opção--descarte-exclude. Esta opção se aplica ao gerar uma biblioteca espectral prevista a partir de um banco de dados da FASTA ou analisar usando essa biblioteca, se foi gerada com contaminantes ativados.

Painel de geração de íons precursores

O FASTA DIGEST instrui o dia-nn a no banco de dados de sequência do Silico, para pesquisa sem biblioteca ou para gerar uma biblioteca espectral em silico
Espectros, RTS e IMS, baseados em aprendizado profundo, instruem a DIA-NN a realizar previsão profunda baseada em aprendizado de espectros, tempos de retenção e valores de mobilidade de íons. Isso permite não apenas fazer bibliotecas espectrais de silico a partir de bancos de dados de sequência, mas também substituir Spectra/RTS/IMS em bibliotecas existentes com valores previstos

Painel de saída

Use arquivos .Quant existentes quando disponíveis IDs de reutilização/quantificação de uma análise anterior, consulte Saída
TEMP/.DIA DIR Especifique onde arquivos .Quant ou arquivos .dia convertidos serão salvos, consulte a saída

Painel de algoritmo

Precisão em massa Defina a tolerância em massa MS2 (em ppm), consulte a alteração das configurações padrão
Precisão de massa MS1 Defina a tolerância de massa MS1 (em ppm), consulte a alteração das configurações padrão
A janela de digitalização define o raio da janela de varredura para um valor específico. Idealmente, deve ser aproximadamente igual ao número médio de pontos de dados por pico, consulte a alteração das configurações padrão
As execuções não relacionadas determinam as precisões de massa e a janela de digitalização, se automático, independentemente para diferentes execuções, consulte [Alterando as configurações padrão] (#alterando as configurações padrão
Peptidoforms ativa a pontuação da confiança peptidofórmio, consulte PTMS e peptidofórdios
MBR Ativa o MBR, deve ser ativado para a maioria das experiências quantitativas, consulte MBR
Nenhum espectro compartilhado deve usar um algoritmo do tipo Spectrum para remover precursores interferentes. Esse algoritmo é particularmente importante ao considerar modificações variáveis e deve sempre ser ativado
O classificador de rede neural aqui 'modo de passagem única' é a opção padrão e é recomendada. O modo de 'passa-dupla' pode ser melhor em alguns cenários, mas é quase duas vezes mais lento e pode tornar os valores de FDR relatados um pouco menos conservadores. O modo passa-dupla deve ser testado contra uma passagem única no conjunto de dados específico, antes que uma decisão seja tomada para usá-lo.
Inferência de proteínas Esta configuração afeta principalmente a definição de proteotipicidade, os "genes" padrão são recomendados para quase todas as aplicações, desde que as informações no nível do gene estejam realmente presentes no banco de dados (bancos de dados não-únicos podem não ter). Quando definido como "Off", os grupos de proteínas da biblioteca espectral são usados - isso faz sentido se a inferência de proteínas já tiver sido realizada durante a geração da biblioteca
A Estratégia de Quantificação Quantums (alta precisão) é recomendada para a maioria dos cenários e usam quantums (alta precisão) para experimentos em que a eliminação de qualquer viés de compressão de proporção é crítica
Normalização cruzada se deve usar a normalização global, dependente da RT (recomendada) ou também dependente do sinal (experimental, ter muito cuidado com isso). A normalização também pode ser desativada completamente usando-não-norma
Geração da biblioteca Esta configuração determina se e como RTS/IMS e espectros empíricos são adicionados à biblioteca recém -gerada, em vez dos valores teóricos. IDs, RT&IM perfil é fortemente recomendado para quase todos os fluxos de trabalho. Ao analisar com uma biblioteca específica de projeto de alta qualidade, pode mudar para o perfil do IDS. O perfil completo significa sempre usar informações empíricas e só pode ser benéfico (em casos muito raros) ao ter menos de ~ 1000 peptídeos identificados por execução, e somente se o processamento a jusante não for muito sensível a um FDR um pouco mais alto.
Uso de velocidade e RAM Esta configuração é útil principalmente para análises sem bibliotecas. Os três primeiros modos normalmente têm pouca diferença em termos de números de identificação, enquanto o modo ultra-rápido é bastante extremo: cerca de 5x mais rápido, mas os números de identificação não são tão bons e o FDR eficaz pode ser um pouco maior. A configuração afeta apenas o primeiro passe ao usar o MBR

Referência de linha de comando

Descrição das opções/comandos disponíveis

Observe que algumas opções abaixo são fortemente prejudiciais ao desempenho e estão lá apenas para fins de benchmarking. Portanto, a recomendação é usar apenas as opções que devem ser benéficas para um experimento específico (por exemplo, as recomendadas na presente documentação) com base em alguma lógica clara.

--CFG [Nome do arquivo] Especifica um arquivo para carregar opções/comandos de
-A normalização de Norm-Norma de Amostras Multiplexadas será realizada de maneira específica da corrida, ou seja, para executar a normalização, pois cada precursor DiA-NN soma os respectivos canais dentro de cada execução e normalizará essas somas entre as execuções: Use EG Para experimentos SILAC de turnover de proteínas
-A normalização de Norma de Espec-Secas de Amostras Multiplexadas será realizada de maneira específica do canal, ou seja, cada canal em cada execução é tratado como uma amostra separada para ser normalizada: Use para analisar experimentos em que a multiplexação de amostras independentes é usada para aumentar a taxa de transferência
--Cannels [canal 1]; [Canal 2]; ... lista canais multiplexadores, em que cada declaração de canal tem o formulário [canal] = [grupo de etiquetas], [nome do canal], [sites], [Mass1: Mass2: ...], em que [sites] têm a mesma sintaxe Quanto a --Var-Mod e se n sites estiverem listados, as massas N serão listadas no final da declaração do canal. A biblioteca espectral será dividida automaticamente em vários canais, para precursores com a modificação [do grupo de etiquetas]. Para adicionar o último a uma biblioteca espectral sem rótulo, pode usar-MOD-LIB-FIXED, por exemplo-Silac, 0,0, KR, rótulo-Silac-Mod-Mod. Consulte Multiplexing usando exemplos de plexdia para uso
-Clear-Mods faz com que o dia-nn 'esqueça' todos os nomes de modificação interna (PTM)
-Compact-Relatório , instrui o Dia-NN a fornecer menos informações no relatório principal .TSV
-Percepção de peptídeos [TAG]-EXCLUD
-Convert faz com que o dia-nn converta os arquivos de especificação de massa no formato .dia. Os arquivos são salvos no mesmo local que os arquivos de entrada ou no DIR temp/.dia, se for especificado (na GUI ou usando a opção - -TEMP)
-CUT [Especificty 1], [Especificidade 2], ... Especifica a especificidade da clivagem para o resumo de silico. Os locais de clivagem (pares de aminoácidos) são listados separados por vírgulas, '*' indica qualquer aminoácido e '!' indica que o respectivo site não será clivado. Exemplos: "-corte k*, r*,!
-Decoy-Channel [Channel] Especifica as massas do canal de engodo, em que [o canal] tem a mesma sintaxe que para-canais
-DeCoys-PREVERVEM-Spectrum informa o dia-nn que os peptídeos de engodo na biblioteca já estão anotados com espectros de 'chamariz'
--DIR [Pasta] Especifica uma pasta contendo arquivos brutos a serem processados. Todos os arquivos na pasta devem estar no formato .raw, .mzml ou .dia
-Direct-Quant Desative os quantums e use algoritmos de quantificação Legacy DIA-NN em vez disso, também desativa a quantificação de proteínas específicas do canal ao analisar amostras multiplexadas
--dl-no-im Ao usar o Deep Learning Predictor, a previsão de mobilidades de íons não será realizada
--dl-no-rt Ao usar o preditor de aprendizado profundo, a previsão de tempos de retenção não será realizada
-Duplicate-Proteins instrui o dia-nn a não pular entradas no banco de dados de sequência com IDs duplicados (enquanto por padrão se várias entradas tiverem o mesmo id de proteína, todas, exceto a primeira entrada, serão ignoradas)
--exact-fdr aproximado FDR Estimativa para peptídeos confiantes com base em modelagem paramétrica será desativada
-Exportar quantidades de fragmentos e informações de qualidade para o relatório de saída .parquet
--ext [string] adiciona uma string ao final de cada nome de arquivo (especificado com--f)
--f [nome do arquivo] Especifica uma execução a ser analisada, use vários comandos--f para especificar várias execuções
--FASTA [Nome do arquivo] Especifica um banco de dados de sequência no FASTA FORMAT (suporte completo para proteomos UniProt), use vários comandos--FASTA para especificar vários bancos de dados
--Fasta-filter [nome do arquivo] Considere apenas peptídeos que correspondem às seqüências despojadas especificadas no arquivo de texto fornecido (uma sequência por linha), ao processar um banco de dados de sequência
--Fasta-Search instrui o dia-nn a executar um resumo in silico do banco de dados de sequência
--Fixed-Mod [nome], [Mass], [sites], [Opcional: 'Label'] -adiciona o nome da modificação à lista de nomes reconhecidos e especifica a modificação conforme corrigido. Mesma sintaxe que para --Var-Mod.
-Force-Swissprot considerar apenas as seqüências SwissProt (ou seja, marcadas com '> sp |') ao processar um banco de dados de sequência
-para os decói-devidos informa o dia-nn que qualquer chamariz incluído na biblioteca foi gerado por uma ferramenta que não seja esta versão do dia-nn
-Full-Unod carrega o banco de dados completo de modificação do Unimod e desativa a conversão automática de nomes de modificação no formato Unimod
--gen-spec-Lib instrui o dia-nn a gerar uma biblioteca espectral
-Gen-FR-Restreção anota a biblioteca com informações de exclusão de fragmentos, com base nas execuções que estão sendo analisadas (os fragmentos menos afetados por interferências são selecionados para quantificação, por que o restante é excluído)
-Global-Mass-Cal desativa a calibração de massa dependente de RT
-Norm-global instrui o dia-nn a usar a normalização global simples, em vez da normalização dependente da RT
-As configurações de quantums de altura-ACC serão otimizadas para máxima precisão, ou seja, para minimizar qualquer viés quantitativo de compressão da proporção
-IDs de sequência de proteínas com nomes de nomes também serão usados como nomes e genes de proteínas, qualquer informação sobre nomes ou genes de proteínas reais serão ignorados
--il-eq (experimental) Ao usar a função 'reannotato', os peptídeos serão correspondidos às proteínas ao considerar a isoleucina e o equivalente a leucina
--im-window [x] conserta a janela de extração IM para o valor específico
--Im-Window-Factor [x] controla o tamanho mínimo da janela de extração de IM, o padrão é 2.0
-As precisões de massa individual-massa-ACC , se definidas como automáticas, serão determinadas de forma independente para diferentes execuções
-Individual-relatar um relatório de saída separado será criado para cada execução
-A janela de varredura de janelas individuais , se definida como automática, será determinada de forma independente para diferentes execuções
--T-REMOVALE 0 Desativa a remoção de precursores interferentes
-Lib [Nome do arquivo] Especifica uma biblioteca espectral. O uso de comandos múltiplos -LIB (experimental) permite carregar várias bibliotecas no formato .TSV

Expandir

Informações adicionais

Versão DIA-NN 1.9.2
Tipo Outro código-fonte
Data da Última Atualização 2024-11-14
tamanho 50MB
Vindo de Github

Aplicativos Relacionados

waymo open dataset

2024-11-18
SmartTube

2024-12-14
Sunamu

2024-12-14
MySchedule.py

2024-12-15
viptools for eslam

2024-12-15
VITAident

2024-12-15

Recomendado para você

chat.petals.dev

Outro código-fonte

1.0.0
GPT Prompt Templates

Outro código-fonte

1.0.0
GPTyped

Outro código-fonte

GPTyped 1.0.5
waymo open dataset

Outro código-fonte

December 2023 Update
SmartTube

Outro código-fonte

24.71 Stable
Sunamu

Outro código-fonte

Release 2.2.0
waymo open dataset

Outro código-fonte

December 2023 Update
wp functions

Outras categorias

1.0.0
termwind

Outras categorias

v2.3.0

Informações Relacionadas Todos