O TRGT é uma ferramenta para a genotipagem direcionada de repetições em tandem dos dados do Pacbio HiFi. Além da genotipagem de tamanho básico, a composição de sequência de perfis TRGT, o mosaicismo e a metilação do CPG de cada repetição e visualização analisada de leituras sobrepondo as repetições.
Observe que o TRGT ainda está em desenvolvimento ativo. Prevemos algumas alterações nos formatos de arquivo de entrada e saída do TRGT.
O binário TRGT Linux está disponível aqui
Os arquivos de definição de repetição estão disponíveis neste repositório Zenodo e as definições de repetições patogênicas conhecidas também estão disponíveis aqui.
O TRGT sai VCFs contendo alelos repetidos de cada região no catálogo repetido. Para facilitar a análise de repetições em várias amostras, os VCFs podem ser mesclados em um VCF de várias amostras usando o subcomando merge
ou convertido em um banco de dados usando a ferramenta TDB (anteriormente chamada TRGTDB). O TDB oferece muitas vantagens sobre os VCFs de várias amostras, incluindo extração de dados mais simples, suporte para consultas e tamanhos de arquivo reduzidos.
Tutoriais
Tutorial introdutório: versões não interativas e interativas
Interpretando parcelas TRGT
Referência
Interface da linha de comando
Repita o arquivo de definição
Arquivos VCF gerados por TRGT
Se você notar algum recurso ausente, bugs ou precisar de assistência na análise da saída do TRGT, não hesite em chegar por e -mail ou abrir um problema do GitHub.
Atualmente, o TRGT está em desenvolvimento ativo e destina -se apenas ao uso da pesquisa e não para uso em procedimentos de diagnóstico. Embora tenham sido feitos esforços para garantir que o TRGT atenda à qualidade pela qual o Pacbio se esforça, não temos garantia em relação a este software.
Como o TRGT não é coberto por nenhum contrato de nível de serviço ou similares, não entre em contato com os cientistas do Pacbio Field Applications ou do Pacbio Customer Atending para obter assistência com qualquer liberação do TRGT. Por favor, relate todos os problemas através do Github. Não garantimos que esse problema seja resolvido, em qualquer extensão ou dentro de qualquer período de tempo.
Por favor, considere citar o artigo que descreve o TRGT:
Dolzhenko E, English A, Dashnow H, De Sena Brandine G, Mokveld T, Rowell WJ, Karniski C, Kronenberg Z, Danzi MC, Cheung W, Bi C, Farrow E, Wenger A, Martínez-Cerdeño V, Bartley TD, Jin P, Nelson D, Zuchner S, Pastinen T, Quinlan AR, Sedlazeck FJ, Eberle MA. Caracterização e visualização de repetições em tandem em escala do genoma. 2024
0.3.4
Espaçamento de etiquetas aprimorado em parcelas TRVZ
0.4.0
Tutorial de TRVZ adicionado
Amostra de amostra de parâmetro de cariótipo ( XX
ou XY
)
Renomeado VCF Genotype Field ALCI
para ALLR
Fez mudanças no algoritmo de genotipagem para melhorar a precisão
0.5.0
O Genotyper agora usa informações sobre SNPs adjacentes para repetições
Os arquivos BAM agora contêm atribuições de leitura em consultório
Adicionado suporte para arquivos de repetição compactados GZIP
Manipulação de erros aprimorados e mensagens de erro
0.6.0
Adicione charutos de alinhamento ao spanning.bam lê
Aumentar a região de extração de leitura
Genotyper de cluster relata intervalos de confiança
Manipulação de erros aprimorada de arquivos de entrada inválidos (genoma, catálogo e leituras)
0.7.0
LEIA Informações de fase de fase agora podem ser usadas durante a genotipagem de repetição (via tags HP
)
Os usuários agora podem definir repetições complexas especificando sequências de motivos no campo motivos e definindo o Struc para locus_name
Os valores MAPQ originais nas leituras de entrada agora são relatados na saída BAM
O nome da amostra de Bamlet agora pode ser fornecido usando o sinalizador --sample-name
; Se não for fornecido, é extraído do BAM de entrada ou haste de arquivo (abordando a edição nº 18)
0.8.0
Breaking Change : o motivo do abrangência e contagem (campos MS
e MC
) e a avaliação de pureza (campo AP
) agora são realizados com um algoritmo baseado em HMM para todas as repetições; Espere algumas diferenças nos resultados em relação às versões anteriores
A pureza do alelo de alelos de comprimento zero agora é relatada como valores ausentes no VCFS
O arquivo de saída do spanning.bam agora carrega os valores e o mapeamento das leituras de entrada
Adicionado um avançado de bandeira --output-flank-len
que controla o número de bases de flanqueamento relatadas nos arquivos Spanning.bam e mostrados em gráficos TRVZ
Um acidente que pode ocorrer em bams onde a metilação foi chamada duas vezes foi consertada
Otimizações para o modo --genotyper=cluster
, incluindo genotipagem haplóide do cromossomo X quando --karyotype
é definido como XY
0.9.0
Adicione suporte para repetições de polyalanina (permitindo que os caracteres N
na sequência do motivo)
Corrija um bug, fazendo com que o TRVZ seja o erro nas repetições de polialanina
1.0.0
Breaking Change : TRGT e TRVZ agora estão mesclados em um único binário. Os usuários precisam executar trgt genotype
subcomando e trgt plot
para genotipagem e visualização, respectivamente.
Breaking Change : Uma base de preenchimento agora é adicionada automaticamente a todas as sequências de alelos genotipadas no arquivo VCF, garantindo uma melhor conformidade com os padrões VCF e manuseio de alelos de comprimento zero.
Adicionado um novo Subcomando trgt validate
. Este comando permite a validação de um catálogo repetido contra um determinado genoma de referência e relata estatísticas para quaisquer entradas malformadas.
Pegada de memória inferior: O melhor gerenciamento da memória reduz significativamente o uso da memória com grandes catálogos de repetição.
Manuseio de erro atualizado: as entradas malformadas agora estão registradas como erros sem encerrar o programa.
Adicionado opções de CLI de abreviação para simplificar o uso de comandos.
1.1.0
Adicionado uma nova trgt merge
. Este comando mescla arquivos VCF gerados pelo trgt genotype
em um arquivo VCF conjunto. Trabalhos com VCFs gerados por todas as versões do TRGT (o VCF articular resultante sempre estará no formato TRGT ≥V1.0.0, que inclui bases de preenchimento).
Adicionado subamostragem de regiões com cobertura ultra-alta ( >MAX_DEPTH * 3
, por padrão 750); implementado via amostragem de reservatório.
Corrigido um bug de genotyper de cluster que ocorreu quando apenas uma leitura cobriu um locus.
Adicionada nova lógica para filtrar leituras não-HIFI: Remova até 3% das leituras de qualidade inferior que não correspondem à sequência de repetição esperada.
1.1.1
Hotfix: Leia a lógica de filtragem não remove mais leituras sem tags RQ.
1.1.2
Hotfix: impedir a genotipagem sem leituras.
Adicionado o sinalizador --disable-bam-output
ao trgt genotype
, permitindo que os usuários desativem a geração de bamlet. No entanto, observe que os bamlets ainda são necessários para tarefas a jusante como o TRGT Plot.
1.2.0
Problema resolvido com o manuseio de arquivos da cama compactados pelo BGZIP.
Sempre produz estatísticas diretamente para stdout e stderr em vez de registrá -las.
Mesclação VCF de várias amostras: Adicionado suporte para mesclar VCFs TRGT com qualquer número de amostras, permitindo atualizações para conjuntos de dados em grande escala populacional com novas amostras.
Indexação sincronizada de contig: suporte introduzido para VCFs com pedidos de contig inconsistentes. Além disso, o novo sinalizador --contigs
permite especificar uma lista de contigs separada por vírgula a ser mesclada.
O genoma de referência não é mais necessário ao mesclar TRGT VCFs da versão 1.0.0 ou posterior.
A fusão agora pula e registra loci problemáticos por padrão. Use o sinalizador --quit-on-errors
para terminar em erros. As estatísticas são registradas após a fusão, incluindo as contagens de TRs com falha e ignorados.
trgt merge
:
trgt validate
Correção de bug:
1.3.0
O código de plotagem foi refaturado enquanto nos preparamos para renovar as visualizações repetidas
O número máximo de leituras por alelo a plotar agora pode ser especificado por --max-allele-reads
Bugfix: os identificadores repetidos agora têm permissão para conter vírgulas
1.4.0
Os parâmetros apropriados para o sequenciamento direcionado agora podem ser definidos com -opção --preset targeted
As parcelas em cascata não entram mais em pânico quando não há leituras em um locus
Alterações algorítmicas para --genotyper cluster
permitem que menos leituras sejam atribuídas a um alelo; Isso pode resultar em pequenas mudanças na sequência de consenso e na atribuição de leitura
Este site e conteúdo e todos os serviços relacionados ao site, incluindo quaisquer dados, são fornecidos "como estão", com todas as falhas, sem representações ou garantias de qualquer tipo, expressas ou implícitas, incluindo, mas não limitadas a, quaisquer garantias de Merchantabilidade, qualidade satisfatória, não violação ou condicionamento físico para uma finalidade específica. Você assume a responsabilidade total e o risco de usar este site, todos os serviços relacionados ao site e quaisquer sites ou aplicativos de terceiros. Nenhuma informação ou aconselhamento oral ou por escrito deve criar uma garantia de qualquer tipo. Quaisquer referências a produtos ou serviços específicos nos sites não constituem ou implicam uma recomendação ou endosso da Pacific Biosciences.