TRGT es una herramienta para el genotipado dirigido de repeticiones en tándem de los datos de PacBio HIFI. Además del genotipado de tamaño básico, la composición de la secuencia de perfiles TRGT, el mosaicismo y la metilación de CpG de cada repetición analizada y visualización de lecturas superpuestas las repeticiones.
Tenga en cuenta que TRGT todavía está en desarrollo activo. Anticipamos algunos cambios en los formatos de archivo de entrada y salida de TRGT.
TRGT Linux Binary está disponible aquí
Los archivos de definición de repetición están disponibles en este repositorio de Zenodo y las definiciones de repeticiones patógenas conocidas también están disponibles aquí.
TRGT emite VCF que contienen alelos repetidos de cada región en el catálogo repetido. Para facilitar el análisis de repeticiones en múltiples muestras, los VCF se pueden fusionar en un VCF de múltiples muestras utilizando el subcomcommand merge
o convertirse en una base de datos utilizando la herramienta TDB (anteriormente llamada TRGTDB). TDB ofrece muchas ventajas sobre VCF de múltiples muestras, incluida una extracción de datos más simple, soporte para consultas y tamaños de archivos reducidos.
Tutoriales
Tutorial introductorio: versiones no interactivas e interactivas
Interpretando las parcelas TRGT
Referencia
Interfaz de línea de comandos
Repita el archivo de definición
Archivos VCF generados por TRGT
Si nota las características faltantes, errores o necesita ayuda para analizar la salida de TRGT, no dude en comunicarse con correo electrónico o abrir un problema de GitHub.
TRGT se encuentra actualmente en desarrollo activo y está destinado solo a uso de la investigación y no para su uso en procedimientos de diagnóstico. Si bien se han realizado esfuerzos para garantizar que TRGT esté a la altura de la calidad por la que Pacbio se esfuerza, no garantizamos este software.
Como TRGT no está cubierto por ningún acuerdo de nivel de servicio o similar, no se comunique con los científicos de las aplicaciones de campo de Pacbio o el servicio al cliente de PACBIO para obtener ayuda con cualquier lanzamiento de TRGT. Informe todos los problemas a través de GitHub. No garantizamos que dicho problema se abordará, en cualquier medida o dentro de cualquier marco de tiempo.
Considere citar el documento que describe TRGT:
Dolzhenko E, Inglés A, Dashnow H, de Sena Brandine G, Mokveld T, Rowell WJ, Karniski C, Kronenberg Z, Danzi MC, Cheung W, Bi C, Farrow E, Wenger A, Martínez-Cerdeño V, Bartley TD, Jin, Jin P, Nelson D, Zuchner S, Pastinen T, Quinlan AR, Sedlazeck FJ, Eberle MA. Caracterización y visualización de repeticiones en tándem a escala del genoma. 2024
0.3.4
Espacio de etiquetas mejorado en gráficos TRVZ
0.4.0
Tutorial TRVZ agregado
Parámetro de cariotipo de muestra agregado ( XX
o XY
)
Renombrado Genotipo VCF Field ALCI
a ALLR
Realizó cambios en el algoritmo de genotipado para mejorar la precisión
0.5.0
Genotyper ahora utiliza información sobre SNP adyacentes a repeticiones
Los archivos BAM ahora contienen tareas de lectura a alelo
Soporte agregado para archivos de repetición comprimidos GZIP
Manejo de errores mejorado y mensajes de error
0.6.0
Agregar cigarros de alineación a la expansión. Bam dice
Aumentar la región de extracción de lectura
Clúster genotyper informa intervalos de confianza
Manejo de errores mejorado de archivos de entrada no válidos (genoma, catálogo y lecturas)
0.7.0
Leer información de fases ahora se puede usar durante el genotipado repetido (a través de etiquetas HP
)
Los usuarios ahora pueden definir repeticiones complejas especificando secuencias de motivos en el campo de motivos y configurando STRUC en locus_name
Los valores de MAPQ originales en las lecturas de entrada ahora se informan en la salida BAM
El nombre de la muestra de Bamlet ahora se puede proporcionar utilizando la bandera --sample-name
; Si no se proporciona, se extrae del STEM de entrada BAM o del archivo (abordando el problema #18)
0.8.0
Cambio de ruptura : los tramos y recuentos de motivos (campos MS
y MC
) y la evaluación de pureza ( AP
Field) ahora se realizan con un algoritmo basado en HMM para todas las repeticiones; Espere algunas diferencias en los resultados en relación con las versiones anteriores
La pureza del alelo de los alelos de longitud cero ahora se informa como valores faltantes en el VCFS
El archivo de salida de Spanning.Bam ahora lleva los valores de la QUAL y la cadena de mapeo de las lecturas de entrada
Se agregó una bandera avanzada --output-flank-len
que controla el número de bases flanqueantes reportadas en los archivos de bam.
Se ha solucionado un choque que puede ocurrir en BAM donde se llamó la metilación dos veces.
Optimizaciones al modo --genotyper=cluster
, incluido el genotipado haploide del cromosoma X cuando --karyotype
está configurado en XY
0.9.0
Agregue soporte para repeticiones de polialanina (permitiendo caracteres N
en la secuencia del motivo)
Corrige un error que hace que TRVZ se agote en repeticiones de polialanina
1.0.0
Cambio de ruptura : TRGT y TRVZ ahora se fusionan en un solo binario. Los usuarios necesitan ejecutar trgt genotype
y trgt plot
para genotipar y visualización, respectivamente.
Cambio de ruptura : ahora se agrega automáticamente una base de relleno a todas las secuencias de alelos genotipados en el archivo VCF, asegurando un mejor cumplimiento de los estándares VCF y el manejo de alelos de longitud cero.
Se agregó un nuevo subcomando trgt validate
. Este comando permite la validación de un catálogo repetido contra un genoma de referencia dado e informa estadísticas para cualquier entrada malformada.
Huella de memoria inferior: una mejor gestión de la memoria reduce significativamente el uso de la memoria con grandes catálogos de repetición.
Manejo de errores actualizados: las entradas malformadas ahora se registran como errores sin terminar el programa.
Se agregaron opciones de CLI de taquigrafía para simplificar el uso de comandos.
1.1.0
Se agregó una nueva trgt merge
de subcomando. Este comando fusiona los archivos VCF generados por trgt genotype
en un archivo VCF conjunto. Funciona con VCF generados por todas las versiones de TRGT (el VCF conjunto resultante siempre estará en el formato TRGT ≥V1.0.0 que incluye bases de relleno).
Se agregó submuestreo de regiones con cobertura ultra alta ( >MAX_DEPTH * 3
, por defecto 750); implementado a través de muestreo de yacimientos.
Se corrigió un error de genotería de clúster que ocurrió cuando solo una lectura cubría un locus.
Se agregó una nueva lógica para filtrar lecturas no HIF: elimine hasta el 3% de las lecturas de menor calidad que no coinciden con la secuencia de repetición esperada.
1.1.1
Hotfix: Leer la lógica de filtrado ya no elimina las lecturas sin etiquetas RQ.
1.1.2
Hotfix: prevenir el genotipado sin lecturas.
Se agregó el indicador --disable-bam-output
al trgt genotype
, lo que permite a los usuarios deshabilitar la generación de Bamlet. Sin embargo, tenga en cuenta que las Bamlets todavía se requieren para tareas aguas abajo como TRGT Plot.
1.2.0
Problema resuelto con el manejo de archivos de cama con comprimido BGZIP.
Siempre genera estadísticas directamente a Stdout y Stderr en lugar de registrarlas.
Fundación de VCF de múltiples muestras: soporte agregado para fusionar VCF TRGT con cualquier cantidad de muestras, lo que permite actualizaciones a grandes conjuntos de datos a escala de población con nuevas muestras.
Synced Contig Indexing: Soporte introducido para VCF con pedidos contigonos inconsistentes. Además, el nuevo indicador --contigs
permite especificar una lista de contigs separados por comas para fusionar.
El genoma de referencia ya no se requiere al fusionar TRGT VCFS de la versión 1.0.0 o posterior.
Fusionar ahora omita y registra loci problemático de forma predeterminada. Use el indicador --quit-on-errors
para terminar con errores. Las estadísticas están registradas después de la fusión, incluidos los recuentos de TR fallidos y omitidos.
trgt merge
:
trgt validate
Corrección de errores:
1.3.0
El código de trazado se ha refactorizado mientras nos preparamos para renovar las visualizaciones repetidas
El número máximo de lecturas por alelo a la trama ahora se puede especificar por --max-allele-reads
Bugfix: ahora se permite que los identificadores de repetición contengan comas
1.4.0
Los parámetros apropiados para la secuenciación dirigida ahora se pueden configurar con -opción --preset targeted
Los gráficos de cascada ya no se asustan cuando no hay lecturas en un locus
Los cambios algorítmicos en --genotyper cluster
permiten que se asignen menos lecturas a un alelo; Esto puede dar lugar a cambios menores en la secuencia de consenso y la asignación de lectura
Este sitio web y contenido y todos los servicios relacionados con el sitio, incluidos los datos, se proporcionan "tal cual", con todas las fallas, sin representaciones ni garantías de ningún tipo, ya sea expresas o implícitas, incluidas, entre otros, ninguna garantía de Comerciabilidad, calidad satisfactoria, no infracción o aptitud para un propósito particular. Usted asume la responsabilidad total y el riesgo de su uso de este sitio, todos los servicios relacionados con el sitio y cualquier sitio web o aplicación de terceros. Ninguna información o asesoramiento oral o escrito creará una garantía de ningún tipo. Cualquier referencia a productos o servicios específicos en los sitios web no constituye ni implica una recomendación o respaldo de Pacific Biosciences.