TRGT est un outil pour le génotypage ciblé des répétitions en tandem à partir des données HIFI PACBIO. En plus du génotypage de la taille de base, la composition de la séquence des profils TRGT, le mosaïcisme et la méthylation CPG de chaque répétition analysée et la visualisation des lectures chevauchant les répétitions.
Veuillez noter que TRGT est toujours en cours de développement actif. Nous prévoyons quelques modifications des formats de fichiers d'entrée et de sortie de TRGT.
TRGT Linux Binary est disponible ici
Des fichiers de définition de répétition sont disponibles dans ce référentiel Zenodo et les définitions des répétitions pathogènes connues sont également disponibles ici.
TRGT sortira des VCF contenant des allèles répétés de chaque région dans le catalogue de répétition. Pour faciliter l'analyse des répétitions sur plusieurs échantillons, les VCF peuvent être fusionnés en VCF multi-échantillons à l'aide du sous-commande merge
ou converti en une base de données à l'aide de l'outil TDB (anciennement appelé trgTDB). TDB offre de nombreux avantages par rapport aux VCF multi-échantillons, y compris l'extraction de données plus simple, la prise en charge des requêtes et les tailles de fichiers réduites.
Tutoriels
Tutoriel d'introduction: versions non interactives et interactives
Interprétation des parcelles TRGT
Référence
Interface de ligne de commande
Répéter le fichier de définition
Fichiers VCF générés par TRGT
Si vous remarquez des fonctionnalités, des bogues ou des bogues manquants ou avez besoin d'aide pour analyser la sortie de TRGT, n'hésitez pas à contacter par e-mail ou à ouvrir un problème GitHub.
TRGT est actuellement en développement actif et est destiné à l'utilisation de la recherche uniquement et non à une utilisation dans les procédures de diagnostic. Bien que des efforts aient été faits pour garantir que TRGT soit à la hauteur de la qualité que Pacbio s'efforce, nous ne garantissons aucune garantie concernant ce logiciel.
Comme TRGT n'est couvert par aucun accord de niveau de service ou similaire, veuillez ne pas contacter les scientifiques des applications de champ Pacbio ou le service client PACBIO pour obtenir de l'aide pour toute version de TRGT. Veuillez rapporter tous les problèmes via GitHub à la place. Nous n'apportons aucune garantie selon laquelle un tel problème sera résolu, dans une mesure ou dans un délai.
Veuillez envisager de citer l'article décrivant TRGT:
Dolzhenko E, English A, Dashnow H, de Sena Brandine G, Mokveld T, Rowell WJ, Karniski C, Kronenberg Z, Danzi MC, Cheung W, Bi C, Farrow E, Wenger A, Marínez-Cerdeño V, Bartley TD, Jin A P, Nelson D, Zuchner S, Pastinen T, Quinlan AR, Sedlazeck FJ, Eberle MA. Caractérisation et visualisation des répétitions en tandem à l'échelle du génome. 2024
0.3.4
Amélioration de l'espacement des étiquettes dans les parcelles TRVZ
0.4.0
Ajout de tutoriel TRVZ
Ajout d'un paramètre de caryotype d'échantillon ( XX
ou XY
)
Renommé Field du génotype VCF ALCI
à ALLR
Faire des changements d'algorithme de génotypage pour améliorer la précision
0.5.0
Le génotyper utilise désormais des informations sur les SNP adjacentes aux répétitions
Les fichiers BAM contiennent désormais des affectations en lecture
Ajout de la prise en charge des fichiers répétés compressés GZIP
Amélioration des messages d'erreur et d'erreur
0.6.0
Ajouter des cigares d'alignement à Spanning.Bam Reads
Augmenter la région d'extraction de lecture
Le génotyper des grappes rapporte des intervalles de confiance
Amélioration des erreurs de gestion des fichiers d'entrée non valides (génome, catalogue et lecture)
0.7.0
Lire les informations de phasage peut maintenant être utilisée pendant la répétition du génotypage (via les balises HP
)
Les utilisateurs peuvent désormais définir des répétitions complexes en spécifiant les séquences de motifs dans le champ Motifs et en définissant StrUC sur locus_name
Les valeurs MAPQ d'origine dans les lectures d'entrée sont maintenant rapportées dans la sortie BAM
Le nom de l'exemple de bamlet peut désormais être fourni à l'aide de l'indicateur --sample-name
; S'il n'est pas fourni, il est extrait de l'entrée BAM ou de la tige de fichier (résolution du problème n ° 18)
0.8.0
Breaking Change : des portes et comptes de moteurs (champs MS
et MC
) et l'évaluation de la pureté (champ AP
) sont maintenant effectués avec un algorithme basé sur HMM pour toutes les répétitions; Attendez-vous à quelques différences dans les résultats par rapport aux versions précédentes
La pureté des allèles des allèles de longueur zéro est maintenant signalée comme des valeurs manquantes dans le VCFS
Le fichier de sortie Spanning.bam porte désormais les valeurs Qual et le brin de cartographie des lectures d'entrée
Ajout d'un drapeau avancé --output-flank-len
qui contrôle le nombre de bases flanquantes rapportées dans les fichiers Spanning.bam et affichées dans des parcelles TRVZ
Un accident qui peut se produire sur des BAM où la méthylation a été appelée deux fois a été fixée
Optimisations au mode --genotyper=cluster
, y compris le génotypage haploïde du chromosome X lorsque --karyotype
est défini sur XY
0.9.0
Ajoutez un support pour les répétitions de polyalanine (en autorisant les caractères N
dans la séquence du motif)
Correction d'un bogue provoquant une erreur de TRVZ sur les répétitions de polyalanine
1.0.0
Breaking Change : TRGT et TRVZ sont maintenant fusionnés en un seul binaire. Les utilisateurs doivent exécuter les sous-communs trgt genotype
et trgt plot
pour le génotypage et la visualisation, respectivement.
Breaking Change : Une base de rembourrage est désormais automatiquement ajoutée à toutes les séquences d'allèles génotypées dans le fichier VCF, garantissant une meilleure conformité avec les normes VCF et la manipulation des allèles de longueur zéro.
Ajout d'une nouvelle sous-commande trgt validate
. Cette commande permet la validation d'un catalogue répété par rapport à un génome de référence donné et rapporte des statistiques pour toute entrée mal formée.
Empreinte de mémoire plus faible: une meilleure gestion de la mémoire réduit considérablement l'utilisation de la mémoire avec de grands catalogues de répétition.
Gestion des erreurs mises à jour: les entrées mal formulées sont désormais enregistrées sous forme d'erreurs sans terminer le programme.
Ajout d'options de CLI Ferme pour simplifier l'utilisation de la commande.
1.1.0
Ajout d'une nouvelle sous-commande trgt merge
. Cette commande fusionne les fichiers VCF générés par trgt genotype
dans un fichier VCF conjoint. Fonctionne avec VCFS généré par toutes les versions de TRGT (le conjoint VCF résultant sera toujours au format TRGT ≥ V1.0.0 qui comprend des bases de rembourrage).
Ajout de sous-échantillonnage de régions avec couverture ultra-élevée ( >MAX_DEPTH * 3
, par défaut 750); implémenté via l'échantillonnage du réservoir.
Correction d'un bug du génotyper en grappes qui s'est produite lorsqu'une seule lecture couvrait un locus.
Ajout d'une nouvelle logique pour filtrer les lectures non-HIFI: supprimez jusqu'à 3% des lectures de qualité inférieure qui ne correspondent pas à la séquence de répétition attendue.
1.1.1
HotFix: la logique de filtrage de lecture ne supprime plus les lectures sans balises RQ.
1.1.2
Hotfix: Empêchez le génotypage sans lecture.
Ajout de l'indicateur --disable-bam-output
au trgt genotype
, permettant aux utilisateurs de désactiver la génération de bamlet. Cependant, veuillez noter que les bamlets sont toujours nécessaires pour les tâches en aval comme le trott TRGT.
1.2.0
Problème résolu avec la gestion des fichiers de lit compressé BGZIP.
Écoute toujours les statistiques directement à STDOUT et STDERR au lieu de les enregistrer.
Multi-échantillon VCF Merging: Ajout de prise en charge pour fusionner les VCF TRGT avec un certain nombre d'échantillons, permettant des mises à jour vers de grands ensembles de données à l'échelle de la population avec de nouveaux échantillons.
Indexation des contigs synchronisés: introduit la prise en charge des VCF avec des ordonnances contigus incohérentes. De plus, le nouveau drapeau --contigs
permet de spécifier une liste de contigs séparée par des virgules.
Le génome de référence n'est plus requis lors de la fusion des VCF TRGT à partir de la version 1.0.0 ou ultérieure.
La fusion saute et enregistre maintenant les loci problématiques par défaut. Utilisez l'indicateur --quit-on-errors
pour se terminer sur les erreurs. Les statistiques sont enregistrées après la fusion, y compris les dénombrements de TR échoué et sauté.
trgt merge
:
trgt validate
Correction de bogue:
1.3.0
Le code de traçage a été refactorisé alors que nous nous préparons à réorganiser les visualisations répétées
Le nombre maximum de lectures par allèle à tracé peut désormais être spécifié par --max-allele-reads
BugFix: les identifiants répétés sont désormais autorisés à contenir des virgules
1.4.0
Les paramètres appropriés pour le séquençage ciblé peuvent désormais être définis avec l'option --preset targeted
Les parcelles de cascade ne paniquent plus lorsqu'il n'y a pas de lecture dans un locus
Les modifications algorithmiques du --genotyper cluster
permettent à moins de lectures d'être affectées à un allèle; Cela peut entraîner des modifications mineures de la séquence consensuelle et de la lecture de l'affectation
Ce site Web et ce contenu et tous les services liés au site, y compris toutes les données, sont fournis «tels quels» avec toutes les défauts, sans représentations ni garanties d'aucune sorte, expressives ou implicites, y compris, mais sans s'y limiter, toute garantie de garantie de garantie de La qualité marchande, la qualité satisfaisante, la non-contrefaçon ou la forme physique à un usage particulier. Vous assumez une responsabilité totale et un risque pour votre utilisation de ce site, tous les services liés au site et tous les sites Web ou applications tiers. Aucune information orale ou écrite ou conseil ne doit créer une garantie de quelque nature que ce soit. Toute référence à des produits ou services spécifiques sur les sites Web ne constitue pas ou n'implique pas une recommandation ou une approbation par Pacific Biosciences.