TRGT ist ein Tool zur gezielten Genotypisierung von Tandem -Wiederholungen aus Pacbio HiFi -Daten. Zusätzlich zur Genotypisierung der grundlegenden Größe, der TRGT -Profilesequenzzusammensetzung, der Mosaikismus und der CPG -Methylierung jeder analysierten Wiederholung und Visualisierung von Lesevorgängen überlappen die Wiederholungen.
Bitte beachten Sie, dass TRGT noch in aktiver Entwicklung steht. Wir erwarten einige Änderungen der Eingabe- und Ausgabedateiformate von TRGT.
TRGT Linux Binary ist hier verfügbar
Wiederholungsdefinitionsdateien sind in diesem Zenodo -Repository verfügbar, und es sind auch hier auch Definitionen bekannter pathogener Wiederholungen verfügbar.
TRGT gibt VCFs aus, die wiederholte Allele aus jedem Bereich im Wiederholungskatalog enthalten. Um die Analyse von Wiederholungen über mehrere Stichproben hinweg zu erleichtern, können VCFs entweder mit dem Merge-Sub-Command mit dem merge
Sub-Command in eine Multi-Stichproben-VCF verschmolzen oder unter Verwendung des TDB-Tools (früher als TRGTDB bezeichnet) in eine Datenbank konvertiert werden. TDB bietet viele Vorteile gegenüber VCFs mit mehreren Stichproben, einschließlich einfacherer Datenextraktion, Unterstützung für Abfragen und reduzierte Dateigrößen.
Tutorials
Einführungs-Tutorial: nicht interaktive und interaktive Versionen
TRGT -Diagramme interpretieren
Referenz
Befehlszeilenschnittstelle
Definitionsdatei wiederholen
VCF -Dateien, die von TRGT generiert wurden
Wenn Sie fehlende Funktionen, Fehler oder Unterstützung bei der Analyse der Ausgabe von TRGT bemerken, zögern Sie bitte nicht, per E -Mail zu erreichen oder ein GitHub -Problem zu öffnen.
TRGT befindet sich derzeit in aktiver Entwicklung und ist nur für die Verwendung von Forschungen und nicht für die Verwendung in diagnostischen Verfahren gedacht. Während die Anstrengungen unternommen wurden, um sicherzustellen, dass TRGT der Qualität, die Pacbio anstrebt, gerecht wird, stellen wir keine Garantie für diese Software vor.
Da TRGT nicht durch eine Service -Level -Vereinbarung oder dergleichen abgedeckt ist, wenden Sie sich bitte nicht an einen Pacbio -Feldanwendungen, der Wissenschaftler oder den Pacbio -Kundendienst für Unterstützung bei einer TRGT -Veröffentlichung erhalten. Bitte melden Sie stattdessen alle Probleme über GitHub. Wir treffen keine Garantie dafür, dass ein solches Problem in jedem Zeitraum oder in einem beliebigen Zeitraum angegangen wird.
Bitte beachten Sie, dass das Papier TRGT beschreibt:
Dolzhenko E., English A., Dashnow H., De Sena Brandine G., Mokveld T., Rowell WJ, Karniski C, Kronenberg Z, Danzi MC, Cheung W. P, Nelson D, Zuchner S., Pastinen T., Quinlan AR, Sedlazeck FJ, Eberle MA. Charakterisierung und Visualisierung von Tandem -Wiederholungen im Genommaßstab. 2024
0.3.4
Verbesserter Etikettenabstand in TRVZ -Diagrammen
0.4.0
Tutorial hinzugefügt
Probener Karyotyp -Parameter ( XX
oder XY
) hinzugefügt
Umbenannt in VCF -Genotypfeld ALCI
in ALLR
Nahm Algorithmusänderungen für Genotypen vor, um die Genauigkeit zu verbessern
0.5.0
Der Genotyper verwendet jetzt Informationen über SNPs neben Wiederholungen
BAM-Dateien enthalten jetzt Les-to-Allel-Aufgaben
Unterstützung für GZIP -komprimierte Wiederholungsdateien hinzugefügt
Verbesserte Fehlerhandhabung und Fehlermeldungen
0,6,0
Fügen Sie Spanning -Zigarren hinzu. Bam liest sich
Erhöhen Sie die Lesenextraktionsregion
Cluster Genotyper berichtet Konfidenzintervalle
Verbesserte Fehlerbehandlung von ungültigen Eingabedateien (Genom, Katalog und Lesevorgänge)
0,7,0
Lesen Sie Phaseninformationen können jetzt während der Wiederholungsgenotypisierung verwendet werden (über HP
-Tags)
Benutzer können jetzt komplexe Wiederholungen definieren, indem sie Motivsequenzen im Feld Motivs angeben und STRUC auf locus_name
einstellen
Die ursprünglichen MAPQ -Werte in den Eingangslesungen werden nun im BAM -Ausgang angegeben
Der Bamlet-Beispielname kann jetzt mit dem Flag --sample-name
bereitgestellt werden. Wenn es nicht bereitgestellt wird, wird es aus dem Eingangsbam- oder Dateistamm extrahiert (Adressierung von Ausgabe Nr. 18)
0,8,0
Breaking Change : Motiv Spans und Zählungen ( MS
und MC
Felder) und Reinheitsbewertung ( AP
-Feld) werden nun für alle Wiederholungen mit einem HMM-basierten Algorithmus durchgeführt. Erwarten Sie einige Unterschiede in den Ergebnissen im Vergleich zu den vorherigen Versionen
Allelreinheit von Allelen mit Nulllängen werden jetzt als fehlende Werte in den VCFs angegeben
Die Ausgabedatei von Spanning.bam überträgt nun die Qualwerte und den Zuordnungsstrang aus den Eingabeberaten
Es wurde ein fortgeschrittenes Flag --output-flank-len
hinzugefügt, das die Anzahl der in den Spanning.BAM-Dateien angegebenen Flanking-Basen steuert und in TRVZ-Diagrammen angezeigt wird
Ein Absturz, der bei BAMs auftreten kann, bei denen die Methylierung zweimal aufgerufen wurde
Optimierungen zum --genotyper=cluster
, einschließlich der haploiden Genotypisierung des X -Chromosoms, wenn --karyotype
auf XY
eingestellt ist
0.9.0
Fügen Sie Unterstützung für Polyalanin -Wiederholungen hinzu (indem Sie die Zeichen N
in der Motivsequenz zulassen)
Beheben Sie einen Fehler, der dazu führt
1.0.0
Breaking Change : TRGT und TRVZ werden jetzt zu einer einzigen Binärdatei verschmolzen. Benutzer müssen trgt genotype
und trgt plot
von Unterbefehlern für Genotypisierung bzw. Visualisierung ausführen.
Breaking Change : Eine Padding-Basis wird jetzt automatisch zu allen genotypisierten Allelsequenzen in der VCF-Datei hinzugefügt, um eine bessere Einhaltung der VCF-Standards und die Handhabung von Allele mit Nulllängen zu gewährleisten.
Fügte eine neue trgt validate
von Subcommand hinzu. Dieser Befehl ermöglicht die Validierung eines Wiederholungskatalogs gegen ein bestimmtes Referenzgenom und meldet Statistiken für alle missgebildeten Einträge.
Niedrigerer Speicherausdruck: Eine bessere Speicherverwaltung reduziert den Speicherverbrauch mit großen Wiederholungskatalogen erheblich.
Aktualisierte Fehlerbehandlung: Missgebildete Einträge werden jetzt als Fehler angemeldet, ohne das Programm zu beenden.
Zusätzliche CLI -Optionen für die Verurteilung der Befehlsnutzung hinzugefügt.
1.1.0
Fügte eine neue trgt merge
von Subcommand hinzu. Dieser Befehl fügt VCF -Dateien zusammen, die vom trgt genotype
generiert werden, in eine gemeinsame VCF -Datei. Arbeitet mit VCFs, die von allen Versionen von TRGT erzeugt werden (das resultierende GelenkvCF befindet sich immer im TRGT ≥V1.0.0 -Format, das Polsterbasen enthält).
Zusatzabtastung von Regionen mit ultrahöher Abdeckung ( >MAX_DEPTH * 3
, standardmäßig 750); implementiert über Reservoir -Stichproben.
Es wurde ein Cluster -genotierter Fehler behoben, der auftrat, wenn nur eine einzige Lektüre einen Locus abdeckte.
Neue Logik für die Filterung von Nicht-HIFI-Lesungen hinzugefügt: Entfernen Sie bis zu 3% der Lesevorgänge mit geringerer Qualität, die nicht mit der erwarteten Wiederholungssequenz übereinstimmen.
1.1.1
Hotfix: Lesen Sie die Filterlogik nicht mehr ohne RQ -Tags.
1.1.2
Hotfix: Verhindern Sie die Genotypisierung ohne Lesevorgänge.
Der trgt genotype
fügte das --disable-bam-output
-Flag-so, dass Benutzer die Bamlet-Erzeugung deaktivieren können. Bitte beachten Sie jedoch, dass Bamlets für nachgeschaltete Aufgaben wie TRGT -Diagramm noch immer erforderlich sind.
1.2.0
Aufgelöstes Problem mit der Behandlung von bgzip-komprimierten Bettdateien.
Gibt immer Statistiken direkt an stdout und stderr aus, anstatt sie zu protokollieren.
Multi-Sample-VCF-Verschmelzung: Unterstützung für das Zusammenführen von TRGT-VCFs mit einer beliebigen Anzahl von Stichproben hinzugefügt, wodurch Aktualisierungen zu großen Datensätzen im Bevölkerungsmaßstab mit neuen Proben ermöglicht werden.
Synced Contig Indexierung: Einführte Unterstützung für VCFs mit inkonsistenten Contig -Orden. Zusätzlich ermöglicht das neue Flag --contigs
-Flag das Angeben einer von Kommas getrennten Liste von Contigs.
Das Referenzgenom ist bei der Zusammenführung von TRGT -VCFs aus Version 1.0.0 oder höher nicht mehr erforderlich.
Das Verschmelzung überspringt jetzt standardmäßig problematische Loci. Verwenden Sie das Flag --quit-on-errors
um Fehler zu beenden. Statistiken sind nach dem Merge protokolliert, einschließlich der Anzahl der fehlgeschlagenen und übersprungenen TRS.
trgt merge
:
trgt validate
Fehlerbehebung:
1.3.0
Das Plotting -Code wurde neu gestaltet, während wir uns darauf vorbereiten, wiederholte Visualisierungen zu überarbeiten
Die maximale Anzahl von Lesevorgängen pro Allel zum Diagramm kann jetzt durch --max-allele-reads
angegeben werden
Bugfix: Wiederholungsbezeichnungen dürfen jetzt Kommas enthalten
1.4.0
Die für die gezielte Sequenzierung geeigneten Parameter können nun mit --preset targeted
-Zieloption festgelegt werden
Wasserfalldiagramme in Panik nicht mehr in Panik, wenn es keine Lesevorgänge in einem Ort gibt
Algorithmische Änderungen an --genotyper cluster
ermöglichen es, einem Allel weniger Lesevorgänge zugeordnet zu werden. Dies kann zu geringfügigen Änderungen an der Konsensussequenz und zu Leszuweisung führen
Diese Website und Inhalte und alle seitenbezogenen Dienste, einschließlich aller Daten, werden "so wie" mit allen Fehlern ohne Zusicherungen oder Gewährleistungen jeglicher Art, entweder ausdrückliche oder implizite, einschließlich, aber nicht beschränkt auf alle Gewährleistungen von bereitgestellt Handelsfähigkeit, zufriedenstellende Qualität, Nichtverletzung oder Fitness für einen bestimmten Zweck. Sie übernehmen die totale Verantwortung und das Risiko für Ihre Nutzung dieser Website, alle Websites oder Anwendungen von Drittanbietern. Keine mündlichen oder schriftlichen Informationen oder Ratschläge erzeugen eine Garantie jeglicher Art. Bei Verweisen auf bestimmte Produkte oder Dienstleistungen auf den Websites handelt es sich nicht um eine Empfehlung oder Bestätigung durch pazifische Biosschenken.