Contig Annotation Tool (CAT) und Bin Annotation Tool (BAT) sind Pipelines für die taxonomische Klassifizierung langer DNA-Sequenzen und metagenomassemblierter Genome (MAGs/Bins) sowohl bekannter als auch (höchst) unbekannter Mikroorganismen, wie sie durch zeitgenössische Metagenomikstudien generiert wurden. Der Kernalgorithmus beider Programme umfasst das Aufrufen von Genen, die Zuordnung vorhergesagter ORFs anhand einer Proteindatenbank und die abstimmungsbasierte Klassifizierung des gesamten Contigs/MAG basierend auf der Klassifizierung der einzelnen ORFs. CAT und BAT können aus Zwischenschritten ausgeführt werden, wenn die Dateien entsprechend formatiert sind.
Ein Papier, das den Algorithmus zusammen mit umfangreichen Benchmarks beschreibt, finden Sie unter https://doi.org/10.1186/s13059-019-1817-x. Wenn Sie CAT oder BAT in Ihrer Forschung verwenden, wäre es toll, wenn Sie uns zitieren könnten:
Das Read Annotation Tool (RAT) schätzt die taxonomische Zusammensetzung von Metagenomen mithilfe von CAT- und BAT-Ausgaben. Ein Manuskript, das RAT mit Benchmarks beschreibt, finden Sie unter https://doi.org/10.1038/s41467-024-47155-1. Wenn Sie RAT in Ihrer Forschung verwenden, wäre es großartig, wenn Sie Folgendes zitieren könnten:
Um den Code selbst zu zitieren:
Python 3, https://www.python.org/.
DIAMANT, https://github.com/bbuchfink/diamond.
Verschwenderisch, https://github.com/hyattpd/Prodigal.
RAT erfordert außerdem (nicht erforderlich für CAT und BAT):
BWA, https://github.com/lh3/bwa.
SAMtools, http://www.htslib.org/download/.
CAT, BAT und RAT wurden ausführlich auf Linux-Systemen getestet und sollten auch auf macOS laufen.
Es ist keine Installation erforderlich. Sie können CAT, BAT und RAT ausführen, indem Sie den absoluten Pfad angeben:
$ ./CAT_pack/CAT_pack --help
Wenn Sie alternativ die Dateien im Verzeichnis CAT_pack zu Ihrer $PATH
Variablen hinzufügen, können Sie CAT, BAT und RAT von überall aus ausführen:
$ CAT_pack --version
Um mit CAT/BAT/RAT beginnen zu können, müssen Sie die Datenbankdateien auf Ihrem System herunterladen. Sie können entweder vorkonstruierte Datenbankdateien herunterladen oder diese selbst generieren.
Um die Datenbankdateien herunterzuladen, suchen Sie die neueste Version auf tbb.bio.uu.nl/tina/CAT_pack_prepare/, laden Sie sie herunter und extrahieren Sie sie, und schon kann es losgehen!
Für NCBI-Nr.:
$ wget tbb.bio.uu.nl/tina/CAT_pack_prepare/20240422_CAT_nr.tar.gz
$ tar -xvzf 20240422_CAT_nr.tar.gz
Für GTDB:
$ wget tbb.bio.uu.nl/tina/CAT_pack_prepare/20231120_CAT_gtdb.tar.gz # release 214
$ tar -xvzf 20231120_CAT_gtdb.tar.gz
Anstatt die vorkonstruierte Datenbank zu verwenden, können Sie selbst eine neue Datenbank erstellen. Mit dem download
Modul können Rohdaten heruntergeladen und verarbeitet werden, um den Aufbau einer neuen CAT-Pack-Datenbank vorzubereiten. Dadurch wird sichergestellt, dass alle Eingabeabhängigkeiten erfüllt und für CAT_pack prepare
korrekt formatiert sind.
Derzeit werden zwei Datenbanken unterstützt: NCBIs nr und die Genome Taxonomy Database (GTDB)-Proteine.
$ CAT_pack download -db nr -o path/to/nr_data_dir
Ich werde die Fasta-Datei mit den Proteinsequenzen, ihrer Zuordnung zu einem Taxid und den Taxonomieinformationen von der FTP-Site des NCBI herunterladen.
$ CAT_pack download -db gtdb -o path/to/gtdb_data_dir
Die zum Erstellen einer CAT-Pack-Datenbank erforderlichen Dateien werden auf der GTDB-Downloadseite bereitgestellt.
CAT_pack download
ruft die erforderlichen Dateien ab und führt einige zusätzliche Verarbeitungsvorgänge durch, um sie für CAT_pack prepare
vorzubereiten:
nodes.dmp
und names.dmp
im NCBI-Stil umgewandelt.gtdb_proteins_aa_reps.tar.gz
extrahiert und einer Deduplizierungsrunde unterzogen. Die Deduplizierung reduziert die Redundanz in der DIAMOND-Datenbank und vereinfacht so den Alignment-Prozess. Exakte Duplikatsequenzen werden anhand einer Kombination aus der MD5-Summe der Proteinsequenzen und ihrer Länge identifiziert. Es wird nur eine repräsentative Sequenz beibehalten, wobei alle Duplikate im Fasta-Header codiert sind. Diese Informationen werden später von CAT_pack prepare
verwendet, um die LCA der Proteinsequenz in der Datei .fastaid2LCAtaxid
entsprechend zuzuordnen.root
verkettet, um eine all.tree
Datei zu erstellen. Diese Datei wird vom CAT-Paket nicht verwendet, kann aber für nachgelagerte Analysen nützlich sein. Wenn der Download und die Verarbeitung der Dateien erfolgreich abgeschlossen sind, können Sie mit CAT_pack prepare
eine CAT-Pack-Datenbank erstellen.
Alle verfügbaren Befehlszeilenoptionen finden Sie unter
$ CAT_pack download -h
Und
$ CAT_pack prepare -h
Für eine benutzerdefinierte CAT-Pack-Datenbank müssen Sie die folgende Eingabe bereithalten, bevor Sie einen CAT_pack prepare
starten.
Eine Fasta-Datei mit allen Proteinsequenzen, die Sie in Ihre Datenbank aufnehmen möchten.
Eine Datei names.dmp
, die Zuordnungen von Taxiden zu ihren Rängen und wissenschaftlichen Namen enthält. Das Format muss mit dem NCBI-Standard names.dmp
übereinstimmen (verwendet t|t
als Feldtrennzeichen).
Ein Beispiel sieht so aus:
1 | root | scientific name |
2 | Bacteria | scientific name |
562 | Escherichia coli | scientific name |
nodes.dmp
Datei, die die untergeordnete/übergeordnete Beziehung der Knoten im Taxonomiebaum und ihren (offiziellen) Rang beschreibt. Das Format muss mit dem NCBI-Standard nodes.dmp
übereinstimmen (verwendet t|t
als Feldtrennzeichen).Ein Beispiel sieht so aus:
1 | 1 | root |
2 | 1 | superkingdom |
1224 | 2 | phylum |
1236 | 1224 | class |
91437 | 1236 | order |
543 | 91347 | family |
561 | 543 | genus |
562 | 561 | species |
Weitere Informationen zu den Dateien nodes.dmp
und names.dmp
finden Sie in der Datei „NCBI taxdump_readme.txt“.
accession.version taxid
enthalten.Ein Beispiel sieht so aus
accession.version taxid
protein_1 562
protein_2 123456
Sobald alle oben genannten Anforderungen erfüllt sind, können Sie CAT_pack prepare
ausführen. Damit CAT_pack prepare
funktioniert, müssen alle Eingaben explizit angegeben werden, zum Beispiel:
$ CAT_pack prepare
--db_fasta path/to/fasta
--names path/to/names.dmp
--nodes path/to/nodes.dmp
--acc2tax path/to/acc2taxid.txt.gz
--db_dir path/to/output_dir
erstellt ein output_dir
, das so aussieht
output_dir
├── 2023-11-05_CAT_pack.log
├── db
│ ├── 2023-11-05_CAT_pack.dmnd
│ ├── 2023-11-05_CAT_pack.fastaid2LCAtaxid
│ └── 2023-11-05_CAT_pack.taxids_with_multiple_offspring
└── tax
├── names.dmp
└── nodes.dmp
Hinweise:
db
und tax
erstellt, die alle notwendigen Dateien enthalten.nodes.dmp
und names.dmp
im tax
werden von ihrem ursprünglichen Speicherort kopiert. Dadurch soll sichergestellt werden, dass das Flag -t
von CAT, BAT und RAT funktioniert.<YYYY-MM-DD>_CAT_pack
. Sie können es mit der Option --common_prefix
anpassen.Alle verfügbaren Befehlszeilenoptionen finden Sie unter
$ CAT_pack prepare -h
Die Datenbankdateien werden in nachfolgenden CAT/BAT/RAT-Läufen benötigt. Sie müssen nur einmal oder wann immer Sie die Datenbank aktualisieren möchten generiert/heruntergeladen werden.
So führen Sie jeweils CAT/BAT/RAT aus:
$ CAT_pack contigs # Runs CAT.
$ CAT_pack bins # Runs BAT.
$ CAT_pack reads # Runs RAT.
Wenn Sie nicht sicher sind, welche Optionen ein Programm hat, können Sie jederzeit --help
zu einem Befehl hinzufügen. Dies ist eine großartige Möglichkeit, Ihnen den Einstieg in CAT, BAT oder RAT zu erleichtern.
$ CAT_pack --help
$ CAT_pack contigs --help
$ CAT_pack summarise --help
Wenn Sie sich nicht sicher sind, welche Eingabedateien erforderlich sind, können Sie einfach CAT/BAT/RAT ausführen, da bei falscher Formatierung die entsprechenden Fehlermeldungen generiert werden.
Nachdem Sie die Datenbankdateien auf Ihrem System haben, können Sie CAT ausführen, um Ihren Contig-Satz mit Anmerkungen zu versehen:
$ CAT_pack contigs -c {contigs fasta} -d {database folder} -t {taxonomy folder}
Es werden mehrere Ausgabedateien und eine Protokolldatei generiert. Die endgültigen Klassifizierungsdateien heißen out.CAT.ORF2LCA.txt
und out.CAT.contig2classification.txt
.
Alternativ können Sie, wenn Sie bereits über eine Fasta-Datei mit vorhergesagten Proteinen und/oder eine Alignment-Tabelle beispielsweise aus früheren Läufen verfügen, diese an CAT senden, das dann die bereits durchgeführten Schritte überspringt und von dort aus beginnt:
$ CAT_pack contigs -c {contigs fasta} -d {database folder} -t {taxonomy folder} -p {predicted proteins fasta} -a {alignment file}
Die Header in der Fasta-Datei für vorhergesagte Proteine müssen wie folgt aussehen >{contig}_{ORFnumber}
, damit CAT Contigs an ORFs koppeln kann. Die Alignment-Datei muss durch Tabulatoren getrennt sein, mit dem abgefragten ORF in der ersten Spalte, der Proteinzugangsnummer in der zweiten und dem Bit-Score in der 12. Spalte.
So führen Sie BAT auf einer Reihe von MAGs aus:
$ CAT_pack bins -b {bin folder} -d {database folder} -t {taxonomy folder}
Alternativ kann BAT auf einem einzelnen MAG ausgeführt werden:
$ CAT_pack bins -b {bin fasta} -d {database folder} -t {taxonomy folder}
Es werden mehrere Ausgabedateien und eine Protokolldatei generiert. Die endgültigen Klassifizierungsdateien heißen out.BAT.ORF2LCA.txt
und out.BAT.bin2classification.txt
.
Ähnlich wie bei CAT kann BAT aus Zwischenschritten ausgeführt werden, wenn die Genvorhersage und das Alignment bereits einmal durchgeführt wurden:
$ CAT_pack bins -b {bin folder} -d {database folder} -t {taxonomy folder} -p {predicted proteins fasta} -a {alignment file}
Wenn Sie zuvor CAT für die Gruppe von Contigs ausgeführt haben, aus denen die MAGs stammen, können Sie die zuvor vorhergesagten Protein- und Alignment-Dateien verwenden, um die MAGs zu klassifizieren.
$ CAT_pack contigs -c {contigs fasta} -d {database folder} -t {taxonomy folder}
$ CAT_pack bins -b {bin folder} -d {database folder} -t {taxonomy folder} -p {predicted proteins fasta from contig run} -a {alignment file from contig run}
Dies ist eine großartige Möglichkeit, sowohl CAT als auch BAT auf einer Reihe von MAGs auszuführen, ohne die Proteinvorhersage und -ausrichtung zweimal durchführen zu müssen!
Die ORF2LCA-Ausgabe sieht folgendermaßen aus:
ORF | Anzahl der Treffer (r: 10) | Abstammung | Bit-Score |
---|---|---|---|
contig_1_ORF1 | 7 | 1;131567;2;1783272 | 574,7 |
Dabei ist die Abstammungslinie die vollständige taxonomische Abstammungslinie der Klassifikation des ORF und der Bit-Score der Top-Hit-Bit-Score, der dem ORF zur Abstimmung zugewiesen wird. Die BAT ORF2LCA-Ausgabedatei verfügt über eine zusätzliche Spalte, in der ORFs mit dem MAG verknüpft sind, in dem sie gefunden werden.
Die Ausgabe von contig2classification und bin2classification sieht folgendermaßen aus:
contig oder bin | Einstufung | Grund | Abstammung | Abstammungswerte (f: 0,3) |
---|---|---|---|---|
contig_1 | Taxid zugewiesen | basierend auf 14/15 ORFs | 1;131567;2;1783272 | 1,00; 1,00; 1,00; 0,78 |
contig_2 | Taxid zugewiesen (1/2) | basierend auf 10/10 ORFs | 1;131567;2;1783272;17id98711;1117;307596;307595;1890422;33071;1416614;1183438* | 1,00;1,00;1,00;1,00;1,00;1,00;1,00;1,00;1,00;1,00;0,23;0,23 |
contig_2 | Taxid zugewiesen (2/2) | basierend auf 10/10 ORFs | 1;131567;2;1783272;1798711;1117;307596;307595;1890422;33071;33072 | 1,00;1,00;1,00;1,00;1,00;1,00;1,00;1,00;1,00;1,00;0,77 |
contig_3 | kein Taxi zugewiesen | keine ORFs gefunden |
Dabei stellen die Abstammungswerte den Anteil der Bit-Score-Unterstützung für jede Klassifizierung dar. contig_2 hat zwei Klassifizierungen. Dies kann passieren, wenn der f- Parameter unter 0,5 gewählt wird. Eine Erläuterung der Sternklassifizierung finden Sie unter Markieren suggestiver taxonomischer Zuordnungen mit einem Sternchen.
Führen Sie Folgendes aus, um den Taxids in einer der Ausgabedateien Namen hinzuzufügen:
$ CAT_pack add_names -i {ORF2LCA / classification file} -o {output file} -t {taxonomy folder}
Dies zeigt Ihnen, dass beispielsweise contig_1 als Terrabacteria-Gruppe klassifiziert ist. Um nur den offiziellen Rang zu erhalten ( z. B. Superkönigreich, Stamm, ...):
$ CAT_pack add_names -i {ORF2LCA / classification file} -o {output file} -t {taxonomy folder} --only_official
Oder alternativ:
$ CAT_pack add_names -i {ORF2LCA / classification file} -o {output file} -t {taxonomy folder} --only_official --exclude_scores
Wenn Sie eine CAT- oder BAT-Klassifizierungsdatei mit offiziellen Namen benannt haben, können Sie eine Zusammenfassung der Klassifizierung erhalten, wobei die Gesamtlänge und die Anzahl der ORFs, die ein Taxon unterstützen, für Contigs berechnet werden und die Anzahl der MAGs pro angetroffenem Taxon für die MAG-Klassifizierung:
$ CAT_pack summarise -c {contigs fasta} -i {named CAT classification file} -o {output file}
$ CAT_pack summarise -i {named BAT classification file} -o {output file}
CAT_pack summarise
unterstützt derzeit keine Klassifizierungsdateien, in denen einige Contigs/MAGs mehrere Klassifizierungen haben (wie oben Contig_2).
Wenn wir sicher bis zur niedrigstmöglichen taxonomischen Ebene für eine Klassifikation vordringen wollen, ist eine wichtige Annahme, dass es auf dieser Ebene zu Konflikten zwischen Klassifikationen gekommen sein könnte. Wenn es nämlich widersprüchliche Klassifizierungen gäbe, hätte der Algorithmus die Klassifizierung konservativer gestaltet, indem er eine Ebene nach oben verschoben hätte. Da dies nicht der Fall ist, können wir der Klassifizierung auf niedriger Ebene vertrauen. Allerdings kann es nicht immer zu Konflikten kommen, da in manchen Fällen keine anderen Sequenzen aus der Gruppe in der Datenbank vorhanden sind. Dies gilt beispielsweise für die Familie Dehalococcoidaceae, die in unseren Datenbanken der einzige Vertreter der Ordnung Dehalococcoidaes ist. Daher können wir hier nicht mit Sicherheit sagen, dass eine Klassifizierung auf der Familienebene korrekter ist als eine Klassifizierung auf der Ordnungsebene. In diesen Fällen kennzeichnen CAT und BAT die Abstammungslinie mit Sternchen, beginnend bei der Klassifizierung auf der niedrigsten Ebene bis zu der Ebene, auf der ein Konflikt hätte entstehen können, da die Gruppe mehrere Taxa mit Datenbankeinträgen enthält. Dem Benutzer wird empfohlen, markierte Taxa sorgfältiger zu untersuchen, beispielsweise durch Analyse der Sequenzidentität zwischen vorhergesagten ORFs und Treffern, oder die Abstammungslinie zu einer sicheren Klassifizierung (dh der ersten Klassifizierung ohne Sternchen) nach oben zu verschieben.
Wenn Sie die Sternchen nicht in Ihren Ausgabedateien haben möchten, können Sie das Flag --no_stars
zu CAT oder BAT hinzufügen.
Die Ausführung von CAT und BAT kann eine Weile dauern und möglicherweise viel RAM und Speicherplatz beanspruchen. Je nachdem, was Ihnen am meisten am Herzen liegt, können Sie CAT und BAT optimieren, um einen zu maximieren und andere zu minimieren. Der Klassifizierungsalgorithmus selbst ist schnell und schont den Speicher und den Speicherplatz. Der teuerste Schritt ist die Ausrichtung mit DIAMOND, daher hat die Optimierung der Ausrichtungsparameter den größten Einfluss:
-n / --nproc
können Sie die Anzahl der bereitzustellenden Kerne auswählen.--sensitive
können Sie DIAMOND im sensiblen Modus ausführen. Dadurch wird die Empfindlichkeit erhöht, die Ausrichtung wird jedoch erheblich langsamer.--block_size
auf einen niedrigeren Wert setzen, verringert sich die Speicher- und temporäre Speicherplatznutzung. Wenn Sie den Wert höher einstellen, erhöht sich die Leistung.--index_chunks
auf 1 zu setzen (derzeit die Standardeinstellung). Dieser Parameter hat keine Auswirkung auf die temporäre Speicherplatznutzung.--tmpdir
angeben.So erhalten Sie Hilfe zum Ausführen des Prepare-Dienstprogramms:
$ CAT_pack prepare --help
Führen Sie CAT auf einem Contig-Set mit Standardparametereinstellungen aus und stellen Sie 16 Kerne für die DIAMOND-Ausrichtung bereit. Benennen Sie die Contig-Klassifizierungsausgabe mit offiziellen Namen und erstellen Sie eine Zusammenfassung:
$ CAT_pack contigs -c contigs.fasta -d db/ -t tax/ -n 16 --out_prefix first_CAT_run
$ CAT_pack add_names -i first_CAT_run.contig2classification.txt -o first_CAT_run.contig2classification.official_names.txt -t tax/ --only_official
$ CAT_pack summarise -c contigs.fasta -i first_CAT_run.contig2classification.official_names.txt -o CAT_first_run.summary.txt
Führen Sie BAT für den Satz von MAGs aus, der aus diesen Contigs gruppiert wurde, und verwenden Sie dabei die Proteinvorhersagen und die DIAMOND-Alignment-Datei, die zuvor während der Contig-Klassifizierung generiert wurden, wieder:
$ CAT_pack bins -b bins/ -d db/ -t tax/ -p first_CAT_run.predicted_proteins.faa -a first_CAT_run.alignment.diamond -o first_BAT_run
Führen Sie den Contig-Klassifizierungsalgorithmus erneut mit benutzerdefinierten Parametereinstellungen aus und benennen Sie die Ausgabe mit allen Namen in der Abstammung, mit Ausnahme der Bewertungen:
$ CAT_pack contigs --range 5 --fraction 0.1 -c contigs.fasta -d db/ -t tax/ -p first_CAT_run.predicted_proteins.faa -a first_CAT_run.alignment.diamond -o second_CAT_run
$ CAT_pack add_names -i second_CAT_run.contig2classification.txt -o second_CAT_run.contig2classification.names.txt -t tax/ --exclude_scores
Führen Sie BAT für den MAG-Satz mit benutzerdefinierten Parametereinstellungen aus, unterdrücken Sie die Ausführlichkeit und schreiben Sie keine Protokolldatei. Fügen Sie als Nächstes Namen zur ORF2LCA-Ausgabedatei hinzu:
$ CAT_pack bins -r 3 -f 0.1 -b bins/ -s .fa -d db/ -t tax/ -p first_CAT_run.predicted_proteins.faa -a first_CAT_run.alignment.diamond --o second_BAT_run --quiet --no_log
$ CAT_pack add_names -i second_BAT_run.ORF2LCA.txt -o second_BAT_run.ORF2LCA.names.txt -t tax/
Wir verwenden häufig die Kombination von CAT/BAT, um mögliche Kontaminationen innerhalb eines MAG zu untersuchen.
$ CAT_pack contigs -c ../bins/interesting_MAG.fasta -d db/ -t tax/ -o CAT.interesting_MAG
$ CAT_pack bins -b ../bins/interesting_MAG.fasta -d db/ -t tax/ -p CAT.interesting_MAG.predicted_proteins.faa -a CAT.interesting_MAG.alignment.diamond -o BAT.interesting_MAG
Bei Contigs, die ein anderes taxonomisches Signal als die MAG-Klassifizierung aufweisen, handelt es sich wahrscheinlich um Kontaminationen.
Alternativ können Sie die Kontamination aus der MAG-Perspektive betrachten, indem Sie den f- Parameter auf einen niedrigen Wert einstellen:
$ CAT_pack bins -f 0.01 -b ../bins/interesting_MAG.fasta -d db/ -t tax/ -o BAT.interesting_MAG
$ CAT_pack add_names -i BAT.interesting_MAG.bin2classification.txt -o BAT.interesting_MAG.bin2classification.names.txt -t tax/
BAT gibt jedes taxonomische Signal mit mindestens 1 % Unterstützung aus. Abweichende Signale mit geringer Bewertung sind ein klares Anzeichen für eine Kontamination!
RAT schätzt die taxonomische Zusammensetzung von Metagenomen durch die Integration taxonomischer Signale von MAGs, Contigs und Reads. RAT wurde ab Version 6.0 zum CAT-Paket hinzugefügt. Um RAT verwenden zu können, benötigen Sie die Datenbankdateien des CAT-Pakets (weitere Informationen finden Sie unter „Erste Schritte“).
RAT erstellt ein integriertes Profil mithilfe von MAGs/Bins, Contigs und Reads. Um anzugeben, welche Elemente integriert werden sollen, verwenden Sie das Argument --mode
. Mögliche Buchstaben für --mode
sind m
(für MAGs), c
(für Contigs) und r
(für Lesevorgänge). Alle Kombinationen der drei Buchstaben sind möglich, außer r
allein. Um den gesamten RAT-Workflow auszuführen, geben Sie den Modus an, lesen Sie Dateien, Contig-Dateien, den Bin-Ordner und die Datenbankdateien:
$ CAT_pack reads --mode mcr -b bin_folder/ -c contigs.fasta -1 forward_reads.fq.gz -2 reverse_reads.fq.gz -d db/ -t tax/
Derzeit unterstützt RAT sowohl einzelne Lesedateien als auch Paired-End-Lesedateien. Interlaced-Lesedateien werden derzeit nicht unterstützt. RAT führt CAT und BAT für die Contigs und MAGs aus, ordnet die Lesevorgänge wieder den Contigs zu und versucht dann, alle nicht zugeordneten Lesevorgänge separat zu kommentieren. Wenn Sie bereits über eine sortierte Zuordnungsdatei verfügen, können Sie diese bereitstellen und RAT überspringt den Zuordnungsschritt:
$ CAT_pack reads --mode mcr -b bin_folder/ -c contigs.fasta --bam1 mapping_file_sorted.bam -1 forward_reads.fq.gz -2 reverse_reads.fq.gz -d db/ -t tax/
Wenn CAT und/oder BAT bereits für Ihre Daten ausgeführt wurden, können Sie die Ausgabedateien an RAT senden, um die CAT- und BAT-Läufe zu überspringen:
$ CAT_pack reads --mode mcr -b bin_folder/ -c contigs.fasta -1 forward_reads.fq.gz -2 reverse_reads.fq.gz -d db/ -t tax/ --c2c CAT_contig2classification_file.txt --b2c BAT_bin2classification_file.txt
Wenn ein früherer RAT-Lauf abstürzte, nachdem die nicht zugeordneten Lesevorgänge bereits mit Diamond an die Datenbank angepasst wurden, können Sie die Zwischendateien bereitstellen, um den Lauf fortzusetzen:
$ CAT_pack reads --mode mcr -b bin_folder/ -c contigs.fasta -1 forward_reads.fq.gz -2 reverse_reads.fq.gz -d db/ -t tax/ --c2c CAT_contig2classification_file.txt --b2c BAT_bin2classification_file.txt --alignment_unmapped unmapped_alignment_file.diamond
Nachdem ein RAT-Lauf abgeschlossen ist, können Sie add_names für die Fülle-Dateien ausführen (nur für RAT-Läufe mit nr-Datenbank):
$ CAT_pack add_names -i RAT.completete_abundance_file.txt -o RAT.completete_abundance_file_with_names.txt -t tax/
Ähnlich wie bei CAT und BAT können die Pfade zu allen Abhängigkeiten über ein Argument angegeben werden:
$ CAT_pack reads --mode mcr -b bin_folder/ -c contigs.fasta -1 forward_reads.fq.gz -2 reverse_reads.fq.gz -d db/ -t tax/ --path_to_samtools /path/to/samtools
Die RAT-Ausgabe besteht aus:
r
in --mode
).