Probieren Sie SeqKit in Ihrem Browser aus (Tutorials und Übungen bereitgestellt von sandbox.bio)
Dokumente: http://bioinf.shenwei.me/seqkit ( Nutzung , FAQs , Tutorial und Benchmark )
Quellcode: https://github.com/shenwei356/seqkit
Neueste Version:
Bitte zitieren: ,
Andere :
Einfach zu installieren (Download)
Bereitstellung statisch verknüpfter ausführbarer Binärdateien für mehrere Plattformen (Linux/Windows/macOS, amd64/arm64)
Leicht und sofort einsatzbereit, keine Abhängigkeiten, keine Kompilierung, keine Konfiguration
conda install -c bioconda seqkit
Einfach zu bedienen
Ultraschnell (siehe technische Details und Benchmark)
Nahtloses Parsen der Formate FASTA und FASTQ
Unterstützt ( gzip
/ xz
/ zstd
/ bzip2
komprimiert) STDIN/STDOUT und Eingabe-/Ausgabedatei, einfach in Pipe integriert
Reproduzierbare Ergebnisse (konfigurierbarer Rand-Seed in sample
und shuffle
)
Unterstützung benutzerdefinierter Sequenz-IDs über reguläre Ausdrücke
Unterstützt die automatische Vervollständigung von Bash/Zsh
Vielseitige Befehle (Verwendungen und Beispiele)
Praktische Funktionen unterstützt durch 38 Unterbefehle
Gehen Sie zur Download-Seite für weitere Download-Optionen und Änderungsprotokolle oder installieren Sie es über Conda:
conda install -c bioconda seqkit
Kategorie | Befehl | Funktion | Eingang | Strangempfindlichkeit | Multithreads |
---|---|---|---|---|---|
Grundlegende Bedienung | seq | Sequenzen transformieren: ID/Seq extrahieren, nach Länge/Qualität filtern, Lücken entfernen … | FASTA/Q | ||
Statistiken | Einfache Statistiken: #seqs, min/max_len, N50, Q20%, Q30%… | FASTA/Q | ✓ | ||
nachfolgend | Erhalten Sie Teilsequenzen nach Region/GTF/Bett, einschließlich flankierender Sequenzen | FASTA/Q | + oder/und - | ||
gleiten | Extrahieren Sie Teilsequenzen in Schiebefenstern | FASTA/Q | + nur | ||
faidx | Erstellen Sie die FASTA-Indexdatei und extrahieren Sie Teilsequenzen (mit mehr Funktionen als samtools faidx). | SCHNELL | + oder/und - | ||
übersetzen | DNA/RNA in Proteinsequenz übersetzen | FASTA/Q | + oder/und - | ||
betrachten | Überwachung und Online-Histogramme von Sequenzmerkmalen | FASTA/Q | |||
Kot | Verkettung und Streaming von FastX-Dateien in Echtzeit | FASTA/Q | ✓ | ||
Formatkonvertierung | fq2fa | Konvertieren Sie FASTQ in das FASTA-Format | FASTQ | ||
fx2tab | Konvertieren Sie FASTA/Q in das Tabellenformat | FASTA/Q | |||
fa2fq | Rufen Sie entsprechende FASTQ-Datensätze über eine FASTA-Datei ab | FASTA/Q | + nur | ||
tab2fx | Konvertieren Sie das Tabellenformat in das FASTA/Q-Format | TSV | |||
konvertieren | Konvertieren Sie die Kodierung in FASTQ-Qualität zwischen Sanger, Solexa und Illumina | FASTA/Q | |||
Suchen | grep | Suchsequenzen nach ID/Name/Sequenz/Sequenzmotiven, Nichtübereinstimmung zulässig | FASTA/Q | + und – | teilweise, -m |
lokalisieren | Suchen Sie Teilsequenzen/Motive, Abweichungen sind zulässig | FASTA/Q | + und – | teilweise, -m | |
Amplikon | Extrahieren Sie das Amplikon (oder eine bestimmte Region darum herum), Abweichungen sind zulässig | FASTA/Q | + und – | teilweise, -m | |
Fisch | Suchen Sie nach kurzen Sequenzen in größeren Sequenzen | FASTA/Q | + und – | ||
Betrieb einstellen | Probe | Probensequenzen nach Anzahl oder Anteil | FASTA/Q | ||
rmdup | Entfernen Sie doppelte Sequenzen nach ID/Name/Sequenz | FASTA/Q | + und – | ||
gemeinsam | Finden Sie gemeinsame Sequenzen mehrerer Dateien anhand von ID/Name/Sequenz | FASTA/Q | + und – | ||
Duplikat | Sequenzen N-mal duplizieren | FASTA/Q | |||
Teilt | Aufteilen von Sequenzen in Dateien nach ID/Seq-Region/Größe/Teilen (hauptsächlich für FASTA) | FASTA bevorzugt | |||
Split2 | Teilen Sie Sequenzen nach Größe/Teilen in Dateien auf (FASTA, PE/SE FASTQ) | FASTA/Q | |||
Kopf | Drucken Sie die ersten N FASTA/Q-Datensätze | FASTA/Q | |||
Kopfgenom | Drucken Sie Sequenzen des ersten Genoms mit gemeinsamen Präfixen im Namen | FASTA/Q | |||
Reichweite | FASTA/Q-Datensätze in einem Bereich drucken (Start:Ende) | FASTA/Q | |||
Paar | Patchen Sie Paired-End-Lesevorgänge aus zwei Fastq-Dateien | FASTA/Q | |||
Bearbeiten | ersetzen | Ersetzen Sie Name/Sequenz durch regulären Ausdruck | FASTA/Q | + nur | |
umbenennen | Benennen Sie doppelte IDs um | FASTA/Q | |||
Konkat | Verketten Sie Sequenzen mit derselben ID aus mehreren Dateien | FASTA/Q | + nur | ||
neu starten | Startposition für zirkuläres Genom zurücksetzen | FASTA/Q | + nur | ||
mutieren | Sequenz bearbeiten (Punktmutation, Insertion, Löschung) | FASTA/Q | + nur | ||
Sana | Bereinigen Sie defekte einzeilige FASTQ-Dateien | FASTQ | |||
Bestellung | Sortieren | Sortieren Sie Sequenzen nach ID/Name/Sequenz/Länge | FASTA bevorzugt | ||
Shuffle | Sequenzen mischen | FASTA bevorzugt | |||
BAM-Verarbeitung | Bäm | Überwachung und Online-Histogramme von BAM-Datensatzfunktionen | BAM | ||
Verschiedenes | Summe | Berechnen Sie den Nachrichtenauszug für alle Sequenzen in FASTA/Q-Dateien | FASTA/Q | ✓ | |
Folien zusammenführen | Schiebefenster zusammenführen, die aus dem Seqkit-Schieben generiert wurden | TSV |
Hinweise:
Strangempfindlichkeit:
+ only
: nur Verarbeitung auf dem Plus-/Vorwärtsstrang.
+ and -
: Suche auf beiden Strängen.
+ or/and -
: hängt von den Flags/Optionen/Argumenten der Benutzer ab.
Mehrere Threads: Die Verwendung der standardmäßigen 4 Threads ist für die meisten Befehle schnell genug, einige Befehle können von zusätzlichen Threads profitieren.
Wei Shen*, Botond Sipos und Liuyang Zhao. 2024. SeqKit2: Ein Schweizer Taschenmesser für die Sequenz- und Ausrichtungsverarbeitung. iMeta e191. doi:10.1002/imt2.191.
Wei Shen, Shuai Le, Yan Li* und Fuquan Hu*. SeqKit: ein plattformübergreifendes und ultraschnelles Toolkit für die Bearbeitung von FASTA/Q-Dateien. PLUS EINS . doi:10.1371/journal.pone.0163962.
Wei Shen
Botond Sipos: bam
, scat
, fish
, sana
, watch
.
andere
Wir danken allen Nutzern für ihr wertvolles Feedback und ihre Anregungen. Wir danken allen Mitwirkenden für die Verbesserung des Codes und der Dokumentation.
Wir schätzen Klaus Post für seine fantastischen Pakete (compress und pgzip), die das Lesen und Schreiben von gzip-Dateien beschleunigen.
Erstellen Sie ein Problem, um Fehler zu melden, neue Funktionen vorzuschlagen oder um Hilfe zu bitten.
MIT-Lizenz