Essayez SeqKit dans votre navigateur (Tutoriels et exercices fournis par sandbox.bio)
Documents : http://bioinf.shenwei.me/seqkit ( Utilisation , FAQ , Tutoriel et Benchmark )
Code source : https://github.com/shenwei356/seqkit
Dernière version :
Veuillez citer : ,
Autres :
Facile à installer (télécharger)
Fournir des binaires exécutables liés statiquement pour plusieurs plates-formes (Linux/Windows/macOS, amd64/arm64)
Léger et prêt à l'emploi, pas de dépendances, pas de compilation, pas de configuration
conda install -c bioconda seqkit
Facile à utiliser
Ultrarapide (voir détails techniques et benchmark)
Analyse transparente des formats FASTA et FASTQ
Prise en charge ( gzip
/ xz
/ zstd
/ bzip2
compressé) STDIN/STDOUT et fichier d'entrée/sortie, facilement intégré dans le tube
Résultats reproductibles (graine de rand configurable dans sample
et shuffle
)
Prise en charge de l'ID de séquence personnalisé via une expression régulière
Prise en charge de la saisie semi-automatique Bash/Zsh
Commandes polyvalentes (utilisations et exemples)
Fonctions pratiques prises en charge par 38 sous-commandes
Accédez à la page de téléchargement pour plus d'options de téléchargement et de journaux de modifications, ou installez via conda :
conda install -c bioconda seqkit
Catégorie | Commande | Fonction | Saisir | Sensibilité des brins | Multi-threads |
---|---|---|---|---|---|
Fonctionnement de base | séquence | Transformer des séquences : extraire l'ID/seq, filtrer par longueur/qualité, supprimer les lacunes… | FASTA/Q | ||
statistiques | Statistiques simples : #seqs, min/max_len, N50, Q20%, Q30%… | FASTA/Q | ✓ | ||
suite | Obtenez les sous-séquences par région/gtf/lit, y compris les séquences flanquantes | FASTA/Q | + ou/et - | ||
glissement | Extraire des sous-séquences dans des fenêtres glissantes | FASTA/Q | + seulement | ||
faidx | Créez le fichier d'index FASTA et extrayez les sous-séquences (avec plus de fonctionnalités que samtools faidx) | RAPIDE | + ou/et - | ||
traduire | traduire l'ADN/ARN en séquence protéique | FASTA/Q | + ou/et - | ||
montre | Surveillance et histogrammes en ligne des caractéristiques de la séquence | FASTA/Q | |||
scat | Concaténation et streaming en temps réel de fichiers fastx | FASTA/Q | ✓ | ||
Conversion de formats | fq2fa | Convertir FASTQ au format FASTA | FASTQ | ||
fx2tab | Convertir FASTA/Q au format tabulaire | FASTA/Q | |||
fa2fq | Récupérer les enregistrements FASTQ correspondants par un fichier FASTA | FASTA/Q | + seulement | ||
tab2fx | Convertir le format tabulaire au format FASTA/Q | TSV | |||
convertir | Convertir l'encodage de qualité FASTQ entre Sanger, Solexa et Illumina | FASTA/Q | |||
Recherche | grep | Rechercher des séquences par ID/nom/séquence/motifs de séquence, non-concordance autorisée | FASTA/Q | + et - | en partie, -m |
situer | Localiser les sous-séquences/motifs, non-concordance autorisée | FASTA/Q | + et - | en partie, -m | |
amplicon | Extraire l'amplicon (ou une région spécifique autour de celui-ci), mésappariement autorisé | FASTA/Q | + et - | en partie, -m | |
poisson | Recherchez des séquences courtes dans des séquences plus grandes | FASTA/Q | + et - | ||
Définir l'opération | échantillon | Échantillonner des séquences par nombre ou proportion | FASTA/Q | ||
rmdup | Supprimer les séquences dupliquées par ID/nom/séquence | FASTA/Q | + et - | ||
commun | Rechercher des séquences communes de plusieurs fichiers par identifiant/nom/séquence | FASTA/Q | + et - | ||
double | Séquences dupliquées N fois | FASTA/Q | |||
diviser | Diviser les séquences en fichiers par id/seq région/taille/parties (principalement pour FASTA) | FASTA préféré | |||
divisé2 | Diviser les séquences en fichiers par taille/parties (FASTA, PE/SE FASTQ) | FASTA/Q | |||
tête | Imprimer les premiers enregistrements N FASTA/Q | FASTA/Q | |||
génome-tête | Imprimer les séquences du premier génome avec les préfixes communs dans le nom | FASTA/Q | |||
gamme | Imprimer les enregistrements FASTA/Q dans une plage (début: fin) | FASTA/Q | |||
paire | Corrigez les lectures appariées à partir de deux fichiers fastq | FASTA/Q | |||
Modifier | remplacer | Remplacer le nom/séquence par une expression régulière | FASTA/Q | + seulement | |
rebaptiser | Renommer les identifiants en double | FASTA/Q | |||
concaténer | Concaténer des séquences avec le même ID à partir de plusieurs fichiers | FASTA/Q | + seulement | ||
redémarrage | Réinitialiser la position de départ du génome circulaire | FASTA/Q | + seulement | ||
subir une mutation | Séquence d'édition (mutation ponctuelle, insertion, suppression) | FASTA/Q | + seulement | ||
Sana | Désinfecter les fichiers FASTQ à une seule ligne brisée | FASTQ | |||
Commande | trier | Trier les séquences par identifiant/nom/séquence/longueur | FASTA préféré | ||
mélanger | Mélanger les séquences | FASTA préféré | |||
Traitement BAM | paf | Surveillance et histogrammes en ligne des fonctionnalités d'enregistrement BAM | BAM | ||
Divers | somme | Calculer le résumé des messages pour toutes les séquences dans les fichiers FASTA/Q | FASTA/Q | ✓ | |
fusionner des diapositives | Fusionner les fenêtres coulissantes générées à partir du glissement seqkit | TSV |
Remarques :
Sensibilité des brins :
+ only
: traitement uniquement sur le brin positif/aller.
+ and -
: recherche sur les deux brins.
+ or/and -
: dépend des drapeaux/options/arguments des utilisateurs.
Plusieurs threads : l'utilisation des 4 threads par défaut est suffisamment rapide pour la plupart des commandes, certaines commandes peuvent bénéficier de threads supplémentaires.
Wei Shen*, Botond Sipos et Liuyang Zhao. 2024. SeqKit2 : un couteau suisse pour le traitement des séquences et des alignements. iMeta e191. est ce que je:10.1002/imt2.191.
Wei Shen, Shuai Le, Yan Li* et Fuquan Hu*. SeqKit : une boîte à outils multiplateforme et ultrarapide pour la manipulation de fichiers FASTA/Q. PLOS UN . est ce que je:10.1371/journal.pone.0163962.
Wei Shen
Botond Sipos : bam
, scat
, fish
, sana
, watch
.
autres
Nous remercions tous les utilisateurs pour leurs précieux commentaires et suggestions. Nous remercions tous les contributeurs pour avoir amélioré le code et la documentation.
Nous apprécions Klaus Post pour ses packages fantastiques ( compress et pgzip ) qui accélèrent la lecture et l'écriture des fichiers gzip.
Créez un ticket pour signaler des bugs, proposer de nouvelles fonctions ou demander de l'aide.
Licence MIT