Pruebe SeqKit en su navegador (tutoriales y ejercicios proporcionados por sandbox.bio)
Documentos: http://bioinf.shenwei.me/seqkit ( Uso , Preguntas frecuentes , Tutorial y Punto de referencia )
Código fuente: https://github.com/shenwei356/seqkit
Última versión:
Por favor cite: ,
Otros :
Fácil de instalar (descargar)
Proporcionar binarios ejecutables vinculados estáticamente para múltiples plataformas (Linux/Windows/macOS, amd64/arm64)
Ligero y listo para usar, sin dependencias, sin compilación, sin configuración
conda install -c bioconda seqkit
Fácil de usar
Ultrarrápido (ver detalles técnicos y benchmark)
Analizando sin problemas los formatos FASTA y FASTQ
Admite archivos STDIN/STDOUT y de entrada/salida ( gzip
/ xz
/ zstd
/ bzip2
comprimidos), fácilmente integrados en la tubería
Resultados reproducibles (semilla de rand configurable en sample
y shuffle
)
Admite ID de secuencia personalizada mediante expresión regular
Compatible con el autocompletado de Bash/Zsh
Comandos versátiles (usos y ejemplos)
Funciones prácticas respaldadas por 38 subcomandos
Vaya a la página de descargas para obtener más opciones de descarga y registros de cambios, o instálelo a través de conda:
conda install -c bioconda seqkit
Categoría | Dominio | Función | Aporte | Sensibilidad a las hebras | Hilos múltiples |
---|---|---|---|---|---|
Operación básica | secuencia | Transformar secuencias: extraer ID/secuencia, filtrar por longitud/calidad, eliminar espacios... | FASTA/Q | ||
estadísticas | Estadísticas simples: #seqs, min/max_len, N50, Q20%, Q30%… | FASTA/Q | ✓ | ||
subsiguiente | Obtener subsecuencias por región/gtf/bed, incluidas las secuencias flanqueantes | FASTA/Q | + o/y - | ||
corredizo | Extraer subsecuencias en ventanas correderas. | FASTA/Q | + solo | ||
faidx | Cree el archivo de índice FASTA y extraiga subsecuencias (con más funciones que samtools faidx) | FASTA | + o/y - | ||
traducir | traducir ADN/ARN a secuencia de proteínas | FASTA/Q | + o/y - | ||
mirar | Monitoreo e histogramas en línea de características de secuencia. | FASTA/Q | |||
largarse | Concatenación y transmisión en tiempo real de archivos fastx | FASTA/Q | ✓ | ||
Conversión de formato | fq2fa | Convertir formato FASTQ a FASTA | RÁPIDO | ||
fx2tab | Convertir FASTA/Q a formato tabular | FASTA/Q | |||
fa2fq | Recuperar registros FASTQ correspondientes mediante un archivo FASTA | FASTA/Q | + solo | ||
tab2fx | Convertir formato tabular a formato FASTA/Q | TSV | |||
convertir | Convierta codificación de calidad FASTQ entre Sanger, Solexa e Illumina | FASTA/Q | |||
Búsqueda | grep | Buscar secuencias por ID/nombre/secuencia/motivos de secuencia, se permite discrepancia | FASTA/Q | + y - | en parte, -m |
localizar | Localizar subsecuencias/motivos, se permite discrepancia | FASTA/Q | + y - | en parte, -m | |
amplicón | Extraer amplicón (o región específica a su alrededor), se permite discrepancia | FASTA/Q | + y - | en parte, -m | |
pez | Busque secuencias cortas en secuencias más grandes. | FASTA/Q | + y - | ||
Establecer operación | muestra | Secuencias de muestra por número o proporción. | FASTA/Q | ||
rmdup | Eliminar secuencias duplicadas por ID/nombre/secuencia | FASTA/Q | + y - | ||
común | Encuentre secuencias comunes de múltiples archivos por id/nombre/secuencia | FASTA/Q | + y - | ||
duplicado | Secuencias duplicadas N veces | FASTA/Q | |||
dividir | Dividir secuencias en archivos por id/región de secuencia/tamaño/partes (principalmente para FASTA) | FASTA preferido | |||
dividir2 | Dividir secuencias en archivos por tamaño/partes (FASTA, PE/SE FASTQ) | FASTA/Q | |||
cabeza | Imprima los primeros N registros FASTA/Q | FASTA/Q | |||
genoma de la cabeza | Imprime secuencias del primer genoma con prefijos comunes en el nombre. | FASTA/Q | |||
rango | Imprimir registros FASTA/Q en un rango (inicio:fin) | FASTA/Q | |||
par | Parchear lecturas de extremos emparejados de dos archivos fastq | FASTA/Q | |||
Editar | reemplazar | Reemplazar nombre/secuencia por expresión regular | FASTA/Q | + solo | |
rebautizar | Cambiar el nombre de las identificaciones duplicadas | FASTA/Q | |||
concat | Concatenar secuencias con el mismo ID de múltiples archivos | FASTA/Q | + solo | ||
Reanudar | Restablecer la posición inicial del genoma circular | FASTA/Q | + solo | ||
mudar | Editar secuencia (mutación puntual, inserción, eliminación) | FASTA/Q | + solo | ||
sano | Desinfectar archivos FASTQ de una sola línea rotos | RÁPIDO | |||
Realizar pedidos | clasificar | Ordenar secuencias por id/nombre/secuencia/longitud | FASTA preferido | ||
barajar | Secuencias aleatorias | FASTA preferido | |||
Procesamiento BAM | bam | Monitoreo e histogramas en línea de características de registros BAM | bam | ||
Misceláneas | suma | Calcular el resumen de mensajes para todas las secuencias en archivos FASTA/Q | FASTA/Q | ✓ | |
fusionar diapositivas | Fusionar ventanas correderas generadas a partir del deslizamiento seqkit | TSV |
Notas:
Sensibilidad al hilo:
+ only
: solo procesamiento en el hilo positivo/adelante.
+ and -
: búsqueda en ambos hilos.
+ or/and -
: depende de las banderas/opciones/argumentos de los usuarios.
Subprocesos múltiples: usar los 4 subprocesos predeterminados es lo suficientemente rápido para la mayoría de los comandos, algunos comandos pueden beneficiarse de subprocesos adicionales.
Wei Shen*, Botond Sipos y Liuyang Zhao. 2024. SeqKit2: una navaja suiza para el procesamiento de secuencias y alineación. iMeta e191. doi:10.1002/imt2.191.
Wei Shen, Shuai Le, Yan Li* y Fuquan Hu*. SeqKit: un conjunto de herramientas ultrarrápido y multiplataforma para la manipulación de archivos FASTA/Q. MÁS UNO . doi:10.1371/journal.pone.0163962.
wei shen
Botond Sipos: bam
, scat
, fish
, sana
, watch
.
otros
Agradecemos a todos los usuarios por sus valiosos comentarios y sugerencias. Agradecemos a todos los contribuyentes por mejorar el código y la documentación.
Agradecemos a Klaus Post por sus fantásticos paquetes (compress y pgzip) que aceleran la lectura y escritura de archivos gzip.
Cree un problema para informar errores, proponer nuevas funciones o pedir ayuda.
Licencia MIT