Experimente o SeqKit em seu navegador (tutoriais e exercícios fornecidos por sandbox.bio)
Documentos: http://bioinf.shenwei.me/seqkit ( uso , perguntas frequentes , tutorial e benchmark )
Código fonte: https://github.com/shenwei356/seqkit
Versão mais recente:
Cite: ,
Outros :
Fácil de instalar (baixar)
Fornecimento de binários executáveis vinculados estaticamente para múltiplas plataformas (Linux/Windows/macOS, amd64/arm64)
Leve e pronto para uso, sem dependências, sem compilação, sem configuração
conda install -c bioconda seqkit
Fácil de usar
Ultrarrápido (ver detalhes técnicos e benchmark)
Análise perfeita dos formatos FASTA e FASTQ
Suporta ( gzip
/ xz
/ zstd
/ bzip2
compactado) STDIN/STDOUT e arquivo de entrada/saída, facilmente integrado no pipe
Resultados reproduzíveis (semente rand configurável em sample
e shuffle
)
Suporte a ID de sequência personalizada por meio de expressão regular
Suporte ao preenchimento automático Bash/Zsh
Comandos versáteis (usos e exemplos)
Funções práticas suportadas por 38 subcomandos
Vá para a página de download para mais opções de download e changelogs ou instale via conda:
conda install -c bioconda seqkit
Categoria | Comando | Função | Entrada | Sensibilidade ao fio | Multithreads |
---|---|---|---|---|---|
Operação básica | sequência | Transforme sequências: extraia ID/seq, filtre por comprimento/qualidade, remova lacunas… | RÁPIDO/Q | ||
estatísticas | Estatísticas simples: #seqs, min/max_len, N50, Q20%, Q30%… | RÁPIDO/Q | ✓ | ||
subseqüente | Obtenha subsequências por região/gtf/cama, incluindo sequências de flanqueamento | RÁPIDO/Q | + ou/e - | ||
deslizando | Extraia subsequências em janelas deslizantes | RÁPIDO/Q | + apenas | ||
faidx | Crie o arquivo de índice FASTA e extraia subsequências (com mais recursos que samtools faidx) | RÁPIDO | + ou/e - | ||
traduzir | traduzir DNA/RNA em sequência de proteína | RÁPIDO/Q | + ou/e - | ||
assistir | Monitoramento e histogramas on-line de recursos de sequência | RÁPIDO/Q | |||
espalhar | Concatenação e streaming em tempo real de arquivos fastx | RÁPIDO/Q | ✓ | ||
Conversão de formato | fq2fa | Converter o formato FASTQ para FASTA | RÁPIDO | ||
fx2tab | Converter FASTA/Q para formato tabular | RÁPIDO/Q | |||
fa2fq | Recuperar registros FASTQ correspondentes por um arquivo FASTA | RÁPIDO/Q | + apenas | ||
tab2fx | Converter formato tabular para formato FASTA/Q | TVI | |||
converter | Converta codificação de qualidade FASTQ entre Sanger, Solexa e Illumina | RÁPIDO/Q | |||
Procurando | grep | Pesquisar sequências por ID/nome/sequência/motivos de sequência, incompatibilidade permitida | RÁPIDO/Q | + e - | parcialmente, -m |
localizar | Localize subsequências/motivos, incompatibilidade permitida | FASTA/Q | + e - | parcialmente, -m | |
amplicon | Extraia o amplicon (ou região específica ao seu redor), incompatibilidade permitida | RÁPIDO/Q | + e - | parcialmente, -m | |
peixe | Procure sequências curtas em sequências maiores | RÁPIDO/Q | + e - | ||
Definir operação | amostra | Amostra de sequências por número ou proporção | RÁPIDO/Q | ||
rmdup | Remover sequências duplicadas por ID/nome/sequência | RÁPIDO/Q | + e - | ||
comum | Encontre sequências comuns de vários arquivos por id/nome/sequência | RÁPIDO/Q | + e - | ||
duplicado | Sequências duplicadas N vezes | RÁPIDO/Q | |||
dividir | Dividir sequências em arquivos por id/seq região/tamanho/partes (principalmente para FASTA) | FASTA preferido | |||
divisão2 | Dividir sequências em arquivos por tamanho/partes (FASTA, PE/SE FASTQ) | RÁPIDO/Q | |||
cabeça | Imprimir os primeiros registros N FASTA/Q | RÁPIDO/Q | |||
genoma da cabeça | Imprimir sequências do primeiro genoma com prefixos comuns no nome | RÁPIDO/Q | |||
faixa | Imprimir registros FASTA/Q em um intervalo (início:fim) | RÁPIDO/Q | |||
par | Corrigir leituras emparelhadas de dois arquivos fastq | RÁPIDO/Q | |||
Editar | substituir | Substitua nome/sequência por expressão regular | RÁPIDO/Q | + apenas | |
renomear | Renomear IDs duplicados | RÁPIDO/Q | |||
concat | Concatenar sequências com o mesmo ID de vários arquivos | FASTA/Q | + apenas | ||
reiniciar | Redefinir posição inicial para genoma circular | RÁPIDO/Q | + apenas | ||
sofrer mutação | Editar sequência (mutação pontual, inserção, exclusão) | RÁPIDO/Q | + apenas | ||
Sana | Limpe arquivos FASTQ de linha única quebrados | RÁPIDO | |||
Pedido | organizar | Classifique as sequências por id/nome/sequência/comprimento | FASTA preferido | ||
embaralhar | Sequências aleatórias | FASTA preferido | |||
Processamento BAM | bam | Monitoramento e histogramas online de recursos de registro BAM | BAM | ||
Variado | soma | Calcular o resumo da mensagem para todas as sequências em arquivos FASTA/Q | RÁPIDO/Q | ✓ | |
mesclar slides | Mesclar janelas deslizantes geradas a partir do deslizamento do seqkit | TVI |
Notas:
Sensibilidade ao fio:
+ only
: somente processamento na vertente positiva/direta.
+ and -
: pesquisa em ambas as vertentes.
+ or/and -
: depende dos sinalizadores/opções/argumentos dos usuários.
Threads múltiplos: Usar os 4 threads padrão é rápido o suficiente para a maioria dos comandos, alguns comandos podem se beneficiar de threads extras.
Wei Shen*, Botond Sipos e Liuyang Zhao. 2024. SeqKit2: Um canivete suíço para processamento de sequência e alinhamento. iMeta e191. doi:10.1002/imt2.191.
Wei Shen, Shuai Le, Yan Li* e Fuquan Hu*. SeqKit: um kit de ferramentas multiplataforma e ultrarrápido para manipulação de arquivos FASTA/Q. PLOS UM . doi:10.1371/journal.pone.0163962.
Wei Shen
Botond Sipos: bam
, scat
, fish
, sana
, watch
.
outros
Agradecemos a todos os usuários por seus valiosos comentários e sugestões. Agradecemos a todos os colaboradores por melhorar o código e a documentação.
Agradecemos Klaus Post por seus fantásticos pacotes (comprimir e pgzip) que aceleram a leitura e gravação de arquivos gzip.
Crie um problema para reportar bugs, propor novas funções ou pedir ajuda.
Licença MIT