在浏览器中尝试 SeqKit (教程和练习由 sandbox.bio 提供)
文档: http://bioinf.shenwei.me/seqkit(使用、常见问题解答、教程和基准)
源代码: https://github.com/shenwei356/seqkit
最新版本:
请引用: ,
其他的:
易于安装(下载)
为多个平台(Linux/Windows/macOS、amd64/arm64)提供静态链接的可执行二进制文件
轻量级、开箱即用、无依赖、无需编译、无需配置
conda install -c bioconda seqkit
便于使用
超快(参见技术细节和基准)
无缝解析 FASTA 和 FASTQ 格式
支持( gzip
/ xz
/ zstd
/ bzip2
压缩)STDIN/STDOUT和输入/输出文件,轻松集成在管道中
可重复的结果( sample
和shuffle
中的可配置 rand 种子)
支持通过正则表达式自定义序列ID
支持 Bash/Zsh 自动补全
多功能命令(用法和示例)
38个子命令支持的实用功能
转到下载页面以获取更多下载选项和更改日志,或通过 conda 安装:
conda install -c bioconda seqkit
类别 | 命令 | 功能 | 输入 | 链敏感性 | 多线程 |
---|---|---|---|---|---|
基本操作 | 序列 | 转换序列:提取 ID/seq、按长度/质量过滤、删除间隙…… | FASTA/Q | ||
统计数据 | 简单统计:#seqs、min/max_len、N50、Q20%、Q30%… | FASTA/Q | ✓ | ||
子序列 | 按region/gtf/bed获取子序列,包括侧翼序列 | FASTA/Q | +或/和- | ||
滑动 | 提取滑动窗口中的子序列 | FASTA/Q | + 仅 | ||
费德克斯 | 创建FASTA索引文件并提取子序列(比samtools faidx具有更多功能) | FASTA | +或/和- | ||
翻译 | 将 DNA/RNA 翻译为蛋白质序列 | FASTA/Q | +或/和- | ||
手表 | 序列特征的监控和在线直方图 | FASTA/Q | |||
分散 | fastx 文件的实时串联和流式传输 | FASTA/Q | ✓ | ||
格式转换 | 福克2法 | 将 FASTQ 转换为 FASTA 格式 | 快速问答 | ||
FX2标签 | 将 FASTA/Q 转换为表格格式 | FASTA/Q | |||
发2fq | 通过 FASTA 文件检索相应的 FASTQ 记录 | FASTA/Q | + 仅 | ||
tab2fx | 将表格格式转换为 FASTA/Q 格式 | 硅通孔 | |||
转变 | 在 Sanger、Solexa 和 Illumina 之间转换 FASTQ 质量编码 | FASTA/Q | |||
搜寻中 | grep | 按 ID/名称/序列/序列基序搜索序列,允许不匹配 | FASTA/Q | + 和 - | 部分地,-m |
定位 | 定位子序列/基序,允许不匹配 | FASTA/Q | + 和 - | 部分地,-m | |
扩增子 | 提取扩增子(或其周围的特定区域),允许不匹配 | FASTA/Q | + 和 - | 部分地,-m | |
鱼 | 在较大序列中寻找短序列 | FASTA/Q | + 和 - | ||
设定操作 | 样本 | 按数量或比例采样序列 | FASTA/Q | ||
rmdup | 按 ID/名称/序列删除重复序列 | FASTA/Q | + 和 - | ||
常见的 | 通过id/name/sequence查找多个文件的共同序列 | FASTA/Q | + 和 - | ||
复制 | 重复序列N次 | FASTA/Q | |||
分裂 | 按 id/seq 区域/大小/部分将序列拆分为文件(主要用于 FASTA) | FASTA优先 | |||
分割2 | 按大小/部分将序列拆分为文件(FASTA、PE/SE FASTQ) | FASTA/Q | |||
头 | 打印前 N 条 FASTA/Q 记录 | FASTA/Q | |||
头部基因组 | 打印名称中具有共同前缀的第一个基因组的序列 | FASTA/Q | |||
范围 | 打印一定范围内的 FASTA/Q 记录(开始:结束) | FASTA/Q | |||
一对 | 修补两个 fastq 文件的双端读取 | FASTA/Q | |||
编辑 | 代替 | 用正则表达式替换名称/序列 | FASTA/Q | + 仅 | |
重命名 | 重命名重复的 ID | FASTA/Q | |||
连接 | 连接多个文件中具有相同 ID 的序列 | FASTA/Q | + 仅 | ||
重新启动 | 重置环状基因组的起始位置 | FASTA/Q | + 仅 | ||
变异 | 编辑序列(点突变、插入、删除) | FASTA/Q | + 仅 | ||
萨那 | 清理损坏的单行 FASTQ 文件 | 快速问答 | |||
订购 | 种类 | 按 id/name/sequence/length 对序列进行排序 | FASTA优先 | ||
随机播放 | 随机播放序列 | FASTA优先 | |||
BAM处理 | 巴姆 | BAM记录特征的监控和在线直方图 | 巴姆 | ||
各种各样的 | 和 | 计算 FASTA/Q 文件中所有序列的消息摘要 | FASTA/Q | ✓ | |
合并幻灯片 | 合并seqkit滑动生成的滑动窗口 | 硅通孔 |
笔记:
链敏感性:
+ only
:仅在正链/正链上进行处理。
+ and -
:在两条链上搜索。
+ or/and -
:取决于用户的标志/选项/参数。
多线程:使用默认的 4 个线程对于大多数命令来说足够快,某些命令可以从额外的线程中受益。
沉伟*、Botond Sipos 和赵刘洋。 2024. SeqKit2:用于序列和比对处理的瑞士军刀。 iMeta e191。 doi:10.1002/imt2.191。
沉伟、乐帅、李艳*、胡福泉*。 SeqKit:用于 FASTA/Q 文件操作的跨平台超快工具包。公共科学图书馆一号。 doi:10.1371/journal.pone.0163962。
沉伟
Botond Sipos: bam
、 scat
、 fish
、 sana
、 watch
。
其他的
我们感谢所有用户提出的宝贵意见和建议。我们感谢所有改进代码和文档的贡献者。
我们感谢 Klaus Post 提供的出色的软件包( compress 和 pgzip ),它们加速了 gzip 文件的读写。
创建问题来报告错误、提出新功能或寻求帮助。
麻省理工学院许可证