在瀏覽器中嘗試 SeqKit (教學和練習由 sandbox.bio 提供)
文件: http://bioinf.shenwei.me/seqkit(使用、常見問題、教學和基準)
原始碼: https://github.com/shenwei356/seqkit
最新版本:
請引用: ,
其他的:
易於安裝(下載)
為多個平台(Linux/Windows/macOS、amd64/arm64)提供靜態連結的可執行二進位文件
輕量級、開箱即用、無依賴、無需編譯、無需配置
conda install -c bioconda seqkit
方便使用
超快(請參閱技術細節和基準)
無縫解析 FASTA 和 FASTQ 格式
支援( gzip
/ xz
/ zstd
/ bzip2
壓縮)STDIN/STDOUT和輸入/輸出文件,輕鬆整合在管道中
可重複的結果( sample
和shuffle
中的可配置 rand 種子)
支援透過正規表示式自訂序列ID
支援 Bash/Zsh 自動補全
多功能命令(用法和範例)
38個子命令支援的實用功能
前往下載頁面以取得更多下載選項和變更日誌,或透過 conda 安裝:
conda install -c bioconda seqkit
類別 | 命令 | 功能 | 輸入 | 鏈敏感性 | 多執行緒 |
---|---|---|---|---|---|
基本操作 | 序列 | 轉換序列:提取 ID/seq、按長度/品質過濾、刪除間隙… | FASTA/Q | ||
統計數據 | 簡單統計:#seqs、min/max_len、N50、Q20%、Q30%… | FASTA/Q | ✓ | ||
子序列 | 按region/gtf/bed取得子序列,包括側翼序列 | FASTA/Q | +或/和- | ||
滑動 | 提取滑動視窗中的子序列 | FASTA/Q | + 僅 | ||
費德克斯 | 建立FASTA索引檔案並提取子序列(比samtools faidx具有更多功能) | FASTA | +或/和- | ||
翻譯 | 將 DNA/RNA 翻譯為蛋白質序列 | FASTA/Q | +或/和- | ||
手錶 | 序列特徵的監控和線上直方圖 | FASTA/Q | |||
分散 | fastx 檔案的即時串聯和串流傳輸 | FASTA/Q | ✓ | ||
格式轉換 | 福克2法 | 將 FASTQ 轉換為 FASTA 格式 | 快速問答 | ||
FX2標籤 | 將 FASTA/Q 轉換為表格格式 | FASTA/Q | |||
發2fq | 透過 FASTA 文件檢索對應的 FASTQ 記錄 | FASTA/Q | + 僅 | ||
tab2fx | 將表格格式轉換為 FASTA/Q 格式 | 矽通孔 | |||
轉變 | 在 Sanger、Solexa 和 Illumina 之間轉換 FASTQ 品質編碼 | FASTA/Q | |||
搜尋中 | grep | 按 ID/名稱/序列/序列基序搜尋序列,允許不匹配 | FASTA/Q | + 和 - | 部分地,-m |
定位 | 定位子序列/基序,允許不匹配 | FASTA/Q | + 和 - | 部分地,-m | |
擴增子 | 提取擴增子(或其周圍的特定區域),允許不匹配 | FASTA/Q | + 和 - | 部分地,-m | |
魚 | 在較大序列中尋找短序列 | FASTA/Q | + 和 - | ||
設定操作 | 樣本 | 按數量或比例採樣序列 | FASTA/Q | ||
rmdup | 按 ID/名稱/序列刪除重複序列 | FASTA/Q | + 和 - | ||
常見的 | 透過id/name/sequence查找多個文件的共同序列 | FASTA/Q | + 和 - | ||
複製 | 重複序列N次 | FASTA/Q | |||
分裂 | 按 id/seq 區域/大小/部分將序列拆分為檔案(主要用於 FASTA) | FASTA優先 | |||
分割2 | 依大小/部分將序列拆分為檔案(FASTA、PE/SE FASTQ) | FASTA/Q | |||
頭 | 列印前 N 筆 FASTA/Q 記錄 | FASTA/Q | |||
頭部基因組 | 列印名稱中具有共同前綴的第一個基因組的序列 | FASTA/Q | |||
範圍 | 列印一定範圍內的 FASTA/Q 記錄(開始:結束) | FASTA/Q | |||
一對 | 修補兩個 fastq 檔案的雙端讀取 | FASTA/Q | |||
編輯 | 代替 | 用正規表示式取代名稱/序列 | FASTA/Q | + 僅 | |
重新命名 | 重新命名重複的 ID | FASTA/Q | |||
連接 | 連接多個檔案中具有相同 ID 的序列 | FASTA/Q | + 僅 | ||
重新啟動 | 重置環狀基因組的起始位置 | FASTA/Q | + 僅 | ||
變異 | 編輯序列(點突變、插入、刪除) | FASTA/Q | + 僅 | ||
薩那 | 清理損壞的單行 FASTQ 文件 | 快速問答 | |||
訂購 | 種類 | 按 id/name/sequence/length 對序列進行排序 | FASTA優先 | ||
隨機播放 | 隨機播放序列 | FASTA優先 | |||
BAM處理 | 巴姆 | BAM記錄特徵的監控和線上直方圖 | 巴姆 | ||
各種各樣的 | 和 | 計算 FASTA/Q 檔案中所有序列的訊息摘要 | FASTA/Q | ✓ | |
合併投影片 | 合併seqkit滑動產生的滑動窗口 | 矽通孔 |
筆記:
鏈敏感性:
+ only
:僅在正鏈/正鏈上處理。
+ and -
:在兩條鏈上搜尋。
+ or/and -
:取決於使用者的標誌/選項/參數。
多線程:使用預設的 4 個執行緒對於大多數命令來說足夠快,某些命令可以從額外的線程中受益。
沉偉*、Botond Sipos 和趙劉洋。 2024. SeqKit2:用於序列和比對處理的瑞士軍刀。 iMeta e191。 doi:10.1002/imt2.191。
沈偉、樂帥、李艷*、胡福泉*。 SeqKit:用於 FASTA/Q 檔案操作的跨平台超快工具包。公共科學圖書館一號。 doi:10.1371/journal.pone.0163962。
沈偉
Botond Sipos: bam
、 scat
、 fish
、 sana
、 watch
。
其他的
我們感謝所有使用者提出的寶貴意見和建議。我們感謝所有改進程式碼和文件的貢獻者。
我們感謝 Klaus Post 提供的出色的軟體包( compress 和 pgzip ),它們加速了 gzip 檔案的讀寫。
建立問題來報告錯誤、提出新功能或尋求協助。
麻省理工學院許可證