ブラウザで SeqKit を試してください(sandbox.bio によって提供されるチュートリアルと演習)
ドキュメント: http://bioinf.shenwei.me/seqkit (使用法、 FAQ 、チュートリアル、およびベンチマーク)
ソースコード: https://github.com/shenwei356/seqkit
最新バージョン:
引用してください: 、
その他:
インストール(ダウンロード)が簡単
複数のプラットフォーム (Linux/Windows/macOS、amd64/arm64) に静的にリンクされた実行可能バイナリを提供します。
軽量ですぐに使える、依存関係なし、コンパイルなし、設定なし
conda install -c bioconda seqkit
使いやすい
超高速 (技術的な詳細とベンチマークを参照)
FASTA 形式と FASTQ 形式の両方をシームレスに解析
( gzip
/ xz
/ zstd
/ bzip2
圧縮) STDIN/STDOUT および入出力ファイルをサポートし、パイプに簡単に統合
再現可能な結果 ( sample
およびshuffle
で構成可能なランド シード)
正規表現によるカスタム シーケンス ID のサポート
Bash/Zsh オートコンプリートのサポート
多彩なコマンド(使い方と例)
38個のサブコマンドによる実用的な機能をサポート
その他のダウンロード オプションと変更ログについては、ダウンロード ページに移動するか、conda 経由でインストールします。
conda install -c bioconda seqkit
カテゴリ | 指示 | 関数 | 入力 | 鎖感度 | マルチスレッド |
---|---|---|---|---|---|
基本操作 | 連続 | シーケンスの変換: ID/シーケンスの抽出、長さ/品質によるフィルター、ギャップの削除… | ファスタ/Q | ||
統計 | 単純な統計: #seqs、min/max_len、N50、Q20%、Q30%… | ファスタ/Q | ✓ | ||
後続 | 隣接シーケンスを含む、領域/gtf/ベッドによるサブシーケンスの取得 | ファスタ/Q | + または/および - | ||
スライディング | スライディングウィンドウでサブシーケンスを抽出する | ファスタ/Q | +のみ | ||
ファディックス | FASTA インデックス ファイルを作成し、サブシーケンスを抽出します (samtools faidx より多くの機能を備えています) | ファスタ | + または/および - | ||
翻訳する | DNA/RNAをタンパク質配列に翻訳する | ファスタ/Q | + または/および - | ||
時計 | シーケンス特徴のモニタリングとオンラインヒストグラム | ファスタ/Q | |||
スキャット | fastx ファイルのリアルタイム連結とストリーミング | ファスタ/Q | ✓ | ||
フォーマット変換 | fq2fa | FASTQをFASTA形式に変換します | ファストQ | ||
fx2タブ | FASTA/Q を表形式に変換する | ファスタ/Q | |||
fa2fq | FASTA ファイルによる対応する FASTQ レコードの取得 | ファスタ/Q | +のみ | ||
タブ2FX | 表形式をFASTA/Q形式に変換 | TSV | |||
変換する | Sanger、Solexa、Illumina の間で FASTQ 品質のエンコーディングを変換する | ファスタ/Q | |||
検索中 | grep | ID/名前/配列/配列モチーフによる配列の検索、不一致を許可 | ファスタ/Q | + と - | 部分的に、-m |
見つける | サブシーケンス/モチーフを検索します。不一致は許可されます | ファスタ/Q | + と - | 部分的に、-m | |
アンプリコン | アンプリコン (またはその周囲の特定の領域) を抽出します。不一致は許容されます。 | ファスタ/Q | + と - | 部分的に、-m | |
魚 | 大きなシーケンスの中で短いシーケンスを探す | ファスタ/Q | + と - | ||
セット操作 | サンプル | 数値または比率によるサンプルシーケンス | ファスタ/Q | ||
rmdup | ID/名前/シーケンスによって重複したシーケンスを削除します | ファスタ/Q | + と - | ||
一般 | ID/名前/シーケンスで複数のファイルの共通シーケンスを検索 | ファスタ/Q | + と - | ||
重複 | シーケンスを N 回複製する | ファスタ/Q | |||
スプリット | ID/SEQ 領域/サイズ/パーツごとにシーケンスをファイルに分割します (主に FASTA 用) | ファスタが優先 | |||
スプリット2 | シーケンスをサイズ/パーツごとにファイルに分割 (FASTA、PE/SE FASTQ) | ファスタ/Q | |||
頭 | 最初の N 個の FASTA/Q レコードを出力します | ファスタ/Q | |||
頭部ゲノム | 名前に共通の接頭辞を持つ最初のゲノムの配列を出力します | ファスタ/Q | |||
範囲 | 範囲 (開始:終了) 内の FASTA/Q レコードを出力します。 | ファスタ/Q | |||
ペア | 2 つの fastq ファイルからのペアエンド読み取りをパッチアップする | ファスタ/Q | |||
編集 | 交換する | 名前/シーケンスを正規表現で置き換えます | ファスタ/Q | +のみ | |
名前を変更する | 重複した ID の名前を変更する | ファスタ/Q | |||
連結 | 複数のファイルから同じ ID を持つシーケンスを連結します | ファスタ/Q | +のみ | ||
再起動 | 環状ゲノムの開始位置をリセット | ファスタ/Q | +のみ | ||
変異する | 配列の編集(点突然変異、挿入、削除) | ファスタ/Q | +のみ | ||
サナ | 壊れた単一行の FASTQ ファイルをサニタイズする | ファストQ | |||
注文 | 選別 | ID/名前/シーケンス/長さでシーケンスを並べ替えます | ファスタが優先 | ||
シャッフル | シャッフルシーケンス | ファスタが優先 | |||
BAM処理 | バム | BAM レコード機能のモニタリングとオンライン ヒストグラム | バム | ||
その他 | 和 | FASTA/Q ファイル内のすべてのシーケンスのメッセージ ダイジェストを計算します | ファスタ/Q | ✓ | |
スライドのマージ | seqkit スライディングから生成されたスライディング ウィンドウをマージします | TSV |
注:
鎖感度:
+ only
: 正/順鎖のみの処理。
+ and -
: 両方のストランドで検索します。
+ or/and -
: ユーザーのフラグ/オプション/引数によって異なります。
マルチスレッド: デフォルトの 4 スレッドを使用すると、ほとんどのコマンドで十分な速度が得られますが、一部のコマンドは追加のスレッドの恩恵を受けることができます。
ウェイ・シェン*、ボトンド・シポス、劉陽趙。 2024. SeqKit2: シーケンスおよびアライメント処理用のスイス アーミー ナイフ。 iメタe191。土井:10.1002/imt2.191。
Wei Shen、Shuai Le、Yan Li*、Fuquan Hu*。 SeqKit: FASTA/Q ファイル操作のためのクロスプラットフォームの超高速ツールキット。プロスワン。土井:10.1371/journal.pone.0163962。
ウェイ・シェン
ボットンド・シポス: bam
、 scat
、 fish
、 sana
、 watch
。
その他
貴重なフィードバックやご提案をいただきましたユーザーの皆様に感謝いたします。コードとドキュメントを改善してくださったすべての貢献者に感謝します。
gzip ファイルの読み取りと書き込みを高速化する素晴らしいパッケージ ( compress と pgzip ) を提供してくれた Klaus Post に感謝します。
バグを報告したり、新しい機能を提案したり、助けを求めたりするには、問題を作成します。
MITライセンス