注:Minimap2は、PacbioとNanoporeの読み取りアライメントのBWA-MEMを置き換えました。すべての主要なBWA-MEM機能を保持していますが、〜50倍速く、汎用性が高く、より正確で、より良い基本レベルのアライメントが生成されます。 BWA-MEM2のベータ版がリリースされました。 BWA-MEM2はBWA-MEMの約2倍速く、同一のアライメントに近い出力です。
git clone https://github.com/lh3/bwa.git
cd bwa; make
./bwa index ref.fa
./bwa mem ref.fa read-se.fq.gz | gzip -3 > aln-se.sam.gz
./bwa mem ref.fa read1.fq read2.fq | gzip -3 > aln-pe.sam.gz
BWAは、ヒトゲノムなどの大きな参照ゲノムに対してDNA配列をマッピングするためのソフトウェアパッケージです。 BWA-Backtrack、BWA-SW、BWA-MEMの3つのアルゴリズムで構成されています。最初のアルゴリズムは、イルミナシーケンスが最大100bpまで読み取られるために設計されていますが、残りの2つは長いシーケンスで70bpからいくつかのメガベースまでの範囲でした。 BWA-MEMとBWA-SWは、長い読み物やキメラのアラインメントのサポートなどの同様の機能を共有していますが、最新のBWA-MEMは、より速く、より正確であるため、一般的に推奨されます。 BWA-MEMは、70-100bpのイルミナリードのBWA-Backtrackよりも優れたパフォーマンスを持っています。
すべてのアルゴリズムについて、BWAは最初に参照ゲノム(インデックスコマンド)のFMインデックスを構築する必要があります。アライメントアルゴリズムは、BWA-BacktrackのALN/SAMSE/SAMPE 、BWA-SWのBWASW 、BWA-MEMアルゴリズムのMEMで、異なるサブコマンドで呼び出されます。
BWAはGPLV3でリリースされます。最新のソースコードは、Githubで無料で入手できます。リリースされたパッケージは、SourceForgeでダウンロードできます。ソースコードを取得した後、 make
を使用して、単一の実行可能なbwa
必要な宛先にコンパイルしてコピーします。 BWAを構築するために必要な唯一の依存関係はZlibです。
0.7.11以来、x86_64-linuxのプリコンパイルされたバイナリがBwakitで利用可能です。 BWAに加えて、この自己整合性パッケージには、適切なBAMからFASTQへの変換、ALTコンティグへのマッピング、アダプタートリミング、重複したマーキング、HLAタイピング、および関連データファイルのためのBWA関連および3番目のパーティツールも付属しています。
詳細な使用法は、ソースコードと一緒に利用可能なMANページで説明されています。 man ./bwa.1
使用して、端末でManページを表示できます。 MANページのHTMLバージョンは、BWA Webサイトにあります。 BWAについて質問がある場合は、メーリングリストにサインアップしてから、[email protected]に質問を送信できます。また、BiostarやSeqanswersなどのフォーラムで質問することもできます。
Li H. and Durbin R.(2009)Burrows-Wheeler Transformとの高速かつ正確な短い読み取りアライメント。バイオインフォマティクス、 25、1754-1760 。 [PMID:19451168]。 (BWA-Backtrackアルゴリズムを使用する場合)
Li H. and Durbin R.(2010)Burrows-Wheeler Transformとの高速かつ正確な長期読みの整合性。バイオインフォマティクス、 26、589-595 。 [PMID:20080505]。 (BWA-SWアルゴリズムを使用する場合)
Li H.(2013)シーケンスの調整読み取り、クローンシーケンス、および組み立てContigs with BWA-MEM。 arxiv:1303.3997v2 [q-bio.gn]。 (BWA-MEMアルゴリズムまたはFastMapコマンドを使用する場合、またはBWAパッケージ全体を引用したい場合)
最後のリファレンスは、arxiv.orgでホストされているプリプリントであることに注意してください。近い将来、ピアレビューされたジャーナルに提出する予定はありません。
BWAは、さまざまなタイプのDNA配列データで動作しますが、最適なアルゴリズムと設定は異なる場合があります。次のリストは、推奨される設定を示しています。
Illumina/454/iontorrentシングルエンドは、〜70bpよりも長く読み取られます。
bwa mem ref.fa reads.fq > aln.sam
イルミナシングルエンドは、〜70bpより短い読み取りです:
bwa aln ref.fa reads.fq > reads.sai; bwa samse ref.fa reads.sai reads.fq > aln-se.sam
Illumina/454/iontorrentペアエンドは、〜70bpより長く読み取られます:
bwa mem ref.fa read1.fq read2.fq > aln-pe.sam
Illuminaペアエンドは、〜70bpより短い読み取りです:
bwa aln ref.fa read1.fq > read1.sai; bwa aln ref.fa read2.fq > read2.sai
bwa sampe ref.fa read1.sai read2.sai read1.fq read2.fq > aln-pe.sam
Pacbio SubreadsまたはOxford Nanoporeは参照ゲノムに読み取ります:
bwa mem -x pacbio ref.fa reads.fq > aln.sam
bwa mem -x ont2d ref.fa reads.fq > aln.sam
BWA-MEMは、さまざまなエラー率(またはシーケンスの発散)では、〜70bpより長いクエリシーケンスに推奨されます。一般に、BWA-MEMは、すべての種子が欠けている可能性が小さいため、より長いクエリシーケンスが与えられたエラーがあるため、より寛容です。上記のように、非デフォルト設定では、BWA-MEMはオックスフォードナノポアと連携して、シーケンスエラー率が20%を超えて読みます。
BWA-SWとBWA-MEMはローカルアライメントを実行します。転座、遺伝子融合、または長い削除がある場合、ブレークポイントをブリッジする読み取りでは2ヒットがあり、SAM出力に2行を占める可能性があります。 BWA-MEMのデフォルト設定では、1つのラインのみがプライマリで、ソフトクリップされています。他の線には0x800 SAMフラグ(補足アライメント)がタグ付けされており、ハードクリップされています。
はい。 0.6.x以降、すべてのBWAアルゴリズムは、全長が4GBを超えるゲノムで動作します。ただし、個々の染色体は2GBを超えてはなりません。
これは正しいです。マッピング品質は、読み取りペアではなく、個々の読み取りに割り当てられます。読み取りを明確にマッピングできる可能性がありますが、その仲間はタンデムリピートに落ち、したがってその正確な位置を決定できません。
内部的には、すべての参照シーケンスを1つの長いシーケンスに連結します。読み取りは、2つの隣接する参照シーケンスの接合部にマッピングできます。この場合、BWA-Backtrackは読み取りにマッピングされていない(0x4)としてフラグを立てますが、位置、葉巻、およびすべてのタグが表示されます。同様の問題がBWA-SWアライメントにも発生する可能性があります。 BWA-MEMにはこの問題はありません。
はい、0.7.11以降、BWA-MEMはGRCH38+ALTへのマッピングを正式にサポートしています。 BWA-BacktrackとBWA-SWは、現在のALTマッピングを適切にサポートしていません。詳細については、readme-alt.mdを参照してください。簡単に言えば、参照ゲノムを生成し、マッピングに生成するために、BWAのバイナリリリースであるBwakitを使用することをお勧めします。
Alt Contigsへのヒットに興味がない場合は、後処理なしでBWA-MEMを実行しても構いません。この方法で生成されたアライメントは、Alt ContigsなしでGRCH38に対するアラインメントに非常に近いものです。それにもかかわらず、後処理を適用すると、Alt Contigsの分岐した部分からの読み取りによって引き起こされる誤ったマッピングを減らし、HLAタイピングも可能にします。後処理スクリプトを実行することをお勧めします。