Catatan: Minimap2 telah menggantikan BWA-MEM untuk Pacbio dan Nanopore Read Alignment. Ini mempertahankan semua fitur BWA-MEM utama, tetapi ~ 50 kali lebih cepat, lebih fleksibel, lebih akurat dan menghasilkan perataan tingkat dasar yang lebih baik. Versi beta BWA-MEM2 telah dirilis untuk pemetaan membaca pendek. BWA-MEM2 sekitar dua kali lebih cepat dari BWA-MEM dan output di dekat keberpihakan yang identik.
git clone https://github.com/lh3/bwa.git
cd bwa; make
./bwa index ref.fa
./bwa mem ref.fa read-se.fq.gz | gzip -3 > aln-se.sam.gz
./bwa mem ref.fa read1.fq read2.fq | gzip -3 > aln-pe.sam.gz
BWA adalah paket perangkat lunak untuk memetakan urutan DNA terhadap genom referensi besar, seperti genom manusia. Ini terdiri dari tiga algoritma: BWA-Backtrack, BWA-SW dan BWA-MEM. Algoritma pertama dirancang untuk urutan Illumina dibaca hingga 100bp, sedangkan sisanya dua untuk urutan yang lebih lama berkisar dari 70bp hingga beberapa megabase. BWA-MEM dan BWA-SW berbagi fitur serupa seperti dukungan dari Long Reads dan Chimeric Alignment, tetapi BWA-MEM, yang merupakan yang terbaru, umumnya direkomendasikan karena lebih cepat dan lebih akurat. BWA-MEM juga memiliki kinerja yang lebih baik daripada BWA-Backtrack untuk 70-100bp Illumina.
Untuk semua algoritma, BWA pertama-tama perlu membangun indeks FM untuk genom referensi (perintah indeks ). Algoritma penyelarasan dipanggil dengan sub-perintah yang berbeda: ALN/Samse/Sampe untuk BWA-Backtrack, BWASW untuk BWA-SW dan MEM untuk algoritma BWA-MEM.
BWA dirilis di bawah GPLV3. Kode sumber terbaru tersedia secara bebas di GitHub. Paket yang dirilis dapat diunduh di SourceForge. Setelah Anda memperoleh kode sumber, cukup gunakan make
untuk mengkompilasi dan menyalin bwa
tunggal yang dapat dieksekusi ke tujuan yang Anda inginkan. Satu -satunya ketergantungan yang diperlukan untuk membangun BWA adalah Zlib.
Sejak 0,7.11, biner yang dikompilasi untuk x86_64-linux tersedia di Bwakit. Selain BWA, paket yang konsisten sendiri ini juga dilengkapi dengan alat-alat pihak ke-3 yang terkait dengan BWA untuk konversi BAM-to-Facq yang tepat, pemetaan ke alt contigs, triming adaptor, penandaan duplikat, pengetikan HLA dan file data terkait.
Penggunaan terperinci dijelaskan di halaman manusia yang tersedia bersama dengan kode sumber. Anda dapat menggunakan man ./bwa.1
untuk melihat halaman pria di terminal. Versi HTML dari halaman pria dapat ditemukan di situs web BWA. Jika Anda memiliki pertanyaan tentang BWA, Anda dapat mendaftar milis dan kemudian mengirim pertanyaan ke [email protected]. Anda juga dapat mengajukan pertanyaan di forum seperti Biostar dan Seqanswers.
Li H. dan Durbin R. (2009) Penyelarasan baca pendek yang cepat dan akurat dengan transformasi Burrows-Wheeler. Bioinformatika , 25 , 1754-1760. [PMID: 19451168]. (Jika Anda menggunakan algoritma BWA-Backtrack)
Li H. dan Durbin R. (2010) Penyelarasan panjang yang cepat dan akurat dengan transformasi Burrows-Wheeler. Bioinformatika , 26 , 589-595. [PMID: 20080505]. (Jika Anda menggunakan algoritma BWA-SW)
Li H. (2013) Menyelaraskan urutan membaca, sekuens klon dan rakitan contigs dengan BWA-MEM. ARXIV: 1303.3997v2 [q-bio.gn]. (Jika Anda menggunakan algoritma BWA-MEM atau perintah FastMap , atau ingin mengutip seluruh paket BWA)
Harap dicatat bahwa referensi terakhir adalah pracetak yang di -host di arxiv.org. Saya tidak punya rencana untuk mengirimkannya ke jurnal peer-review dalam waktu dekat.
BWA bekerja dengan berbagai jenis data urutan DNA, meskipun algoritma dan pengaturan optimal dapat bervariasi. Daftar berikut memberikan pengaturan yang disarankan:
Illumina/454/ionTorrent Single-end dibaca lebih lama dari ~ 70bp atau perakitan berkaitan hingga beberapa megabase yang dipetakan ke genom referensi yang terkait erat:
bwa mem ref.fa reads.fq > aln.sam
Illumina Single-end membaca lebih pendek dari ~ 70bp:
bwa aln ref.fa reads.fq > reads.sai; bwa samse ref.fa reads.sai reads.fq > aln-se.sam
Illumina/454/IonTorrent berpasangan dibaca lebih lama dari ~ 70bp:
bwa mem ref.fa read1.fq read2.fq > aln-pe.sam
Illumina berpasangan bertuliskan lebih pendek dari ~ 70bp:
bwa aln ref.fa read1.fq > read1.sai; bwa aln ref.fa read2.fq > read2.sai
bwa sampe ref.fa read1.sai read2.sai read1.fq read2.fq > aln-pe.sam
Pacbio Subreads atau Oxford Nanopore membaca genom referensi:
bwa mem -x pacbio ref.fa reads.fq > aln.sam
bwa mem -x ont2d ref.fa reads.fq > aln.sam
BWA-MEM direkomendasikan untuk urutan kueri lebih lama dari ~ 70bp untuk berbagai tingkat kesalahan (atau divergensi urutan). Secara umum, BWA-MEM lebih toleran dengan kesalahan yang diberikan urutan kueri yang lebih panjang karena kemungkinan kehilangan semua biji kecil. Seperti yang ditunjukkan di atas, dengan pengaturan non-default, BWA-MEM bekerja dengan Oxford Nanopore dibaca dengan tingkat kesalahan pengurutan lebih dari 20%.
BWA-SW dan BWA-MEM melakukan keberpihakan lokal. Jika ada translokasi, fusi gen atau penghapusan yang lama, pembacaan yang menjembatani titik istirahat mungkin memiliki dua hit, menempati dua baris dalam output SAM. Dengan pengaturan default BWA-MEM, satu dan hanya satu baris yang primer dan dipotong lembut; Garis lain ditandai dengan bendera SAM 0x800 (penyelarasan tambahan) dan sulit dipotong.
Ya. Sejak 0,6.x, semua algoritma BWA bekerja dengan genom dengan panjang total lebih dari 4GB. Namun, kromosom individu tidak boleh lebih dari 2GB.
Ini benar. Kualitas pemetaan ditetapkan untuk membaca individual, bukan untuk pasangan yang dibaca. Ada kemungkinan bahwa satu bacaan dapat dipetakan dengan jelas, tetapi pasangannya jatuh dalam pengulangan tandem dan dengan demikian posisinya yang akurat tidak dapat ditentukan.
BWA secara internal menggabungkan semua urutan referensi menjadi satu urutan panjang. Bacaan dapat dipetakan ke persimpangan dua urutan referensi yang berdekatan. Dalam hal ini, BWA-Backtrack akan menandai bacaan sebagai yang belum dipetakan (0x4), tetapi Anda akan melihat posisi, cerutu, dan semua tag. Masalah serupa dapat terjadi pada penyelarasan BWA-SW juga. BWA-MEM tidak memiliki masalah ini.
Ya, sejak 0.7.11, BWA-MEM secara resmi mendukung pemetaan ke GRCH38+ALT. BWA-Backtrack dan BWA-SW tidak mendukung pemetaan ALT dengan baik seperti sekarang. Silakan lihat ReadMe-Alt.MD untuk detailnya. Secara singkat, disarankan untuk menggunakan Bwakit, pelepasan biner BWA, untuk menghasilkan genom referensi dan untuk pemetaan.
Jika Anda tidak tertarik pada hit ke alt contigs, tidak apa-apa untuk menjalankan BWA-MEM tanpa pemrosesan pasca. Penyelarasan yang dihasilkan dengan cara ini sangat dekat dengan keberpihakan terhadap GRCH38 tanpa alt contigs. Meskipun demikian, menerapkan pasca pemrosesan membantu mengurangi pemetaan palsu yang disebabkan oleh bacaan dari bagian alt contigs yang berbeda dan juga memungkinkan pengetikan HLA. Dianjurkan untuk menjalankan skrip pasca pemrosesan.