Nota: Minimap2 ha reemplazado a BWA-MEM para la alineación de lectura de Pacbio y Nanopore. Conserva todas las principales características de BWA-MEM, pero es ~ 50 veces más rápido, más versátil, más precisa y produce una mejor alineación de nivel base. Se ha lanzado una versión beta de BWA-MEM2 para el mapeo de lectura corta. BWA-MEM2 es aproximadamente el doble de rápido que BWA-MEM y sale cerca de alineaciones idénticas.
git clone https://github.com/lh3/bwa.git
cd bwa; make
./bwa index ref.fa
./bwa mem ref.fa read-se.fq.gz | gzip -3 > aln-se.sam.gz
./bwa mem ref.fa read1.fq read2.fq | gzip -3 > aln-pe.sam.gz
BWA es un paquete de software para mapear secuencias de ADN contra un gran genoma de referencia, como el genoma humano. Consiste en tres algoritmos: BWA-Backtrack, BWA-SW y BWA-MEM. El primer algoritmo está diseñado para la secuencia de Illumina se lee hasta 100 pb, mientras que los dos para secuencias más largas variaron de 70 pb a algunas megabasas. BWA-MEM y BWA-SW comparten características similares, como el soporte de lecturas largas y alineación quimérica, pero BWA-MEM, que es lo último, generalmente se recomienda, ya que es más rápido y más preciso. BWA-MEM también tiene un mejor rendimiento que BWA-Backtrack para lecturas de Illumina de 70-100bp.
Para todos los algoritmos, BWA primero necesita construir el índice FM para el genoma de referencia (el comando de índice ). Los algoritmos de alineación se invocan con diferentes submands: ALN/Samse/Sampe para BWA-Backtrack, BWASW para BWA-SW y MEM para el algoritmo BWA-MEM.
BWA se lanza bajo GPLV3. El último código fuente está disponible gratuitamente en GitHub. Los paquetes lanzados se pueden descargar en SourceForge. Después de adquirir el código fuente, simplemente use make
para compilar y copiar el único bwa
ejecutable al destino que desee. La única dependencia requerida para construir BWA es ZLIB.
Desde 0.7.11, el binario precompilado para X86_64-Linux está disponible en Bwakit. Además de BWA, este paquete autoconsistente también viene con herramientas de terceros asociadas y de terceros para la conversión adecuada de BAM a FastQ, asignando contigs alt, trimvia adaptador, marcado duplicados, tipificación de HLA y archivos de datos asociados.
El uso detallado se describe en la página del hombre disponible junto con el código fuente. Puede usar man ./bwa.1
para ver la página del hombre en una terminal. La versión HTML de la página MAN se puede encontrar en el sitio web de BWA. Si tiene preguntas sobre BWA, puede registrar la lista de correo y luego enviar las preguntas a [email protected]. También puede hacer preguntas en foros como Biostar y Seqanswers.
Li H. y Durbin R. (2009) Alineación de lectura corta rápida y precisa con transformación de vehículos de madriguera. Bioinformática , 25 , 1754-1760. [PMID: 19451168]. (Si usa el algoritmo BWA-Backtrack)
Li H. y Durbin R. (2010) Alineación de lectura larga rápida y precisa con transformación de vehículos de madrigueras. Bioinformática , 26 , 589-595. [PMID: 20080505]. (Si usa el algoritmo BWA-SW)
Li H. (2013) Secuestro de alineación lectura, secuencias clon y contigs de ensamblaje con BWA-MEM. ARXIV: 1303.3997V2 [Q-Bio.gn]. (Si usa el algoritmo BWA-MEM o el comando FastMap , o desea citar todo el paquete BWA)
Tenga en cuenta que la última referencia es una preimpresión alojada en arxiv.org. No tengo planes de enviarlo a una revista revisada por pares en el futuro cercano.
BWA funciona con una variedad de datos de secuencia de ADN, aunque el algoritmo y la configuración óptimos pueden variar. La siguiente lista ofrece la configuración recomendada:
Illumina/454/IonTorrent Unife-End se lee más de ~ 70bp o contiges de ensamblaje hasta unas pocas megabasas asignadas a un genoma de referencia estrechamente relacionado:
bwa mem ref.fa reads.fq > aln.sam
Illumina de un solo extremo lee más corto que ~ 70bp:
bwa aln ref.fa reads.fq > reads.sai; bwa samse ref.fa reads.sai reads.fq > aln-se.sam
Illumina/454/IonTorrent Pareed-End se lee más de ~ 70bp:
bwa mem ref.fa read1.fq read2.fq > aln-pe.sam
Illumina emparejado lee más corta que ~ 70bp:
bwa aln ref.fa read1.fq > read1.sai; bwa aln ref.fa read2.fq > read2.sai
bwa sampe ref.fa read1.sai read2.sai read1.fq read2.fq > aln-pe.sam
Pacbio Subreads o Oxford Nanopore lee a un genoma de referencia:
bwa mem -x pacbio ref.fa reads.fq > aln.sam
bwa mem -x ont2d ref.fa reads.fq > aln.sam
Se recomienda BWA-MEM para secuencias de consulta de más de ~ 70bp para una variedad de tasas de error (o divergencia de secuencia). En general, BWA-MEM es más tolerante con los errores que se dan secuencias de consulta más largas, ya que la posibilidad de faltar todas las semillas es pequeña. Como se muestra anteriormente, con la configuración no defectuosa, BWA-MEM trabaja con Oxford Nanopore lee con una tasa de error de secuenciación superior al 20%.
BWA-SW y BWA-MEM realizan alineaciones locales. Si hay una translocación, una fusión genética o una larga eliminación, una lectura que encierra el punto de interrupción puede tener dos hits, ocupando dos líneas en la salida de SAM. Con la configuración predeterminada de BWA-MEM, una sola línea es primaria y está blandamente recortada; Otras líneas están etiquetadas con la bandera SAM 0x800 (alineación complementaria) y están duros.
Sí. Desde 0.6.x, todos los algoritmos BWA funcionan con un genoma con longitud total de más de 4 GB. Sin embargo, el cromosoma individual no debe ser más largo que 2GB.
Esto es correcto. La calidad de mapeo se asigna para lectura individual, no para un par de lectura. Es posible que una lectura se pueda mapear sin ambigüedades, pero su compañero cae en una repetición en tándem y, por lo tanto, su posición precisa no puede determinarse.
BWA internamente concatena todas las secuencias de referencia en una secuencia larga. Se puede mapear una lectura a la unión de dos secuencias de referencia adyacentes. En este caso, BWA-Backtrack marcará la lectura como Unmapped (0x4), pero verá la posición, el cigarro y todas las etiquetas. También puede ocurrir un problema similar a la alineación de BWA-SW. BWA-MEM no tiene este problema.
Sí, desde 0.7.11, BWA-MEM admite oficialmente el mapeo a Grch38+Alt. BWA-Backtrack y BWA-SW no admiten adecuadamente el mapeo Alt a partir de ahora. Consulte ReadMe-Alt.md para más detalles. Brevemente, se recomienda usar BWAKIT, la liberación binaria de BWA, para generar el genoma de referencia y para el mapeo.
Si no está interesado en los éxitos a los contigs alternativos, está bien ejecutar BWA-MEM sin el procesamiento posterior. Las alineaciones producidas de esta manera son muy cercanas a las alineaciones contra GRCH38 sin contigs ALT. No obstante, la aplicación de postprocesamiento ayuda a reducir las asignaciones falsas causadas por las lecturas de la parte divergente de los contigs alt y también permite la tipificación de HLA. Se recomienda ejecutar el script de postprocesamiento.