Remarque: MinimAP2 a remplacé BWA-MEM pour Pacbio et Nanopore Read Alignement. Il conserve toutes les principales caractéristiques BWA-MEM, mais est ~ 50 fois plus rapide, plus polyvalente, plus précise et produit un meilleur alignement de base. Une version bêta de BWA-MEM2 a été publiée pour la cartographie à lecture courte. BWA-MEM2 est environ deux fois plus rapidement que BWA-MEM et sortira à proximité d'alignements identiques.
git clone https://github.com/lh3/bwa.git
cd bwa; make
./bwa index ref.fa
./bwa mem ref.fa read-se.fq.gz | gzip -3 > aln-se.sam.gz
./bwa mem ref.fa read1.fq read2.fq | gzip -3 > aln-pe.sam.gz
BWA est un progiciel pour cartographier les séquences d'ADN contre un grand génome de référence, comme le génome humain. Il se compose de trois algorithmes: BWA-Backtrack, BWA-SW et BWA-MEM. Le premier algorithme est conçu pour la séquence Illumina se lit jusqu'à 100 pb, tandis que les deux autres pour des séquences plus longues variaient de 70 pb à quelques mégabases. BWA-MEM et BWA-SW partagent des fonctionnalités similaires telles que le support de Longs Reads et l'alignement chimérique, mais BWA-MEM, qui est le dernier, est généralement recommandé car il est plus rapide et plus précis. BWA-MEM a également de meilleures performances que BWA-Backtrack pour le 70-100BP Illumina.
Pour tous les algorithmes, BWA doit d'abord construire l'index FM pour le génome de référence (la commande index ). Les algorithmes d'alignement sont invoqués avec différents sous-communs: Aln / Samse / Sampe pour BWA-Backtrack, BWASW pour BWA-SW et MEM pour l'algorithme BWA-MEM.
BWA est libéré sous GPLV3. Le dernier code source est disponible gratuitement chez GitHub. Les packages publiés peuvent être téléchargés sur sourceforge. Après avoir acquis le code source, utilisez simplement make
pour compiler et copier le seul exécutable bwa
dans la destination souhaitée. La seule dépendance requise pour construire BWA est ZLIB.
Depuis 0,7.11, un binaire précompilé pour x86_64-linux est disponible en bwakit. En plus de la BWA, ce package auto-cohérent est également livré avec des outils associés au BWA et 3e-partis pour une conversion BAM-FASTQ appropriée, la cartographie en contigs ALT, le trimage adaptateur, le marquage en double, le typage HLA et les fichiers de données associés.
L'utilisation détaillée est décrite dans la page Man disponible avec le code source. Vous pouvez utiliser man ./bwa.1
pour afficher la page de l'homme dans un terminal. La version HTML de la page Man peut être trouvée sur le site Web de la BWA. Si vous avez des questions sur BWA, vous pouvez inscrire la liste de diffusion, puis envoyer les questions à [email protected]. Vous pouvez également poser des questions dans des forums tels que Biostar et Seqanswers.
Li H. et Durbin R. (2009) Alignement de lecture courte rapide et précise avec la transformation de Burrows-Wheeler. Bioinformatique , 25 , 1754-1760. [PMID: 19451168]. (Si vous utilisez l'algorithme BWA-Backtrack)
Li H. et Durbin R. (2010) Alignement rapide et précis de lecture longue avec la transformation de Burrows-Wheeler. Bioinformatics , 26 , 589-595. [PMID: 20080505]. (Si vous utilisez l'algorithme BWA-SW)
Li H. (2013) Lire des séquences d'alignement, des séquences de clones et des contigs d'assemblage avec BWA-MEM. arXiv: 1303.3997v2 [q-bio.gn]. (Si vous utilisez l'algorithme BWA-MEM ou la commande FastMap , ou si vous souhaitez citer l'ensemble du package BWA)
Veuillez noter que la dernière référence est une préimprimée hébergée sur arXiv.org. Je n'ai pas l'intention de le soumettre à un journal évalué par des pairs dans un avenir proche.
BWA fonctionne avec une variété de types de données de séquence d'ADN, bien que l'algorithme et le paramètre optimaux puissent varier. La liste suivante donne les paramètres recommandés:
Illumina / 454 / ionTorrent unique se lit plus long que ~ 70 pb ou contiglage d'assemblage jusqu'à quelques mégabases mappées à un génome de référence étroitement lié:
bwa mem ref.fa reads.fq > aln.sam
Illumina unique se lit plus courte que ~ 70bp:
bwa aln ref.fa reads.fq > reads.sai; bwa samse ref.fa reads.sai reads.fq > aln-se.sam
Illumina / 454 / iontorrent apparié se lit plus longtemps que ~ 70bp:
bwa mem ref.fa read1.fq read2.fq > aln-pe.sam
Illumina appariée se lit plus courte que ~ 70bp:
bwa aln ref.fa read1.fq > read1.sai; bwa aln ref.fa read2.fq > read2.sai
bwa sampe ref.fa read1.sai read2.sai read1.fq read2.fq > aln-pe.sam
Pacbio Sous-liads ou Oxford Nanopore se lit dans un génome de référence:
bwa mem -x pacbio ref.fa reads.fq > aln.sam
bwa mem -x ont2d ref.fa reads.fq > aln.sam
BWA-MEM est recommandé pour les séquences de requête supérieures à ~ 70 pb pour une variété de taux d'erreur (ou divergence de séquence). Généralement, le BWA-MEM est plus tolérant avec les erreurs étant donné des séquences de requête plus longues car la possibilité de manquer toutes les graines est petite. Comme il est montré ci-dessus, avec les paramètres non défaut, BWA-MEM fonctionne avec les lectures d'Oxford Nanopore avec un taux d'erreur de séquençage supérieur à 20%.
BWA-SW et BWA-MEM effectuent des alignements locaux. S'il y a une translocation, une fusion de gènes ou une longue suppression, une lecture pontant le point de rupture peut avoir deux coups sûrs, occupant deux lignes dans la sortie SAM. Avec le paramètre par défaut de BWA-MEM, une et une seule ligne est primaire et est coupée douce; D'autres lignes sont marquées avec 0x800 SAM (alignement supplémentaire) et sont durs.
Oui. Depuis 0,6.x, tous les algorithmes BWA fonctionnent avec un génome avec une longueur totale sur 4 Go. Cependant, le chromosome individuel ne doit pas être plus long que 2 Go.
C'est correct. La qualité de cartographie est attribuée pour la lecture individuelle, pas pour une paire de lecture. Il est possible qu'une lecture puisse être cartographiée sans ambiguïté, mais son compagnon tombe dans une répétition en tandem et donc sa position précise ne peut pas être déterminée.
BWA en interne concaténe toutes les séquences de référence en une seule séquence. Une lecture peut être mappée à la jonction de deux séquences de référence adjacentes. Dans ce cas, BWA-Backtrack sera signalé la lecture comme non mappeny (0x4), mais vous verrez la position, le cigare et toutes les étiquettes. Un problème similaire peut également se produire dans l'alignement BWA-SW. BWA-MEM n'a pas ce problème.
Oui, depuis 0,7.11, BWA-MEM soutient officiellement la cartographie à Grch38 + Alt. BWA-Backtrack et BWA-SW ne prennent pas correctement en charge la cartographie ALT à partir de maintenant. Veuillez consulter ReadMe-Alt.MD pour plus de détails. En bref, il est recommandé d'utiliser Bwakit, la libération binaire de BWA, pour générer le génome de référence et pour la cartographie.
Si vous n'êtes pas intéressé par les succès aux contigs Alt, il est normal d'exécuter BWA-MEM sans post-traitement. Les alignements produits de cette façon sont très proches des alignements contre GRCH38 sans contigs alt. Néanmoins, l'application de la post-traitement aide à réduire les faux mappages causés par les lectures de la partie divergente des contigs Alt et permet également le typage HLA. Il est recommandé d'exécuter le script post-traitement.