Hinweis: Minimap2 hat BWA-MEM für Pacbio und Nanopore Read-Ausrichtung ersetzt. Es behält alle wichtigen BWA-MEM-Funktionen bei, ist jedoch ~ 50 Mal so schnell, vielseitiger, genauer und erzeugt eine bessere Ausrichtung auf Basisebene. Eine Beta-Version von BWA-MEM2 wurde für die Kurzlesen-Mapping veröffentlicht. BWA-MEM2 ist ungefähr doppelt so schnell wie BWA-MEM und gibt nahezu identische Ausrichtungen aus.
git clone https://github.com/lh3/bwa.git
cd bwa; make
./bwa index ref.fa
./bwa mem ref.fa read-se.fq.gz | gzip -3 > aln-se.sam.gz
./bwa mem ref.fa read1.fq read2.fq | gzip -3 > aln-pe.sam.gz
BWA ist ein Softwarepaket zum Zuordnen von DNA -Sequenzen gegen ein großes Referenzgenom wie das menschliche Genom. Es besteht aus drei Algorithmen: Bwa-Backtrack, BWA-SW und BWA-MEM. Der erste Algorithmus ist für die Illumina -Sequenz ausgelegt, die bis zu 100 bp liest, während der Rest zwei für längere Sequenzen von 70 bp bis zu einigen Megabasen lag. BWA-MEM und BWA-SW teilen ähnliche Funktionen wie die Unterstützung von Long-Lesevorgängen und chimärer Ausrichtung, aber BWA-MEM, das die neueste ist, wird im Allgemeinen empfohlen, da es schneller und genauer ist. BWA-MEM hat auch eine bessere Leistung als BWA-Backtrack für 70-100 BP Illumina Reads.
Für alle Algorithmen muss BWA zunächst das FM-Index für das Referenzgenom (den Indexbefehl ) konstruieren. Ausrichtungsalgorithmen werden mit verschiedenen Unterbewohnern aufgerufen: ALN/Samse/Sampe für BWA-Backtrack, BWASW für BWA-SW und MEM für den BWA-MEM-Algorithmus.
BWA wird unter GPLV3 veröffentlicht. Der neueste Quellcode ist bei GitHub frei verfügbar. Veröffentlichte Pakete können bei SourceForge heruntergeladen werden. Nachdem Sie den Quellcode erfasst haben, make
Sie einfach die einzelne ausführbare bwa
in das gewünschte Ziel. Die einzige Abhängigkeit, die zum Bau von BWA erforderlich ist, ist ZLIB.
Seit 0,7,11 ist in Bwakit vorangeklagt für x86_64-linux erhältlich. Zusätzlich zu BWA verfügt dieses selbstkonsistente Paket auch mit BWA-assoziierten und dritten Party-Tools für die ordnungsgemäße BAM-to-Fastq-Konvertierung, die Zuordnung von ALT-Contigs, Adapter-Triming, doppelte Markierung, HLA-Typing und zugehörige Datendateien.
Die detaillierte Verwendung wird auf der Mannseite beschrieben, die zusammen mit dem Quellcode verfügbar ist. Sie können man ./bwa.1
verwenden, um die Mannseite in einem Terminal anzuzeigen. Die HTML -Version der Mannseite finden Sie auf der BWA -Website. Wenn Sie Fragen zu BWA haben, können Sie die Mailingliste anmelden und dann die Fragen an [email protected] senden. Sie können auch Fragen in Foren wie Biostar und Seqanswers stellen.
Li H. und Durbin R. (2009) Schnelle und genaue kurze Leseausrichtung mit Burrows-Wheeler-Transformation. Bioinformatik , 25 , 1754-1760. [PMID: 19451168]. (Wenn Sie den BWA-Backtrack-Algorithmus verwenden)
Li H. und Durbin R. (2010) Schnelle und genaue langlesene Ausrichtung mit Burrows-Wheeler-Transformation. Bioinformatik , 26 , 589-595. [PMID: 20080505]. (Wenn Sie den BWA-SW-Algorithmus verwenden)
Li H. (2013) Ausrichtungssequenz, Klonsequenzen und Montage-Contigs mit BWA-MEM. ARXIV: 1303.3997V2 [q-bio.gn]. (Wenn Sie den BWA-MEM-Algorithmus oder den Fastmap -Befehl verwenden oder das gesamte BWA-Paket zitieren möchten)
Bitte beachten Sie, dass es sich bei der letzten Referenz um eine Vorabdruck handelt, die unter arxiv.org gehostet wird. Ich habe nicht vor, es in naher Zukunft an ein von Experten begutachteter Journal einzureichen.
BWA arbeitet mit verschiedenen Arten von DNA -Sequenzdaten, obwohl der optimale Algorithmus und die Einstellung variieren können. Die folgende Liste enthält die empfohlenen Einstellungen:
Illumina/454/Iontorrent-Single-End liest länger als ~ 70 bp oder Assembly-Contigs bis zu einigen Megabasen, die einem eng verwandten Referenzgenom zugeordnet sind:
bwa mem ref.fa reads.fq > aln.sam
Illumina Single-End liest kürzer als ~ 70 bp:
bwa aln ref.fa reads.fq > reads.sai; bwa samse ref.fa reads.sai reads.fq > aln-se.sam
Illumina/454/Iontorrent Paired-End liest länger als ~ 70 bp:
bwa mem ref.fa read1.fq read2.fq > aln-pe.sam
Illumina Paired-End liest kürzer als ~ 70 bp:
bwa aln ref.fa read1.fq > read1.sai; bwa aln ref.fa read2.fq > read2.sai
bwa sampe ref.fa read1.sai read2.sai read1.fq read2.fq > aln-pe.sam
Pacbio -Subvorgang oder Oxford Nanopore liest ein Referenzgenom vor:
bwa mem -x pacbio ref.fa reads.fq > aln.sam
bwa mem -x ont2d ref.fa reads.fq > aln.sam
BWA-MEM wird für Abfragesequenzen für eine Vielzahl von Fehlerraten (oder Sequenzdivergenz) empfohlen. Im Allgemeinen ist BWA-MEM toleranter mit Fehlern, die längere Abfragesequenzen angegeben haben, da die Chance, alle Samen zu fehlen, gering ist. Wie oben gezeigt, arbeitet BWA-MEM bei Nicht-Default-Einstellungen mit Oxford Nanopore mit einer Sequenzierungsfehlerrate von über 20%.
BWA-SW und BWA-MEM führen lokale Ausrichtungen durch. Bei einer Translokation, einer Genfusion oder einer langen Löschung kann eine Leseüberbrückung des Bruchpunkts zwei Treffer haben, die zwei Zeilen im SAM -Ausgang einnehmen. Mit der Standardeinstellung von BWA-MEM ist eine und nur eine Zeile primär und weich abgeschnitten. Andere Zeilen werden mit 0x800 SAM -Flag (ergänzende Ausrichtung) markiert und hart abgeschnitten.
Ja. Seit 0,6.x arbeiten alle BWA -Algorithmen mit einem Genom mit Gesamtlänge über 4 GB. Das individuelle Chromosom sollte jedoch nicht länger als 2 GB sein.
Das ist richtig. Die Zuordnungsqualität wird für einzelne Lesen zugewiesen, nicht für ein Lesepaar. Es ist möglich, dass eine Lese eindeutig abgebildet werden kann, aber sein Kumpel fällt in eine Tandem -Wiederholung, und somit kann seine genaue Position nicht bestimmt werden.
Internes BWA verkettet alle Referenzsequenzen zu einer langen Sequenz. Eine Lektüre kann der Verbindung von zwei benachbarten Referenzsequenzen zugeordnet werden. In diesem Fall wird Bwa-Backtrack die Lektüre als unmond (0x4) markieren, aber Sie werden Position, Zigarre und alle Tags sehen. Ein ähnliches Problem kann auch der BWA-SW-Ausrichtung auftreten. BWA-MEM hat dieses Problem nicht.
Ja, seit 0,7,11 unterstützt BWA-MEM offiziell die Kartierung von GRCh38+Alt. BWA-BACKTRACK und BWA-SW unterstützen ab sofort keine ALT-Mapping. Weitere Informationen finden Sie unter Readme-Alt.md. Kurz gesagt wird empfohlen, Bwakit, die binäre Freisetzung von BWA, zur Erzeugung des Referenzgenoms und zur Zuordnung zu verwenden.
Wenn Sie nicht an Hits zu Alt-Contigs interessiert sind, ist es in Ordnung, BWA-MEM ohne Nachbearbeitung auszuführen. Die auf diese Weise erzeugten Ausrichtungen sind den Ausrichtungen gegen GRCH38 ohne Alt -Contigs sehr nahe. Die Anwendung der Nachbearbeitung hilft jedoch dabei, falsche Zuordnungen zu reduzieren, die durch Lesevorgänge aus dem unterschiedlichen Teil der ALT-Contigs verursacht werden, und ermöglicht auch die HLA-Typisierung. Es wird empfohlen, das Nachbearbeitungskript auszuführen.