ПРИМЕЧАНИЕ: Minimap2 заменил BWA-MEM для выравнивания Pacbio и Nanopore. Он сохраняет все основные функции BWA-MEM, но в ~ 50 раз быстрее, более универсально, более точные и производит лучшее выравнивание на уровне базового уровня. Бета-версия BWA-MEM2 была выпущена для короткого чтения. BWA-MEM2 примерно вдвое быстрее, чем BWA-MEM, и выходы вблизи идентичных выравниваний.
git clone https://github.com/lh3/bwa.git
cd bwa; make
./bwa index ref.fa
./bwa mem ref.fa read-se.fq.gz | gzip -3 > aln-se.sam.gz
./bwa mem ref.fa read1.fq read2.fq | gzip -3 > aln-pe.sam.gz
BWA - это программный пакет для картирования последовательностей ДНК с большим эталонным геномом, таким как геном человека. Он состоит из трех алгоритмов: Bwa-Backtrack, Bwa-Sw и Bwa-Mem. Первый алгоритм предназначен для чтения последовательности Illumina до 100 п.н., в то время как остальные два для более длинных последовательностей варьировались от 70 п.н. до нескольких мегабаз. BWA-MEM и BWA-SW имеют аналогичные функции, такие как поддержка длинных чтений и химерного выравнивания, но BWA-MEM, который является последним, обычно рекомендуется, поскольку он быстрее и точнее. Bwa-Mem также обладает лучшей производительностью, чем BWA-Backtrack для 70-100BP Illumina.
Для всех алгоритмов BWA сначала необходимо построить FM-индекс для эталонного генома (команда индекса ). Алгоритмы выравнивания вызываются с различными подключениями: Aln/Samse/Sampe для BWA-Backtrack, BWASW для BWA-SW и MEM для алгоритма BWA-MEM.
BWA выпускается под GPLV3. Последний исходный код свободно доступен в GitHub. Выпущенные пакеты могут быть загружены в Sourceforge. После получения исходного кода просто используйте make
для компиляции и копирования единого исполняемого bwa
в желаемый пункт назначения. Единственная зависимость, необходимая для построения BWA, - это Zlib.
С 0,7,11, предварительно скомпилированный бинар по x86_64-linux доступен в Bwakit. В дополнение к BWA этот самосогласованный пакет также поставляется с BWA-ассоциированными и 3-м сторонними инструментами для правильного преобразования BAM-FASTQ, отображения с Alt Contigs, адаптерной тримингом, дублирующей маркировкой, печати HLA и связанных с ними файлов данных.
Подробное использование описано на странице «Человек», доступной вместе с исходным кодом. Вы можете использовать man ./bwa.1
, чтобы просмотреть страницу человека в терминале. HTML -версию страницы Man можно найти на веб -сайте BWA. Если у вас есть вопросы о BWA, вы можете зарегистрировать список рассылки, а затем отправить вопросы на [email protected]. Вы также можете задать вопросы на форумах, таких как Biostar и Seqanswers.
Li H. и Durbin R. (2009) Быстрое и точное выравнивание короткого чтения с преобразованием Burrows-Wheeler. Биоинформатика , 25 , 1754-1760. [PMID: 19451168]. (Если вы используете алгоритм BWA-Backtrack)
Li H. и Durbin R. (2010) Быстрое и точное длинное выравнивание с преобразованием Burrows-Wheeler. Биоинформатика , 26 , 589-595. [PMID: 20080505]. (Если вы используете алгоритм BWA-SW)
Li H. (2013) Выравнивающиеся чтения последовательности, последовательности клонов и контиги сборки BWA-MEM. arxiv: 1303.3997v2 [q-bio.gn]. (Если вы используете алгоритм BWA-MEM или команду FastMap , или хотите процитировать весь пакет BWA)
Обратите внимание, что последняя ссылка - это предварительный прибор, размещенный на arxiv.org. У меня нет плана представить его в рецензируемый журнал в ближайшем будущем.
BWA работает с различными типами данных последовательности ДНК, хотя оптимальный алгоритм и настройка могут варьироваться. В следующем списке приведены рекомендуемые настройки:
Illumina/454/Iontorrent одноводный считывается дольше, чем ~ 70 п.н. или сборка до нескольких мегабаз, отображаемых с тесно связанным эталонным геномом:
bwa mem ref.fa reads.fq > aln.sam
Illumina одиноко читается короче ~ 70BP:
bwa aln ref.fa reads.fq > reads.sai; bwa samse ref.fa reads.sai reads.fq > aln-se.sam
Illumina/454/Iontorrent парные считывается дольше ~ 70BP:
bwa mem ref.fa read1.fq read2.fq > aln-pe.sam
Illumina в паре с чтением короче ~ 70BP:
bwa aln ref.fa read1.fq > read1.sai; bwa aln ref.fa read2.fq > read2.sai
bwa sampe ref.fa read1.sai read2.sai read1.fq read2.fq > aln-pe.sam
Пакбио подбодры или нанопора Оксфорда читаются на эталонном геноме:
bwa mem -x pacbio ref.fa reads.fq > aln.sam
bwa mem -x ont2d ref.fa reads.fq > aln.sam
BWA-MEM рекомендуется для последовательностей запросов дольше, чем ~ 70 п.н. для различных частот ошибок (или дивергенции последовательностей). Как правило, BWA-MEM более терпим с ошибками, которые дают более длинные последовательности запросов, так как вероятность пропустить все семена мала. Как показано выше, с настройками, не являющимися деко-по умолчанию, BWA-MEM работает с нанопором Oxford с частотой ошибок секвенирования более 20%.
BWA-SW и BWA-MEM выполняют местные выравнивания. Если есть транслокация, слияние генов или длинное удаление, считывающая точка разрыва может иметь два удара, занимая две линии на выходе SAM. С настройкой по умолчанию BWA-MEM одна и только одна линия является первичной и мягкой обрезанной; Другие линии помечены флага 0x800 SAM (дополнительное выравнивание) и жестко обрезаны.
Да. С 0,6.x все алгоритмы BWA работают с геномом с общей длиной более 4 ГБ. Однако отдельная хромосома не должна быть длиннее 2 ГБ.
Это правильно. Качество отображения назначается для индивидуального чтения, а не для пары чтения. Возможно, что одно чтение может быть однозначно нанесено на карту, но его партнер попадает в тандемный повтор, и, следовательно, его точное положение не может быть определена.
Внутренне BWA объединяет все эталонные последовательности в одну длинную последовательность. Считание может быть сопоставлено с соединением двух соседних эталонных последовательностей. В этом случае BWA-Backtrack будет помечать чтение как не наложенное (0x4), но вы увидите позицию, сигару и все теги. Аналогичная проблема может возникнуть и с выравниванием BWA-SW. BWA-Mem не имеет этой проблемы.
Да, с 0,7,11, BWA-MEM официально поддерживает картирование с GRCH38+ALT. Bwa-Backtrack и Bwa-SW не поддерживают картирование ALT на данный момент. Пожалуйста, смотрите Readme-alt.md для получения подробной информации. Вкратце, рекомендуется использовать Bwakit, бинарный выпуск BWA для создания эталонного генома и для картирования.
Если вы не заинтересованы в хитах для Alt Contigs, можно запустить BWA-MEM без постобработки. Выравнивания, произведенные таким образом, очень близки к выравниванию против GRCH38 без Alt Contigs. Тем не менее, применение пост-обработки помогает уменьшить ложные отображения, вызванные чтениями из расходящейся части Alt Contigs, а также позволяет набирать HLA. Рекомендуется запустить сценарий после обработки.