NOTA: O MINMAP2 substituiu o BWA-MEM por Pacbio e Nanopore Read Alignment. Ele mantém todos os principais recursos do BWA-MEM, mas é ~ 50 vezes mais rápido, mais versátil, mais preciso e produz melhor alinhamento no nível da base. Uma versão beta do BWA-MEM2 foi lançada para mapeamento de leitura curta. O BWA-MEM2 é cerca de duas vezes mais rápido que o BWA-MEM e saídas próximas a alinhamentos idênticos.
git clone https://github.com/lh3/bwa.git
cd bwa; make
./bwa index ref.fa
./bwa mem ref.fa read-se.fq.gz | gzip -3 > aln-se.sam.gz
./bwa mem ref.fa read1.fq read2.fq | gzip -3 > aln-pe.sam.gz
O BWA é um pacote de software para mapear sequências de DNA contra um grande genoma de referência, como o genoma humano. Consiste em três algoritmos: BWA-backtrack, BWA-SW e BWA-MEM. O primeiro algoritmo foi projetado para a sequência Illumina lê até 100 pb, enquanto o restante dois para seqüências mais longas variou de 70 pb a algumas megabases. O BWA-MEM e o BWA-SW compartilham recursos semelhantes, como o suporte de leituras longas e o alinhamento quimérico, mas o BWA-MEM, que é o mais recente, é geralmente recomendado, pois é mais rápido e mais preciso. O BWA-MEM também tem melhor desempenho do que o BWA-backtrack para leituras de 70-100BP Illumina.
Para todos os algoritmos, a BWA primeiro precisa construir o índice FM para o genoma de referência (o comando índice ). Os algoritmos de alinhamento são invocados com diferentes subcomando: ALN/SAMSE/SAMPE para BWA-backtrack, BWASW para BWA-SW e MEM para o algoritmo BWA-MEM.
O BWA é liberado pelo GPLV3. O código fonte mais recente está disponível gratuitamente no GitHub. Os pacotes lançados podem ser baixados no Sourceforge. Depois de adquirir o código -fonte, basta usar make
para compilar e copiar o único bwa
executável para o destino desejado. A única dependência necessária para construir o BWA é o Zlib.
Desde 0,7.11, o binário pré-compilado para x86_64-linux está disponível no BWAKIT. Além do BWA, este pacote autoconsistente também vem com ferramentas associadas a BWA e de terceiros para conversão adequada de BAM-FASTQ, mapeamento em contigs ALT, acabamento adaptador, marcação duplicada, digitação HLA e arquivos de dados associados.
O uso detalhado é descrito na página do homem disponível juntamente com o código -fonte. Você pode usar man ./bwa.1
para visualizar a página do homem em um terminal. A versão HTML da página Man pode ser encontrada no site da BWA. Se você tiver dúvidas sobre o BWA, poderá inscrever a lista de discussão e enviar as perguntas para [email protected]. Você também pode fazer perguntas em fóruns como Biostar e Seqanswers.
Li H. e Durbin R. (2009) Alinhamento de leitura curta rápida e precisa com a transformação de rodas de tocas. Bioinformatics , 25 , 1754-1760. [PMID: 19451168]. (Se você usar o algoritmo BWA-backtrack)
Li H. e Durbin R. (2010) Alinhamento rápido e preciso de leitura longa com transformada em vasculhas. Bioinformatics , 26 , 589-595. [PMID: 20080505]. (Se você usar o algoritmo BWA-SW)
Li H. (2013) LEITAS DE SEQUÊNCIA DE ALINHAMENTO, SEQUÊNCIAS DE CLONE E CONTIGOS DE MONTAGEM COM BWA-MEM. ARXIV: 1303.3997V2 [Q-BIO.GN]. (Se você usar o algoritmo BWA-MEM ou o comando FastMap , ou deseja citar todo o pacote BWA)
Observe que a última referência é uma pré -impressão hospedada em arxiv.org. Não tenho planejado enviá-lo a um diário revisado por pares em um futuro próximo.
A BWA trabalha com vários tipos de dados de sequência de DNA, embora o algoritmo e a configuração ideais possam variar. A lista a seguir fornece as configurações recomendadas:
Illumina/454/iontorrent lê mais de ~ 70bp ou contigs de montagem até algumas megabases mapeadas para um genoma de referência intimamente relacionado:
bwa mem ref.fa reads.fq > aln.sam
Illumina Única lê mais curta que ~ 70bp:
bwa aln ref.fa reads.fq > reads.sai; bwa samse ref.fa reads.sai reads.fq > aln-se.sam
Illumina/454/ionterrent lê mais de ~ 70bp:
bwa mem ref.fa read1.fq read2.fq > aln-pe.sam
Illumina emparelhado lê mais curto que ~ 70bp:
bwa aln ref.fa read1.fq > read1.sai; bwa aln ref.fa read2.fq > read2.sai
bwa sampe ref.fa read1.sai read2.sai read1.fq read2.fq > aln-pe.sam
Pacbio Subreads ou Oxford Nanopore lê para um genoma de referência:
bwa mem -x pacbio ref.fa reads.fq > aln.sam
bwa mem -x ont2d ref.fa reads.fq > aln.sam
O BWA-MEM é recomendado para sequências de consulta maior que ~ 70bp para uma variedade de taxas de erro (ou divergência de sequência). Geralmente, o BWA-MEM é mais tolerante, com erros, com seqüências de consulta mais longas, pois a chance de perder todas as sementes é pequena. Como é mostrado acima, com as configurações não-defensivas, o BWA-MEM funciona com o Oxford Nanopore lê com uma taxa de erro de sequenciamento acima de 20%.
BWA-SW e BWA-MEM realizam alinhamentos locais. Se houver uma translocação, uma fusão de genes ou uma longa exclusão, uma ponte de leitura no ponto de interrupção pode ter dois acertos, ocupando duas linhas na saída SAM. Com a configuração padrão do BWA-MEM, uma e apenas uma linha é primária e é macia cortada; Outras linhas são marcadas com o sinalizador 0x800 SAM (alinhamento suplementar) e são presas.
Sim. Desde 0,6.x, todos os algoritmos BWA funcionam com um genoma com comprimento total acima de 4 GB. No entanto, o cromossomo individual não deve ser superior a 2 GB.
Isso está correto. A qualidade do mapeamento é atribuída para leitura individual, não para um par de leitura. É possível que uma leitura possa ser mapeada sem ambiguidade, mas seu companheiro cai em uma repetição em tandem e, portanto, sua posição precisa não pode ser determinada.
Internamente, a BWA concatena todas as seqüências de referência em uma sequência longa. Uma leitura pode ser mapeada para a junção de duas sequências de referência adjacentes. Nesse caso, o BWA-BackTrack sinalizará a leitura como não mapeada (0x4), mas você verá a posição, o charuto e todas as tags. Um problema semelhante também pode ocorrer ao alinhamento do BWA-SW. O BWA-MEM não tem esse problema.
Sim, desde 0.7.11, o BWA-MEM apóia oficialmente o mapeamento para GRCH38+ALT. O BWA-BackTrack e o BWA-SW não oferecem suporte adequadamente ao mapeamento ALT a partir de agora. Consulte ReadMe-alt.md para obter detalhes. Resumidamente, é recomendável usar o Bwakit, a liberação binária da BWA, para gerar o genoma de referência e o mapeamento.
Se você não estiver interessado em hits em contigs alt, não há problema em executar o BWA-MEM sem pós-processamento. Os alinhamentos produzidos dessa maneira estão muito próximos dos alinhamentos contra o GRCH38 sem contigs alt. No entanto, a aplicação de pós-processamento ajuda a reduzir os mapeamentos falsos causados por leituras da parte divergente dos contigs Alt e também permite a digitação do HLA. Recomenda-se executar o script de pós-processamento.