deviaTE é uma ferramenta python para análise e visualização de sequências de elementos genéticos móveis.
novo sinalizador de linha de comando --tar
para coletar resultados e gráficos em arquivos tar. Útil no caso de muitas sequências TE serem analisadas
dados de teste nanopore adicionados e testes unitários
problema corrigido de pares de leitura concatenados com o mesmo nome. Isso costumava exigir a execução de scripts/rename_reads.py
para tornar os nomes exclusivos. Isso agora é tratado internamente, portanto não é mais necessário usar o script.
novo sinalizador de linha de comando --no_viz
para evitar a visualização se não for necessário
melhorias de eficiência interna
uso corrigido de arquivos de entrada compactados, incluindo novos casos de teste
Como a base python anterior chegou ao fim de sua vida útil, o deviaTE precisava de uma atualização. Esta atualização tornou-se bastante substancial - portanto, passou para a versão 2:
Descontinuação de recurso:
deviaTE precisa de python >=3.10 e pip:
pip install deviaTE
usage: deviaTE [-h] [--input INPUT] [--preset {sr,map-ont,map-pb,map-hifi}] [--library LIBRARY] [--annotation ANNOTATION] [--min_align_len MIN_ALIGN_LEN] [--families [FAMILIES ...]] [--no_viz] [-v] [--rpm | --single_copy_genes [SINGLE_COPY_GENES ...]]
options:
-h, --help show this help message and exit
--input INPUT Input file(s) to be analysed. Can be *.fastq, *.fa, or directory of files. Optionally gzipped.
--preset {sr,map-ont,map-pb,map-hifi} Minimap2 mapping preset. (sr, map-ont, map-pb, map-hifi) [sr]
--library LIBRARY Path to reference library. Defaults to drosophila transposons from https://github.com/bergmanlab/drosophila-transposons
--annotation ANNOTATION Path to annotation (gff) of sequences in library. Defaults to drosophila TE annotation from https://github.com/bergmanlab/drosophila-transposons
--min_align_len MIN_ALIGN_LEN Minimum length of valid alignments
--families [FAMILIES ...] Which transposon families to analyse. Default: all sequences in library.
--no_viz Only analyse, but don't visualize the results
-v, --version Show version information and exit.
--rpm normalize all abundances by reads per million
--single_copy_genes [SINGLE_COPY_GENES ...] space-separated names of single-copy genes in reference to use for normalisation
DeviaTE é um programa de linha de comando que analisa e visualiza a diversidade de elementos genéticos móveis a partir de dados de sequenciamento sem a necessidade de um genoma montado da espécie hospedeira. O único argumento obrigatório é --input
. Para isso, são necessários dados de sequenciamento ( --input
arquivo único ou diretório de arquivos). Ele pode ser usado com leituras curtas e longas ( --preset
, predefinição de parâmetro minimap2 para leituras curtas [sr], leituras nanopore [map-ont] ou pacbio [map-pb, map-hifi]). Também requer sequências de consenso de elementos genéticos móveis ( --library
, arquivo fasta). Se nenhuma biblioteca for fornecida, ela usará as sequências do transposon Drosphila de https://github.com/bergmanlab/drosophila-transposons. TEs a serem analisados são selecionados com --families
. Elas podem ser múltiplas (separadas por espaço) ou, se não forem especificadas, todas as sequências de referência da biblioteca serão usadas.
Os argumentos disponíveis são listados com -h
ou --help
.
Um exemplo está disponível para teste. As sequências são do Drosophila 12 Genomes Consortium et al. 2007. Evolução de genes e genomas na filogenia de Drosophila. Natureza . 450(7167):203-218.
Podemos analisar o TE jockey (DMLINEJA) e obter uma visualização usando:
deviaTE --input ../data/jockey_dmel.fastq --families FBte0000088
isso produz um arquivo de alinhamento chamado jockey_dmel.fastq.paf
, cria a tabela de saída jockey_dmel.fastq.FBte0000088.deviate
com informações sobre cobertura e inserções estimadas (se selecionadas) e a visualização jockey_dmel.fastq.FBte0000088.deviate.pdf
.
O manual e o passo a passo das versões anteriores podem ser encontrados (neste link do github)
A tabela começa com algumas linhas de cabeçalho indicadas por #. Este cabeçalho contém o número estimado de inserções de TE (se selecionado) e nomes de colunas. Cada linha corresponde a uma posição da sequência TE. Desde a versão 2, hq_cov
reporta cobertura de bases de alta qualidade em vez de mapeamentos de alta qualidade, já que isso é mais interessante, por exemplo, para dados de nanoporos.
Coluna | Descrição |
---|---|
TEfam | Nome da família TE analisada |
sample_id | nome do arquivo de entrada |
pos | posição na sequência de referência |
refbase | Nucleotídeo na sequência de referência nesta posição |
ACGT | contagens de cada nucleotídeo nesta posição |
cov | cobertura total nesta posição |
hq_cov | cobertura apenas de bases de alta qualidade (>Q15) |
snp | indicador para posição de variante |
delet | contagem de observações de lacunas |
Por padrão, nenhuma normalização é realizada e as contagens relatadas são abundâncias brutas, que não são adequadas para comparar TEs entre amostras. Portanto, duas estratégias diferentes são implementadas, normalização por milhão de leituras mapeadas e normalização por genes de cópia única.
--rpm
.--library
. Em seguida, adicione --single_copy_genes GENE1 GENE2 GENE3 ...
, onde GENE1 etc. são os cabeçalhos do arquivo de biblioteca. O número estimado de cópias por genoma haplóide é escrito na seção de cabeçalho da tabela de saída resultante. Se você estiver analisando TEs em Drosophila, especificar uma --library
ou --annotation
de sequências de referência é opcional. Por padrão, o deviaTE baixa e usa automaticamente a biblioteca TE de https://github.com/bergmanlab/drosophila-transposons se nenhuma biblioteca e anotação forem fornecidas.
Para normalização de genes de cópia única em Drosophila, cinco genes são automaticamente adicionados à biblioteca (Dmel_rpl32, Dmel_piwi, Dmel_Act5C, Dmel_RpII140 e Dmel_p53), que podem ser usados para normalização:
--single_copy_genes Dmel_rpl32 Dmel_piwi ...
Você pode usar o DeviaTE para leituras emparelhadas, mapeando-as no modo de leitura única.
Isso pode ser feito, por exemplo, usando um único arquivo fastq concatenado que contém ambos os pares de leitura (read1 e read2). (Usar o script scripts/rename_reads.py
para dar nomes exclusivos aos posicionamentos não é mais necessário, isso é feito internamente desde 2.2.0)
Um artigo descrevendo o deviaTE está disponível aqui: https://onlinelibrary.wiley.com/doi/10.1111/1755-0998.13030
@article{weilguny2019,
title = {{{DeviaTE}}: {{Assembly-free}} Analysis and Visualization of Mobile Genetic Element Composition},
author = {Weilguny, Lukas and Kofler, Robert},
year = {2019},
journal = {Molecular Ecology Resources},
volume = {19},
number = {5},
pages = {1346--1354},
doi = {10.1111/1755-0998.13030}
}
Se você encontrar algum problema, tiver dúvidas ou ideias para melhorias adicionais, use o rastreador de problemas neste repositório, obrigado!
deviaTE está licenciado sob a licença GPLv3
O código é coberto por pytests. Para executar esta instalação: pip install pytest pytest-cov
. Em seguida, execute os testes: cd tests; pytest --cov --cov-report html
. Para testar compilações locais: hatch build && pip install dist/deviate-2.2.0-py3-none-any.whl --force-reinstall --no-deps