deviaTE es una herramienta de Python para el análisis y visualización de secuencias de elementos genéticos móviles.
Nueva bandera de línea de comando --tar
para recopilar resultados y gráficos en archivos tar. Útil en caso de que se analicen muchas secuencias de TE
Se agregaron datos de prueba de nanoporos y pruebas unitarias.
Se solucionó el problema de los pares de lectura concatenados que tenían el mismo nombre. Esto solía requerir la ejecución de scripts/rename_reads.py
para que los nombres sean únicos. Esto ahora se maneja internamente, por lo que ya no es necesario usar el script.
Nuevo indicador de línea de comando --no_viz
para evitar la visualización si no es necesario
mejoras de eficiencia interna
Se corrigió el uso de archivos de entrada comprimidos con gzip, se incluyeron nuevos casos de prueba.
Dado que la base de Python anterior llegó al final de su vida útil, deviaTE necesitaba una actualización. Esta actualización se volvió bastante sustancial, por lo que pasó a la versión 2:
Característica en desuso:
deviaTE necesita python >=3.10 y pip:
pip install deviaTE
usage: deviaTE [-h] [--input INPUT] [--preset {sr,map-ont,map-pb,map-hifi}] [--library LIBRARY] [--annotation ANNOTATION] [--min_align_len MIN_ALIGN_LEN] [--families [FAMILIES ...]] [--no_viz] [-v] [--rpm | --single_copy_genes [SINGLE_COPY_GENES ...]]
options:
-h, --help show this help message and exit
--input INPUT Input file(s) to be analysed. Can be *.fastq, *.fa, or directory of files. Optionally gzipped.
--preset {sr,map-ont,map-pb,map-hifi} Minimap2 mapping preset. (sr, map-ont, map-pb, map-hifi) [sr]
--library LIBRARY Path to reference library. Defaults to drosophila transposons from https://github.com/bergmanlab/drosophila-transposons
--annotation ANNOTATION Path to annotation (gff) of sequences in library. Defaults to drosophila TE annotation from https://github.com/bergmanlab/drosophila-transposons
--min_align_len MIN_ALIGN_LEN Minimum length of valid alignments
--families [FAMILIES ...] Which transposon families to analyse. Default: all sequences in library.
--no_viz Only analyse, but don't visualize the results
-v, --version Show version information and exit.
--rpm normalize all abundances by reads per million
--single_copy_genes [SINGLE_COPY_GENES ...] space-separated names of single-copy genes in reference to use for normalisation
DeviaTE es un programa de línea de comandos que analiza y visualiza la diversidad de elementos genéticos móviles a partir de datos de secuenciación sin la necesidad de un genoma ensamblado de la especie huésped. El único argumento requerido es --input
. Para ello, se necesitan datos de secuenciación ( --input
de un solo archivo o directorio de archivos). Se puede utilizar con lecturas cortas y largas ( --preset
, parámetro minimap2 preestablecido para lecturas cortas [sr], lecturas de nanoporos [map-ont] o pacbio [map-pb, map-hifi]). También requiere secuencias de consenso de elementos genéticos móviles ( --library
, archivo fasta). Si no se proporciona ninguna biblioteca, utilizará las secuencias de transposones de Drosphila de https://github.com/bergmanlab/drosophila-transposons. Los TE que se analizarán se seleccionan con --families
. Pueden ser múltiples (separadas por espacios) o, si no se especifican, se utilizan todas las secuencias de referencia de la biblioteca.
Los argumentos disponibles se enumeran con -h
o --help
.
Hay un ejemplo disponible para probar. Las secuencias son del Drosophila 12 Genomes Consortium et al. 2007. Evolución de genes y genomas sobre la filogenia de Drosophila. Naturaleza . 450(7167):203-218.
Podemos analizar el jockey TE (DMLINEJA) y obtener una visualización usando:
deviaTE --input ../data/jockey_dmel.fastq --families FBte0000088
esto produce un archivo de alineación llamado jockey_dmel.fastq.paf
, crea la tabla de salida jockey_dmel.fastq.FBte0000088.deviate
con información sobre cobertura e inserciones estimadas (si se seleccionan), y la visualización jockey_dmel.fastq.FBte0000088.deviate.pdf
.
Puede encontrar el manual y el tutorial de versiones anteriores (en este enlace de github)
La tabla comienza con algunas líneas de encabezado indicadas con #. Este encabezado contiene el número estimado de inserciones de TE (si se seleccionan) y los nombres de las columnas. Cada fila corresponde a una posición de la secuencia TE. Desde la versión 2, hq_cov
informa cobertura de bases de alta calidad en lugar de mapeos de alta calidad, ya que eso es más interesante, por ejemplo, para datos de nanoporos.
Columna | Descripción |
---|---|
TEfam | Nombre de la familia TE analizada |
sample_id | nombre del archivo de entrada |
pos | posición en la secuencia de referencia |
refbase | Nucleótido en la secuencia de referencia en esta posición |
ACGT | recuentos de cada nucleótido en esta posición |
cov | cobertura total en esta posición |
hq_cov | cobertura de bases de alta calidad únicamente (>Q15) |
snp | indicador de posición variante |
delet | recuento de observaciones de brechas |
De forma predeterminada, no se realiza ninguna normalización y los recuentos informados son abundancias brutas, que no son adecuadas para comparar TE entre muestras. Por lo tanto, se implementan dos estrategias diferentes, la normalización por millón de lecturas mapeadas y la normalización por genes de copia única.
--rpm
.--library
. Luego agregue --single_copy_genes GENE1 GENE2 GENE3 ...
, donde GENE1, etc. son los encabezados del archivo de la biblioteca. El número de copias estimado por genoma haploide se escribe en la sección de encabezado de la tabla de salida resultante. Si está analizando TE en Drosophila, especificar una --library
o --annotation
de secuencias de referencia es opcional. De forma predeterminada, deviaTE descarga y utiliza automáticamente la biblioteca TE de https://github.com/bergmanlab/drosophila-transposons si no se proporciona ninguna biblioteca ni anotaciones.
Para la normalización de genes de copia única en Drosophila, se agregan automáticamente cinco genes a la biblioteca (Dmel_rpl32, Dmel_piwi, Dmel_Act5C, Dmel_RpII140 y Dmel_p53), que pueden usarse para la normalización:
--single_copy_genes Dmel_rpl32 Dmel_piwi ...
Puede utilizar DeviaTE para lecturas de extremos emparejados mapeándolas en modo de lectura única.
Esto se puede hacer, por ejemplo, utilizando un único archivo fastq concatenado que contenga ambos pares de lectura (lectura1 y lectura2). (Ya no es necesario usar el script scripts/rename_reads.py
para dar nombres únicos a los compañeros, esto se hace internamente desde 2.2.0)
Un artículo que describe deviaTE está disponible aquí: https://onlinelibrary.wiley.com/doi/10.1111/1755-0998.13030
@article{weilguny2019,
title = {{{DeviaTE}}: {{Assembly-free}} Analysis and Visualization of Mobile Genetic Element Composition},
author = {Weilguny, Lukas and Kofler, Robert},
year = {2019},
journal = {Molecular Ecology Resources},
volume = {19},
number = {5},
pages = {1346--1354},
doi = {10.1111/1755-0998.13030}
}
Si encuentra algún problema, tiene preguntas o ideas para mejorar aún más, utilice el rastreador de problemas en este repositorio, ¡gracias!
deviaTE tiene la licencia GPLv3
El código está cubierto por pytests. Para ejecutar estas instalaciones: pip install pytest pytest-cov
. Luego ejecute pruebas: cd tests; pytest --cov --cov-report html
. Para probar compilaciones locales: hatch build && pip install dist/deviate-2.2.0-py3-none-any.whl --force-reinstall --no-deps