deviaTE est un outil Python pour l'analyse et la visualisation de séquences d'éléments génétiques mobiles.
nouvel indicateur de ligne de commande --tar
pour collecter les résultats et les tracés dans les fichiers tar. Utile dans le cas où de nombreuses séquences TE sont analysées
ajout de données de test de nanopores et de tests unitaires
Correction du problème des paires de lectures concaténées ayant le même nom. Auparavant, cela nécessitait l'exécution scripts/rename_reads.py
pour rendre les noms uniques. Ceci est désormais géré en interne, l'utilisation du script n'est donc plus nécessaire.
nouvel indicateur de ligne de commande --no_viz
pour empêcher la visualisation si elle n'est pas nécessaire
améliorations de l'efficacité interne
utilisation corrigée des fichiers d'entrée compressés, nouveaux cas de test inclus
Depuis que la base Python précédente a atteint la fin de sa vie, deviaTE avait besoin d'une mise à jour. Cette mise à jour est devenue assez importante - donc passée à la version 2 :
Abandon des fonctionnalités :
deviaTE a besoin de python >=3.10 et pip :
pip install deviaTE
usage: deviaTE [-h] [--input INPUT] [--preset {sr,map-ont,map-pb,map-hifi}] [--library LIBRARY] [--annotation ANNOTATION] [--min_align_len MIN_ALIGN_LEN] [--families [FAMILIES ...]] [--no_viz] [-v] [--rpm | --single_copy_genes [SINGLE_COPY_GENES ...]]
options:
-h, --help show this help message and exit
--input INPUT Input file(s) to be analysed. Can be *.fastq, *.fa, or directory of files. Optionally gzipped.
--preset {sr,map-ont,map-pb,map-hifi} Minimap2 mapping preset. (sr, map-ont, map-pb, map-hifi) [sr]
--library LIBRARY Path to reference library. Defaults to drosophila transposons from https://github.com/bergmanlab/drosophila-transposons
--annotation ANNOTATION Path to annotation (gff) of sequences in library. Defaults to drosophila TE annotation from https://github.com/bergmanlab/drosophila-transposons
--min_align_len MIN_ALIGN_LEN Minimum length of valid alignments
--families [FAMILIES ...] Which transposon families to analyse. Default: all sequences in library.
--no_viz Only analyse, but don't visualize the results
-v, --version Show version information and exit.
--rpm normalize all abundances by reads per million
--single_copy_genes [SINGLE_COPY_GENES ...] space-separated names of single-copy genes in reference to use for normalisation
DeviaTE est un programme en ligne de commande qui analyse et visualise la diversité des éléments génétiques mobiles à partir des données de séquençage sans avoir besoin d'un génome assemblé de l'espèce hôte. Le seul argument obligatoire est --input
. Pour cela, il faut séquencer les données ( --input
fichier unique ou répertoire de fichiers). Il peut être utilisé avec des lectures courtes et longues ( --preset
, paramètre minimap2 prédéfini pour les lectures courtes [sr], les lectures nanopore [map-ont] ou pacbio [map-pb, map-hifi]). Il nécessite également des séquences consensus d'éléments génétiques mobiles ( --library
, fichier fasta). Si aucune bibliothèque n'est fournie, elle utilisera les séquences de transposons de Drosphila de https://github.com/bergmanlab/drosophila-transposons. Les TE à analyser sont sélectionnés avec --families
. Celles-ci peuvent être multiples (séparées par des espaces) ou si elles ne sont pas spécifiées, toutes les séquences de référence de la bibliothèque sont utilisées.
Les arguments disponibles sont répertoriés avec -h
ou --help
.
Un exemple est disponible pour tester. Les séquences proviennent du Drosophila 12 Genomes Consortium et al. 2007. Evolution des gènes et des génomes sur la phylogénie de la drosophile. Nature . 450(7167):203-218.
Nous pouvons analyser le jockey TE (DMLINEJA) et obtenir une visualisation en utilisant :
deviaTE --input ../data/jockey_dmel.fastq --families FBte0000088
cela produit un fichier d'alignement appelé jockey_dmel.fastq.paf
, crée la table de sortie jockey_dmel.fastq.FBte0000088.deviate
avec des informations sur la couverture et les insertions estimées (si sélectionnées), ainsi que la visualisation jockey_dmel.fastq.FBte0000088.deviate.pdf
.
Le manuel et la procédure pas à pas des versions précédentes peuvent être trouvés (sur ce lien github)
Le tableau commence par quelques lignes d'en-tête indiquées par #. Cet en-tête contient le nombre estimé d'insertions TE (si sélectionné) et les noms de colonnes. Chaque ligne correspond à une position de la séquence TE. Depuis la version 2, hq_cov
rapporte une couverture de bases de haute qualité au lieu de cartographies de haute qualité, car c'est plus intéressant, par exemple pour les données nanopores.
Colonne | Description |
---|---|
TEfam | Nom de la famille TE analysée |
sample_id | nom du fichier d'entrée |
pos | position dans la séquence de référence |
refbase | Nucléotide dans la séquence de référence à cette position |
ACGT | comptes de chaque nucléotide à cette position |
cov | couverture totale à ce poste |
hq_cov | couverture des bases de haute qualité uniquement (>Q15) |
snp | indicateur de position de variante |
delet | nombre d'observations d'écarts |
Par défaut, aucune normalisation n'est effectuée et les décomptes rapportés sont des abondances brutes, qui ne conviennent pas pour comparer les ET entre échantillons. Par conséquent, deux stratégies différentes sont mises en œuvre : la normalisation par million de lectures cartographiées et la normalisation par gènes à copie unique.
--rpm
.--library
. Ajoutez ensuite --single_copy_genes GENE1 GENE2 GENE3 ...
, où GENE1 etc. sont les en-têtes du fichier de bibliothèque. Le nombre de copies estimé par génome haploïde est écrit dans la section d'en-tête du tableau de sortie résultant. Si vous analysez des TE chez la drosophile, la spécification d'une --library
ou --annotation
de séquences de référence est facultative. Par défaut, deviaTE télécharge et utilise automatiquement la bibliothèque TE à partir de https://github.com/bergmanlab/drosophila-transposons si aucune bibliothèque ni annotation n'est fournie.
Pour la normalisation des gènes en copie unique chez la drosophile, cinq gènes sont automatiquement ajoutés à la bibliothèque (Dmel_rpl32, Dmel_piwi, Dmel_Act5C, Dmel_RpII140 et Dmel_p53), qui peuvent être utilisés pour la normalisation :
--single_copy_genes Dmel_rpl32 Dmel_piwi ...
Vous pouvez utiliser DeviaTE pour les lectures appariées en les mappant en mode de lecture unique.
Cela peut être fait, par exemple, en utilisant un seul fichier fastq concaténé contenant les deux paires de lecture (read1 et read2). (Utiliser le script scripts/rename_reads.py
pour donner des noms uniques aux partenaires n'est plus nécessaire, cela se fait en interne depuis la 2.2.0)
Un article décrivant deviaTE est disponible ici : https://onlinelibrary.wiley.com/doi/10.1111/1755-0998.13030
@article{weilguny2019,
title = {{{DeviaTE}}: {{Assembly-free}} Analysis and Visualization of Mobile Genetic Element Composition},
author = {Weilguny, Lukas and Kofler, Robert},
year = {2019},
journal = {Molecular Ecology Resources},
volume = {19},
number = {5},
pages = {1346--1354},
doi = {10.1111/1755-0998.13030}
}
Si vous rencontrez des problèmes, avez des questions ou des idées d'amélioration, veuillez utiliser l'outil de suivi des problèmes sur ce référentiel, merci !
deviaTE est sous licence GPLv3
Le code est couvert par des pytests. Pour exécuter ces installations : pip install pytest pytest-cov
. Exécutez ensuite les tests : cd tests; pytest --cov --cov-report html
. Pour tester les versions locales : hatch build && pip install dist/deviate-2.2.0-py3-none-any.whl --force-reinstall --no-deps