deviaTE — это инструмент Python для анализа и визуализации последовательностей мобильных генетических элементов.
новый флаг командной строки --tar
для сбора результатов и графиков в файлах tar. Полезно в случае, если анализируется много последовательностей TE.
добавлены данные испытаний нанопор и модульные тесты
исправлена проблема с объединенными парами чтения, имеющими одно и то же имя. Раньше для этого требовалось запустить scripts/rename_reads.py
чтобы сделать имена уникальными. Теперь это обрабатывается внутри, поэтому использование сценария больше не требуется.
новый флаг командной строки --no_viz
для предотвращения визуализации, если она не нужна
повышение внутренней эффективности
исправлено использование сжатых входных файлов, включены новые тестовые примеры
Поскольку предыдущая база Python вышла из строя, DeviaTE потребовалось обновление. Это обновление стало весьма существенным, поэтому мы перешли на версию 2:
Устаревшая функция:
deviaTE нужен python >=3.10 и pip:
pip install deviaTE
usage: deviaTE [-h] [--input INPUT] [--preset {sr,map-ont,map-pb,map-hifi}] [--library LIBRARY] [--annotation ANNOTATION] [--min_align_len MIN_ALIGN_LEN] [--families [FAMILIES ...]] [--no_viz] [-v] [--rpm | --single_copy_genes [SINGLE_COPY_GENES ...]]
options:
-h, --help show this help message and exit
--input INPUT Input file(s) to be analysed. Can be *.fastq, *.fa, or directory of files. Optionally gzipped.
--preset {sr,map-ont,map-pb,map-hifi} Minimap2 mapping preset. (sr, map-ont, map-pb, map-hifi) [sr]
--library LIBRARY Path to reference library. Defaults to drosophila transposons from https://github.com/bergmanlab/drosophila-transposons
--annotation ANNOTATION Path to annotation (gff) of sequences in library. Defaults to drosophila TE annotation from https://github.com/bergmanlab/drosophila-transposons
--min_align_len MIN_ALIGN_LEN Minimum length of valid alignments
--families [FAMILIES ...] Which transposon families to analyse. Default: all sequences in library.
--no_viz Only analyse, but don't visualize the results
-v, --version Show version information and exit.
--rpm normalize all abundances by reads per million
--single_copy_genes [SINGLE_COPY_GENES ...] space-separated names of single-copy genes in reference to use for normalisation
DeviaTE — это программа командной строки, которая анализирует и визуализирует разнообразие мобильных генетических элементов на основе данных секвенирования без необходимости собирать геном вида-хозяина. Единственный обязательный аргумент — --input
. Для этого требуются данные секвенирования ( --input
отдельный файл или каталог файлов). Его можно использовать с короткими и длинными чтениями ( --preset
, предустановка параметра minimap2 для коротких чтений [sr], чтения nanopore [map-ont] или pacbio [map-pb, map-hifi]). Для этого также требуются согласованные последовательности мобильных генетических элементов ( --library
, fasta file). Если библиотека не указана, она будет использовать последовательности транспозонов Drosophila из https://github.com/bergmanlab/drosophila-transposons. TE для анализа выбираются с помощью --families
. Их может быть несколько (через пробелы) или, если они не указаны, используются все эталонные последовательности в библиотеке.
Доступные аргументы перечислены с помощью -h
или --help
.
Пример доступен для тестирования. Последовательности взяты из Консорциума 12 геномов дрозофилы и др. 2007. Эволюция генов и геномов филогении дрозофилы. Природа . 450(7167):203-218.
Мы можем проанализировать жокея TE (DMLINEJA) и получить визуализацию, используя:
deviaTE --input ../data/jockey_dmel.fastq --families FBte0000088
это создает файл выравнивания с именем jockey_dmel.fastq.paf
, создает выходную таблицу jockey_dmel.fastq.FBte0000088.deviate
с информацией о покрытии и предполагаемых вставках (если выбрано), а также визуализацию jockey_dmel.fastq.FBte0000088.deviate.pdf
.
Руководство и пошаговое руководство по предыдущим версиям можно найти (по этой ссылке на github).
Таблица начинается с нескольких строк заголовка, обозначенных #. Этот заголовок содержит примерное количество вставок TE (если выбрано) и имена столбцов. Каждая строка соответствует одной позиции последовательности TE. Начиная с версии 2, hq_cov
сообщает о покрытии высококачественных баз вместо высококачественных отображений, поскольку это более интересно, например, для данных о нанопорах.
Столбец | Описание |
---|---|
TEfam | Название анализируемого семейства TE |
sample_id | имя входного файла |
pos | позиция в ссылочной последовательности |
refbase | Нуклеотид в эталонной последовательности в этом положении |
ACGT | количество каждого нуклеотида в этом положении |
cov | общее покрытие на этой позиции |
hq_cov | покрытие только качественных баз (>Q15) |
snp | индикатор варианта позиции |
delet | количество наблюдений за пробелами |
По умолчанию нормализация не выполняется, и сообщаемые значения представляют собой необработанные данные о численности, которые не подходят для сравнения TE между образцами. Поэтому реализуются две разные стратегии: нормализация на миллион картированных прочтений и нормализация по однокопийным генам.
--rpm
.--library
. Затем добавьте --single_copy_genes GENE1 GENE2 GENE3 ...
, где GENE1 и т. д. — это заголовки в файле библиотеки. Предполагаемое количество копий на гаплоидный геном записывается в раздел заголовка результирующей выходной таблицы. Если вы анализируете TE у дрозофилы, указание --library
или --annotation
референсных последовательностей не является обязательным. По умолчанию deviaTE автоматически загружает и использует библиотеку TE с https://github.com/bergmanlab/drosophila-transposons, если библиотека и аннотация не указаны.
Для нормализации однокопийных генов у дрозофилы в библиотеку автоматически добавляются пять генов (Dmel_rpl32, Dmel_piwi, Dmel_Act5C, Dmel_RpII140 и Dmel_p53), которые можно использовать для нормализации:
--single_copy_genes Dmel_rpl32 Dmel_piwi ...
Вы можете использовать DeviaTE для парного чтения, сопоставляя их в режиме одиночного чтения.
Это можно сделать, например, с помощью одного объединенного файла fastq, содержащего обе пары чтения (read1 и read2). (Использование сценария scripts/rename_reads.py
для присвоения уникальных имен сопряжениям больше не требуется, это делается внутренне, начиная с версии 2.2.0)
Документ, описывающий отклонение, доступен здесь: https://onlinelibrary.wiley.com/doi/10.1111/1755-0998.13030.
@article{weilguny2019,
title = {{{DeviaTE}}: {{Assembly-free}} Analysis and Visualization of Mobile Genetic Element Composition},
author = {Weilguny, Lukas and Kofler, Robert},
year = {2019},
journal = {Molecular Ecology Resources},
volume = {19},
number = {5},
pages = {1346--1354},
doi = {10.1111/1755-0998.13030}
}
Если вы обнаружите какие-либо проблемы, у вас есть вопросы или идеи по дальнейшему улучшению, воспользуйтесь системой отслеживания проблем в этом репозитории, спасибо!
deviaTE распространяется по лицензии GPLv3.
Код покрыт pytests. Чтобы запустить эту установку: pip install pytest pytest-cov
. Затем запустите тесты: cd tests; pytest --cov --cov-report html
. Чтобы протестировать локальные сборки: hatch build && pip install dist/deviate-2.2.0-py3-none-any.whl --force-reinstall --no-deps