deviaTE는 모바일 유전 요소 서열의 분석 및 시각화를 위한 Python 도구입니다.
새로운 명령줄 플래그 --tar
사용하여 tar 파일에서 결과와 플롯을 수집합니다. 많은 TE seq이 분석되는 경우에 유용합니다.
나노포어 테스트 데이터 및 단위 테스트 추가
동일한 이름을 가진 연결된 읽기 쌍의 문제가 해결되었습니다. 예전에는 이름을 고유하게 만들기 위해 scripts/rename_reads.py
실행해야 했습니다. 이제 이는 내부적으로 처리되므로 더 이상 스크립트를 사용할 필요가 없습니다.
필요하지 않은 경우 시각화를 방지하는 새로운 명령줄 플래그 --no_viz
내부 효율성 향상
gzip으로 압축된 입력 파일의 사용 수정, 새로운 테스트 사례 포함
이전 Python 기반의 수명이 종료되었으므로 deviaTE에는 업데이트가 필요했습니다. 이 업데이트는 상당히 중요해져서 버전 2로 출시되었습니다.
기능 지원 중단:
deviaTE에는 Python >=3.10 및 pip가 필요합니다.
pip install deviaTE
usage: deviaTE [-h] [--input INPUT] [--preset {sr,map-ont,map-pb,map-hifi}] [--library LIBRARY] [--annotation ANNOTATION] [--min_align_len MIN_ALIGN_LEN] [--families [FAMILIES ...]] [--no_viz] [-v] [--rpm | --single_copy_genes [SINGLE_COPY_GENES ...]]
options:
-h, --help show this help message and exit
--input INPUT Input file(s) to be analysed. Can be *.fastq, *.fa, or directory of files. Optionally gzipped.
--preset {sr,map-ont,map-pb,map-hifi} Minimap2 mapping preset. (sr, map-ont, map-pb, map-hifi) [sr]
--library LIBRARY Path to reference library. Defaults to drosophila transposons from https://github.com/bergmanlab/drosophila-transposons
--annotation ANNOTATION Path to annotation (gff) of sequences in library. Defaults to drosophila TE annotation from https://github.com/bergmanlab/drosophila-transposons
--min_align_len MIN_ALIGN_LEN Minimum length of valid alignments
--families [FAMILIES ...] Which transposon families to analyse. Default: all sequences in library.
--no_viz Only analyse, but don't visualize the results
-v, --version Show version information and exit.
--rpm normalize all abundances by reads per million
--single_copy_genes [SINGLE_COPY_GENES ...] space-separated names of single-copy genes in reference to use for normalisation
DeviaTE는 숙주 종의 게놈을 조립할 필요 없이 시퀀싱 데이터에서 이동 유전 요소의 다양성을 분석하고 시각화하는 명령줄 프로그램입니다. 유일한 필수 인수는 --input
입니다. 이를 위해 시퀀싱 데이터( --input
단일 파일 또는 파일 디렉터리)가 필요합니다. 짧은 읽기와 긴 읽기( --preset
, 짧은 읽기를 위한 minimap2 매개변수 사전 설정 [sr], nanopore 읽기 [map-ont] 또는 pacbio [map-pb, map-hifi])와 함께 사용할 수 있습니다. 또한 모바일 유전 요소 합의 시퀀스( --library
, fasta 파일)가 필요합니다. 라이브러리가 제공되지 않으면 https://github.com/bergmanlab/drosophila-transposons의 Drosphila 트랜스포존 시퀀스를 사용합니다. 분석할 TE는 --families
사용하여 선택됩니다. 이는 여러 개(공백으로 구분)일 수 있으며, 지정하지 않은 경우 라이브러리의 모든 참조 시퀀스가 사용됩니다.
사용 가능한 인수는 -h
또는 --help
와 함께 나열됩니다.
테스트를 위한 예제가 제공됩니다. 서열은 Drosophila 12 Genomes Consortium et al. 2007. 초파리 계통발생에 대한 유전자와 게놈의 진화. 자연 . 450(7167):203-218.
다음을 사용하여 TE 기수(DMLINEJA)를 분석하고 시각화할 수 있습니다.
deviaTE --input ../data/jockey_dmel.fastq --families FBte0000088
그러면 jockey_dmel.fastq.paf
라는 정렬 파일이 생성되고, 적용 범위 및 예상 삽입(선택한 경우)에 대한 정보가 포함된 출력 테이블 jockey_dmel.fastq.FBte0000088.deviate
와 시각화 jockey_dmel.fastq.FBte0000088.deviate.pdf
가 생성됩니다.
이전 버전의 매뉴얼 및 연습을 찾을 수 있습니다(이 github 링크에서).
테이블은 #으로 표시된 일부 헤더 라인으로 시작됩니다. 이 헤더에는 예상 TE 삽입 수(선택한 경우)와 열 이름이 포함됩니다. 각 행은 TE 시퀀스의 한 위치에 해당합니다. 버전 2부터 hq_cov
고품질 매핑 대신 고품질 베이스의 적용 범위를 보고합니다. 이는 예를 들어 nanopore 데이터의 경우 더 흥미롭기 때문입니다.
열 | 설명 |
---|---|
TEfam | 분석된 TE 계열의 이름 |
sample_id | 입력 파일 이름 |
pos | 참조 서열에서의 위치 |
refbase | 이 위치의 참조 서열에 있는 뉴클레오티드 |
ACGT | 이 위치의 각 뉴클레오티드 수 |
cov | 이 위치의 전체 적용 범위 |
hq_cov | 고품질 베이스만 커버리지(>Q15) |
snp | 변형 위치 표시기 |
delet | 간격 관찰 수 |
기본적으로 정규화는 수행되지 않으며 보고된 개수는 원시 존재비이므로 샘플 간의 TE를 비교하는 데 적합하지 않습니다. 따라서 백만 개의 매핑된 읽기당 정규화와 단일 복사본 유전자에 의한 정규화라는 두 가지 다른 전략이 구현됩니다.
--rpm
으로 선택한 다양한 시퀀싱 깊이를 고려하기 위해 백만 건당 매핑된 읽기 수를 모두 정규화합니다.--library
로 사용되는 TE 합의 시퀀스가 포함된 파일에 여러 단일 복사본 유전자 시퀀스를 추가합니다. 그런 다음 --single_copy_genes GENE1 GENE2 GENE3 ...
를 추가합니다. 여기서 GENE1 등은 라이브러리 파일의 헤더입니다. 반수체 게놈당 추정된 사본 수는 결과 출력 테이블의 헤더 섹션에 기록됩니다. Drosophila 에서 TE를 분석하는 경우 참조 시퀀스의 --library
또는 --annotation
지정하는 것은 선택 사항입니다. 기본적으로 deviaTE는 라이브러리와 주석이 제공되지 않는 경우 https://github.com/bergmanlab/drosophila-transposons에서 TE 라이브러리를 자동으로 다운로드하여 사용합니다.
Drosophila의 단일 복사본 유전자 정규화를 위해 5개의 유전자가 정규화에 사용할 수 있는 라이브러리(Dmel_rpl32, Dmel_piwi, Dmel_Act5C, Dmel_RpII140 및 Dmel_p53)에 자동으로 추가됩니다.
--single_copy_genes Dmel_rpl32 Dmel_piwi ...
단일 읽기 모드에서 매핑하여 쌍방향 읽기에 DeviaTE를 사용할 수 있습니다.
예를 들어 읽기 쌍(read1 및 read2)이 모두 포함된 단일 연결된 fastq 파일을 사용하여 이 작업을 수행할 수 있습니다. (메이트에게 고유한 이름을 지정하기 위해 scripts/rename_reads.py
사용하는 것은 더 이상 필요하지 않습니다. 이는 2.2.0부터 내부적으로 수행됩니다.)
deviaTE를 설명하는 문서는 여기에서 확인할 수 있습니다: https://onlinelibrary.wiley.com/doi/10.1111/1755-0998.13030
@article{weilguny2019,
title = {{{DeviaTE}}: {{Assembly-free}} Analysis and Visualization of Mobile Genetic Element Composition},
author = {Weilguny, Lukas and Kofler, Robert},
year = {2019},
journal = {Molecular Ecology Resources},
volume = {19},
number = {5},
pages = {1346--1354},
doi = {10.1111/1755-0998.13030}
}
문제를 발견하거나 추가 개선을 위한 질문이나 아이디어가 있는 경우 이 저장소의 문제 추적기를 사용하십시오. 감사합니다!
deviaTE는 GPLv3 라이선스에 따라 라이선스가 부여됩니다.
코드는 pytest로 덮여 있습니다. 이러한 설치를 실행하려면: pip install pytest pytest-cov
. 그런 다음 테스트를 실행합니다: cd tests; pytest --cov --cov-report html
. 로컬 빌드를 테스트하려면: hatch build && pip install dist/deviate-2.2.0-py3-none-any.whl --force-reinstall --no-deps