Это пакет Python, который можно использовать для загрузки аннотаций генома нескольких видов и подготовки их к преобразованию в справочные аннотации (например, с помощью cellranger или cellranger-arc). Он предназначен для стандартизации процесса отладки файлов gtf, чтобы сделать их совместимыми, поскольку gtfs, предоставляемые NCBI и ENSEMBL, обычно имеют одну из немногих проблем, которые делают их несовместимыми с созданием справочных аннотаций по геномике (отсутствующие идентификаторы генов/транскриптов, дублированные гены или транскрипты, слишком большие контиги и т. д.). Пакет имеет три функции: 1. Загрузка файлов метаданных fasta, gtf и сборки для списка видов (по научному названию или таксиду). 2. Формируем статистику по сборкам и отлаживаем их. 3. Напишите сценарии оболочки для создания ссылок [cellranger-arc].
Создайте среду анаконды с помощью python>=3.6
conda install -c conda-forge ncbi-datasets-cli conda install -c conda-forge -c bioconda ete3 gtfparse numpy pandas polars polars-lts-cpu pyarrow requests biopython tqdm
git clone [email protected]:mtvector/cleanome.git cd cleanome pip install .
Чтобы отладить gtf путем добавления отсутствующих полей гена и транскрипта, замены отсутствующих полей гена на Gene_id и других распространенных проблем в аннотациях генома NCBI:
debug_gtf file.gtf file.debug.gtf
См. example_run.sh для примера сценария, использующего полный конвейер для загрузки геномов, получения статистики, отладки gtfs и создания ссылок на cellranger-arc.
Текущие функции конвейера включают в себя:
download_genomes --species_list ./species.txt --genome_dir ./genomes/
Загрузите геномы из NCBI для всех видов из списка. Утилита для скачивания геномов ENSEMBL для списка включена (пока нужно написать свой download_genomes.py)
get_genomes_and_stats --genome_dir ./genomes/ -o ./genome_info.csv -c
Собирает фасты и gtfs со всех геномов в каталоге и вычисляет простую статистику.
make_cellranger_arc_sh --sh_scripts_dir ./submission_scripts/ --stats_csv ./genome_info.csv --output_dir ~/cellranger-arc --log_dir ~/log/ -cellranger_bin /path/to/cellranger-arc/bin/
Отлаживает gtfs (дедублирует транскрипты/гены, добавляет недостающие транскрипты для экзонов и недостающие гены для транскриптов, заполняет недостающие значения заполнителями, разделяет слишком большие хромосомы, исправляет вложенность)