Este é um pacote python que pode ser usado para baixar anotações de genoma de múltiplas espécies e prepará-las para serem transformadas em anotações de referência (por exemplo, com cellranger ou cellranger-arc). O objetivo é padronizar o processo de depuração de arquivos gtf, a fim de torná-los compatíveis, pois os gtfs fornecidos pelo NCBI e ENSEMBL geralmente apresentam um dos poucos problemas que os tornam incompatíveis com a criação de anotações de referência genômica (identificações de genes/transcrição ausentes, genes duplicados ou transcrições, contigs muito grandes, etc.). O pacote tem três funções: 1. Baixar arquivos de metadados fasta, gtf e assembly para obter uma lista de espécies (por nome científico ou taxid). 2. Gere estatísticas para os assemblies e depure-os. 3. Escreva scripts de shell para fazer referências [cellranger-arc].
Faça um ambiente anaconda com python>=3.6
conda install -c conda-forge ncbi-datasets-cli conda install -c conda-forge -c bioconda ete3 gtfparse numpy pandas polars polars-lts-cpu pyarrow requests biopython tqdm
git clone [email protected]:mtvector/cleanome.git cd cleanome pip install .
Para depurar um gtf adicionando campos de gene e transcrição ausentes, substituindo campos de gene ausentes pelo gene_id e outros problemas comuns nas anotações do genoma do NCBI:
debug_gtf file.gtf file.debug.gtf
Consulte example_run.sh para obter um script de exemplo utilizando o pipeline completo para baixar genomas, obter estatísticas, depurar gtfs e construir referências cellranger-arc.
As funções atuais do pipeline incluem:
download_genomes --species_list ./species.txt --genome_dir ./genomes/
Baixe os genomas do NCBI para todas as espécies da lista. Um utilitário para baixar genomas ENSEMBL para a lista está incluído (é necessário escrever seu próprio download_genomes.py por enquanto)
get_genomes_and_stats --genome_dir ./genomes/ -o ./genome_info.csv -c
Coleta fastas e gtfs de todos os genomas em um diretório e calcula algumas estatísticas simples.
make_cellranger_arc_sh --sh_scripts_dir ./submission_scripts/ --stats_csv ./genome_info.csv --output_dir ~/cellranger-arc --log_dir ~/log/ -cellranger_bin /path/to/cellranger-arc/bin/
Depura gtfs (desduplica transcrições/genes, adiciona transcrições ausentes para exons e genes ausentes para transcrições, preenche valores ausentes com espaços reservados, divide cromossomos que são muito grandes, corrige aninhamento)