Este es un paquete de Python que se puede utilizar para descargar anotaciones genómicas de múltiples especies y prepararlas para convertirlas en anotaciones de referencia (por ejemplo, con cellranger o cellranger-arc). Su objetivo es estandarizar el proceso de depuración de archivos gtf para hacerlos compatibles, ya que los gtf proporcionados por NCBI y ENSEMBL generalmente tienen uno de los pocos problemas que los hacen incompatibles con la creación de anotaciones de referencia genómica (identificadores de genes/transcripciones faltantes, genes duplicados o transcripciones, contigs que son demasiado grandes, etc.). El paquete tiene tres funciones: 1. Descargar archivos de metadatos fasta, gtf y ensamblador para obtener una lista de especies (por nombre científico o taxid). 2. Generar estadísticas para los ensamblajes y depurarlas. 3. Escriba scripts de shell para hacer referencias a [cellranger-arc].
Crea un entorno anaconda con python>=3.6
conda install -c conda-forge ncbi-datasets-cli conda install -c conda-forge -c bioconda ete3 gtfparse numpy pandas polars polars-lts-cpu pyarrow requests biopython tqdm
git clone [email protected]:mtvector/cleanome.git cd cleanome pip install .
Para depurar un gtf agregando campos de genes y transcripciones faltantes, reemplazando campos de genes faltantes con gene_id y otros problemas comunes en las anotaciones del genoma NCBI:
debug_gtf file.gtf file.debug.gtf
Consulte example_run.sh para ver un script de ejemplo que utiliza el proceso completo para descargar genomas, obtener estadísticas, depurar gtfs y crear referencias de cellranger-arc.
Las funciones actuales del oleoducto incluyen:
download_genomes --species_list ./species.txt --genome_dir ./genomes/
Descargue los genomas del NCBI para todas las especies de la lista. Se incluye una utilidad para descargar genomas ENSEMBL para la lista (debe escribir su propio download_genomes.py por ahora)
get_genomes_and_stats --genome_dir ./genomes/ -o ./genome_info.csv -c
Recopila fastas y gtfs de todos los genomas en un directorio y calcula algunas estadísticas simples.
make_cellranger_arc_sh --sh_scripts_dir ./submission_scripts/ --stats_csv ./genome_info.csv --output_dir ~/cellranger-arc --log_dir ~/log/ -cellranger_bin /path/to/cellranger-arc/bin/
Depura gtfs (desduplica transcripciones/genes, agrega transcripciones faltantes para exones y genes faltantes para transcripciones, completa los valores faltantes con marcadores de posición, divide cromosomas que son demasiado grandes, corrige el anidamiento)