Il s'agit d'un package Python qui peut être utilisé pour télécharger des annotations du génome de plusieurs espèces et les préparer à être transformées en annotations de référence (par exemple avec cellranger ou cellranger-arc). Il vise à normaliser le processus de débogage des fichiers gtf afin de les rendre compatibles, car les gtf fournis par NCBI et ENSEMBL présentent généralement l'un des rares problèmes qui les rendent incompatibles avec la création d'annotations de référence génomique (identifiants de gènes/transcriptions manquants, gènes dupliqués ou transcriptions, contigs trop volumineux, etc.). Le package a trois fonctions : 1. Télécharger les fichiers de métadonnées fasta, gtf et assembly pour une liste d'espèces (par nom scientifique ou taxid). 2. Générez des statistiques pour les assemblys et déboguez-les. 3. Écrivez des scripts shell pour créer des références [cellranger-arc].
Créez un environnement anaconda avec python>=3.6
conda install -c conda-forge ncbi-datasets-cli conda install -c conda-forge -c bioconda ete3 gtfparse numpy pandas polars polars-lts-cpu pyarrow requests biopython tqdm
git clone [email protected]:mtvector/cleanome.git cd cleanome pip install .
Pour déboguer un gtf en ajoutant des champs de gènes et de transcription manquants, en remplaçant les champs de gènes manquants par le gene_id et d'autres problèmes courants dans les annotations du génome NCBI :
debug_gtf file.gtf file.debug.gtf
Voir example_run.sh pour un exemple de script utilisant le pipeline complet pour télécharger des génomes, obtenir des statistiques, déboguer gtfs et créer des références cellranger-arc.
Les fonctions actuelles du pipeline comprennent :
download_genomes --species_list ./species.txt --genome_dir ./genomes/
Téléchargez les génomes du NCBI pour toutes les espèces de la liste. Un utilitaire de téléchargement des génomes ENSEMBL pour la liste est inclus (vous devez écrire votre propre download_genomes.py pour l'instant)
get_genomes_and_stats --genome_dir ./genomes/ -o ./genome_info.csv -c
Collecte les fastas et gtfs de tous les génomes d'un répertoire et calcule quelques statistiques simples.
make_cellranger_arc_sh --sh_scripts_dir ./submission_scripts/ --stats_csv ./genome_info.csv --output_dir ~/cellranger-arc --log_dir ~/log/ -cellranger_bin /path/to/cellranger-arc/bin/
Débogue les gtfs (dédupliquer les transcriptions/gènes, ajouter les transcriptions manquantes pour les exons et les gènes manquants pour les transcriptions, remplir les valeurs manquantes avec des espaces réservés, diviser les chromosomes trop grands, corriger l'imbrication)