Hierbei handelt es sich um ein Python-Paket, mit dem Genomanmerkungen von mehreren Arten heruntergeladen und für die Umwandlung in Referenzanmerkungen vorbereitet werden können (z. B. mit Cellranger oder Cellranger-Arc). Es soll den Prozess des Debuggens von GTF-Dateien standardisieren, um sie kompatibel zu machen, da die von NCBI und ENSEMBL bereitgestellten GTFS im Allgemeinen eines der wenigen Probleme haben, die sie mit der Erstellung von Genomik-Referenzanmerkungen inkompatibel machen (fehlende Gen-/Transkript-IDs, doppelte Gene usw.). Transkripte, zu große Contigs usw.). Das Paket hat drei Funktionen: 1. Laden Sie Fasta-, GTF- und Assembly-Metadatendateien für eine Liste von Arten herunter (nach wissenschaftlichem Namen oder Taxid). 2. Generieren Sie Statistiken für die Baugruppen und debuggen Sie sie. 3. Schreiben Sie Shell-Skripte zum Erstellen von [cellranger-arc]-Referenzen.
Erstellen Sie eine Anaconda-Umgebung mit Python>=3.6
conda install -c conda-forge ncbi-datasets-cli conda install -c conda-forge -c bioconda ete3 gtfparse numpy pandas polars polars-lts-cpu pyarrow requests biopython tqdm
git clone [email protected]:mtvector/cleanome.git cd cleanome pip install .
So debuggen Sie ein GTF durch Hinzufügen fehlender Gen- und Transkriptfelder, Ersetzen fehlender Genfelder durch die gene_id und anderer häufiger Probleme in NCBI-Genomanmerkungen:
debug_gtf file.gtf file.debug.gtf
Unter example_run.sh finden Sie ein Beispielskript, das die vollständige Pipeline nutzt, um Genome herunterzuladen, Statistiken abzurufen, GTFS zu debuggen und Cellranger-Arc-Referenzen zu erstellen.
Zu den aktuellen Pipeline-Funktionen gehören:
download_genomes --species_list ./species.txt --genome_dir ./genomes/
Laden Sie Genome von NCBI für alle Arten auf der Liste herunter. Ein Dienstprogramm zum Herunterladen von ENSEMBL-Genomen für die Liste ist enthalten (Sie müssen vorerst Ihre eigene download_genomes.py schreiben).
get_genomes_and_stats --genome_dir ./genomes/ -o ./genome_info.csv -c
Sammelt die Fastas und GTFS aus allen Genomen in einem Verzeichnis und berechnet einige einfache Statistiken.
make_cellranger_arc_sh --sh_scripts_dir ./submission_scripts/ --stats_csv ./genome_info.csv --output_dir ~/cellranger-arc --log_dir ~/log/ -cellranger_bin /path/to/cellranger-arc/bin/
Debuggt GTFS (dedupliziert Transkripte/Gene, fügt fehlende Transkripte für Exons und fehlende Gene für Transkripte hinzu, füllt fehlende Werte mit Platzhaltern, teilt zu große Chromosomen, korrigiert die Verschachtelung)