Ini adalah paket python yang dapat digunakan untuk mengunduh anotasi genom dari beberapa spesies dan mempersiapkannya untuk dijadikan anotasi referensi (misalnya dengan cellranger atau cellranger-arc). Hal ini dimaksudkan untuk menstandardisasi proses debugging file gtf agar kompatibel karena gtf yang disediakan oleh NCBI dan ENSEMBL umumnya memiliki salah satu dari beberapa masalah yang membuatnya tidak kompatibel dengan pembuatan anotasi referensi genomik (ID gen/transkrip hilang, gen terduplikasi atau transkrip, contigs yang terlalu besar dll). Paket ini memiliki tiga fungsi: 1. Mengunduh file metadata fasta, gtf, dan assembly untuk daftar spesies (menurut nama ilmiah atau taksid). 2. Hasilkan statistik untuk rakitan dan debugnya. 3. Tulis skrip shell untuk membuat referensi [cellranger-arc].
Buat lingkungan anaconda dengan python>=3.6
conda install -c conda-forge ncbi-datasets-cli conda install -c conda-forge -c bioconda ete3 gtfparse numpy pandas polars polars-lts-cpu pyarrow requests biopython tqdm
git clone [email protected]:mtvector/cleanome.git cd cleanome pip install .
Untuk men-debug gtf dengan menambahkan kolom gen dan transkrip yang hilang, mengganti kolom gen yang hilang dengan gene_id, dan masalah umum lainnya dalam anotasi genom NCBI:
debug_gtf file.gtf file.debug.gtf
Lihat example_run.sh untuk contoh skrip yang menggunakan pipeline lengkap untuk mendownload genom, mendapatkan statistik, men-debug gtfs, dan membuat referensi cellranger-arc.
Fungsi saluran pipa saat ini meliputi:
download_genomes --species_list ./species.txt --genome_dir ./genomes/
Unduh genom dari NCBI untuk semua spesies dalam daftar. Utilitas untuk mengunduh genom ENSEMBL untuk daftar disertakan (harus menulis download_genomes.py Anda sendiri untuk saat ini)
get_genomes_and_stats --genome_dir ./genomes/ -o ./genome_info.csv -c
Mengumpulkan fastas dan gtfs dari semua genom dalam direktori dan menghitung beberapa statistik sederhana.
make_cellranger_arc_sh --sh_scripts_dir ./submission_scripts/ --stats_csv ./genome_info.csv --output_dir ~/cellranger-arc --log_dir ~/log/ -cellranger_bin /path/to/cellranger-arc/bin/
Men-debug gtfs (menghapus duplikat transkrip/gen, menambahkan transkrip yang hilang untuk ekson dan gen yang hilang untuk transkrip, mengisi nilai yang hilang dengan placeholder, membagi kromosom yang terlalu besar, memperbaiki sarang)