cleanome
1.0.0
这是一个Python包,可用于下载多个物种的基因组注释并准备将它们制作成参考注释(例如使用cellranger或cellranger-arc)。它的目的是标准化调试 gtf 文件的过程,以使它们兼容,因为 NCBI 和 ENSEMBL 提供的 gtf 通常存在一些问题之一,这些问题使它们与创建基因组学参考注释不兼容(缺少基因/转录本 id、重复的基因或转录本、太大的重叠群等)。该软件包具有三个功能: 1. 下载物种列表(按学名或出租车)的 fasta、gtf 和程序集元数据文件。 2. 生成程序集的统计信息并对其进行调试。 3. 编写 shell 脚本以进行 [cellranger-arc] 引用。
使用python>=3.6制作anaconda环境
conda install -c conda-forge ncbi-datasets-cli conda install -c conda-forge -c bioconda ete3 gtfparse numpy pandas polars polars-lts-cpu pyarrow requests biopython tqdm
git clone [email protected]:mtvector/cleanome.git cd cleanome pip install .
要通过添加缺失的基因和转录本字段、用gene_id替换缺失的基因字段以及 NCBI 基因组注释中的其他常见问题来调试 gtf:
debug_gtf file.gtf file.debug.gtf
请参阅 example_run.sh,了解利用完整管道下载基因组、获取统计数据、调试 gtfs 和构建 cellranger-arc 引用的示例脚本。
目前的管道功能包括:
download_genomes --species_list ./species.txt --genome_dir ./genomes/
从 NCBI 下载列表中所有物种的基因组。包含一个用于下载列表中 ENSEMBL 基因组的实用程序(现在必须编写自己的 download_genomes.py)
get_genomes_and_stats --genome_dir ./genomes/ -o ./genome_info.csv -c
从目录中的所有基因组中收集 fastas 和 gtfs 并计算一些简单的统计数据。
make_cellranger_arc_sh --sh_scripts_dir ./submission_scripts/ --stats_csv ./genome_info.csv --output_dir ~/cellranger-arc --log_dir ~/log/ -cellranger_bin /path/to/cellranger-arc/bin/
调试 gtfs(删除重复的转录本/基因、添加外显子缺失的转录本和转录本缺失的基因、用占位符填充缺失值、分割太大的染色体、修复嵌套)