cleanome
1.0.0
這是一個Python包,可用於下載多個物種的基因組註釋並準備將它們製作成參考註釋(例如使用cellranger或cellranger-arc)。它的目的是標準化調試gtf 文件的過程,以使它們兼容,因為NCBI 和ENSEMBL 提供的gtf 通常存在一些問題之一,這些問題使它們與創建基因組學參考註釋不相容(缺少基因/轉錄本id、重複的基因或轉錄本、太大的重疊群等)。軟體包有三個功能: 1. 下載物種清單(按學名或計程車)的 fasta、gtf 和組件元資料檔。 2. 產生程序集的統計資訊並對其進行除錯。 3. 編寫 shell 腳本以進行 [cellranger-arc] 引用。
使用python>=3.6製作anaconda環境
conda install -c conda-forge ncbi-datasets-cli conda install -c conda-forge -c bioconda ete3 gtfparse numpy pandas polars polars-lts-cpu pyarrow requests biopython tqdm
git clone [email protected]:mtvector/cleanome.git cd cleanome pip install .
要透過添加缺失的基因和轉錄本字段、用gene_id替換缺失的基因字段以及 NCBI 基因組註釋中的其他常見問題來調試 gtf:
debug_gtf file.gtf file.debug.gtf
請參閱 example_run.sh,以了解利用完整管道下載基因組、取得統計資料、偵錯 gtfs 和建立 cellranger-arc 引用的範例腳本。
目前的管道功能包括:
download_genomes --species_list ./species.txt --genome_dir ./genomes/
從 NCBI 下載清單中所有物種的基因組。包含一個用於下載清單中 ENSEMBL 基因組的實用程式(現在必須編寫自己的 download_genomes.py)
get_genomes_and_stats --genome_dir ./genomes/ -o ./genome_info.csv -c
從目錄中的所有基因組中收集 fastas 和 gtfs 並計算一些簡單的統計數據。
make_cellranger_arc_sh --sh_scripts_dir ./submission_scripts/ --stats_csv ./genome_info.csv --output_dir ~/cellranger-arc --log_dir ~/log/ -cellranger_bin /path/to/cellranger-arc/bin/
調試 gtfs(刪除重複的轉錄物/基因、添加外顯子缺失的轉錄本和轉錄本缺失的基因、用佔位符填充缺失值、分割太大的染色體、修復嵌套)