これは、複数の種からゲノム アノテーションをダウンロードし、それらを参照アノテーション (たとえば cellranger または cellranger-arc を使用) に作成する準備をするために使用できる Python パッケージです。これは、NCBI および ENSEMBL によって提供される gtf には一般に、ゲノミクス参照アノテーションの作成と互換性を持たせないいくつかの問題 (遺伝子/転写物 ID の欠落、遺伝子の重複、またはトランスクリプト、大きすぎるコンティグなど)。このパッケージには 3 つの機能があります。 1. 種のリスト (学名またはタクシッド別) の fasta、gtf、およびアセンブリ メタデータ ファイルをダウンロードします。 2. アセンブリの統計を生成し、デバッグします。 3. [cellranger-arc] 参照を作成するためのシェル スクリプトを作成します。
Python>=3.6でanaconda環境を構築する
conda install -c conda-forge ncbi-datasets-cli conda install -c conda-forge -c bioconda ete3 gtfparse numpy pandas polars polars-lts-cpu pyarrow requests biopython tqdm
git clone [email protected]:mtvector/cleanome.git cd cleanome pip install .
欠落している遺伝子フィールドと転写産物フィールドを追加し、欠落している遺伝子フィールドをgene_id で置き換えること、および NCBI ゲノム アノテーションのその他の一般的な問題によって gtf をデバッグするには、次の手順を実行します。
debug_gtf file.gtf file.debug.gtf
ゲノムのダウンロード、統計情報の取得、GTF のデバッグ、および cellranger-arc リファレンスの構築に完全なパイプラインを利用するサンプル スクリプトについては、example_run.sh を参照してください。
現在のパイプライン関数には次のものがあります。
download_genomes --species_list ./species.txt --genome_dir ./genomes/
リストにあるすべての種のゲノムを NCBI からダウンロードします。リストの ENSEMBL ゲノムをダウンロードするためのユーティリティが含まれています (現時点では独自の download_genomes.py を作成する必要があります)
get_genomes_and_stats --genome_dir ./genomes/ -o ./genome_info.csv -c
ディレクトリ内のすべてのゲノムから fastas と gtfs を収集し、いくつかの簡単な統計を計算します。
make_cellranger_arc_sh --sh_scripts_dir ./submission_scripts/ --stats_csv ./genome_info.csv --output_dir ~/cellranger-arc --log_dir ~/log/ -cellranger_bin /path/to/cellranger-arc/bin/
gtf のデバッグ (転写産物/遺伝子の重複除去、エクソンの欠落転写産物と転写産物の欠落遺伝子の追加、欠落値をプレースホルダーで埋める、大きすぎる染色体の分割、ネストの修正)