이는 여러 종의 게놈 주석을 다운로드하고 이를 참조 주석(예: cellranger 또는 cellranger-arc 사용)으로 만들 수 있도록 준비하는 데 사용할 수 있는 Python 패키지입니다. 이는 NCBI에서 제공하는 gtf와 ENSEMBL이 일반적으로 게놈 참조 주석 생성(누락된 유전자/전사체 ID, 중복된 유전자 또는 성적표, 너무 큰 콘티그 등). 패키지에는 세 가지 기능이 있습니다. 1. 종 목록(학명 또는 Taxid 기준)에 대한 fasta, gtf 및 어셈블리 메타데이터 파일을 다운로드합니다. 2. 어셈블리에 대한 통계를 생성하고 디버깅합니다. 3. [cellranger-arc] 참조를 만들기 위한 쉘 스크립트를 작성합니다.
python>=3.6으로 아나콘다 환경을 만듭니다.
conda install -c conda-forge ncbi-datasets-cli conda install -c conda-forge -c bioconda ete3 gtfparse numpy pandas polars polars-lts-cpu pyarrow requests biopython tqdm
git clone [email protected]:mtvector/cleanome.git cd cleanome pip install .
누락된 유전자 및 전사체 필드를 추가하고, 누락된 유전자 필드를 gene_id로 바꾸고, NCBI 게놈 주석의 기타 일반적인 문제를 추가하여 gtf를 디버그하려면 다음을 수행하세요.
debug_gtf file.gtf file.debug.gtf
전체 파이프라인을 활용하여 게놈을 다운로드하고, 통계를 얻고, gtfs를 디버그하고, cellranger-arc 참조를 구축하는 예제 스크립트는 example_run.sh를 참조하세요.
현재 파이프라인 기능은 다음과 같습니다.
download_genomes --species_list ./species.txt --genome_dir ./genomes/
목록에 있는 모든 종에 대한 게놈을 NCBI에서 다운로드하세요. 목록에 대한 ENSEMBL 게놈을 다운로드하기 위한 유틸리티가 포함되어 있습니다(지금은 직접 download_genomes.py를 작성해야 함)
get_genomes_and_stats --genome_dir ./genomes/ -o ./genome_info.csv -c
디렉토리의 모든 게놈에서 fastas 및 gtfs를 수집하고 몇 가지 간단한 통계를 계산합니다.
make_cellranger_arc_sh --sh_scripts_dir ./submission_scripts/ --stats_csv ./genome_info.csv --output_dir ~/cellranger-arc --log_dir ~/log/ -cellranger_bin /path/to/cellranger-arc/bin/
gtfs 디버그(전사체/유전자 중복 제거, 엑손에 대한 누락된 전사체 및 전사체에 대한 누락된 유전자 추가, 자리 표시자로 누락된 값 채우기, 너무 큰 염색체 분할, 중첩 수정)