นี่คือแพ็คเกจ Python ที่สามารถใช้เพื่อดาวน์โหลดคำอธิบายประกอบจีโนมจากหลายสปีชีส์ และเตรียมที่จะทำเป็นคำอธิบายประกอบอ้างอิง (เช่น ด้วย cellranger หรือ cellranger-arc) มีจุดมุ่งหมายเพื่อสร้างมาตรฐานกระบวนการแก้ไขข้อบกพร่องไฟล์ gtf เพื่อให้เข้ากันได้ เนื่องจาก gtfs ที่ NCBI และ ENSEMBL จัดทำโดยทั่วไปมีปัญหาประการหนึ่งที่ทำให้ไฟล์เหล่านี้เข้ากันไม่ได้กับการสร้างคำอธิบายประกอบอ้างอิงจีโนมิกส์ (รหัสยีน/การถอดเสียงหายไป ยีนที่ซ้ำกันหรือ ใบรับรองผลการเรียน เนื้อหาที่มีขนาดใหญ่เกินไป เป็นต้น) แพ็คเกจมีสามฟังก์ชัน: 1. ดาวน์โหลดไฟล์ข้อมูลเมตาของ fasta, gtf และแอสเซมบลีสำหรับรายการสายพันธุ์ (ตามชื่อวิทยาศาสตร์หรือแท็กซี) 2. สร้างสถิติสำหรับแอสเซมบลีและแก้ไขข้อบกพร่อง 3. เขียนเชลล์สคริปต์สำหรับการอ้างอิง [cellranger-arc]
สร้างสภาพแวดล้อมแบบอนาคอนดาด้วย python>=3.6
conda install -c conda-forge ncbi-datasets-cli conda install -c conda-forge -c bioconda ete3 gtfparse numpy pandas polars polars-lts-cpu pyarrow requests biopython tqdm
git clone [email protected]:mtvector/cleanome.git cd cleanome pip install .
หากต้องการแก้ไขข้อบกพร่อง gtf โดยการเพิ่มฟิลด์ยีนและการถอดเสียงที่หายไป แทนที่ฟิลด์ยีนที่หายไปด้วย gene_id และปัญหาทั่วไปอื่นๆ ในคำอธิบายประกอบจีโนม NCBI:
debug_gtf file.gtf file.debug.gtf
ดู example_run.sh สำหรับสคริปต์ตัวอย่างที่ใช้ไปป์ไลน์แบบเต็มเพื่อดาวน์โหลดจีโนม รับสถิติ ดีบัก gtfs และสร้างการอ้างอิง cellranger-arc
ฟังก์ชันไปป์ไลน์ปัจจุบันประกอบด้วย:
download_genomes --species_list ./species.txt --genome_dir ./genomes/
ดาวน์โหลดจีโนมจาก NCBI สำหรับสายพันธุ์ทั้งหมดในรายการ มียูทิลิตี้สำหรับการดาวน์โหลดจีโนม ENSEMBL สำหรับรายการรวมอยู่ด้วย (ตอนนี้ต้องเขียน download_genomes.py ของคุณเอง)
get_genomes_and_stats --genome_dir ./genomes/ -o ./genome_info.csv -c
รวบรวม fastas และ gtfs จากจีโนมทั้งหมดในไดเร็กทอรี และคำนวณสถิติง่ายๆ
make_cellranger_arc_sh --sh_scripts_dir ./submission_scripts/ --stats_csv ./genome_info.csv --output_dir ~/cellranger-arc --log_dir ~/log/ -cellranger_bin /path/to/cellranger-arc/bin/
แก้ไขข้อบกพร่อง gtfs (กรองการถอดเสียง/ยีนที่ซ้ำกัน เพิ่มการถอดเสียงที่ขาดหายไปสำหรับ exons และยีนที่ขาดหายไปสำหรับการถอดเสียง เติมค่าที่ขาดหายไปด้วยตัวยึดตำแหน่ง แยกโครโมโซมที่มีขนาดใหญ่เกินไป แก้ไขการซ้อน)