هذه حزمة بايثون يمكن استخدامها لتنزيل شروح الجينوم من أنواع متعددة وإعدادها لتحويلها إلى شروح مرجعية (على سبيل المثال مع cellranger أو cellranger-arc). الغرض منه هو توحيد عملية تصحيح أخطاء ملفات gtf من أجل جعلها متوافقة حيث أن ملفات gtfs المقدمة من NCBI وENSEMBL تعاني بشكل عام من إحدى المشكلات القليلة التي تجعلها غير متوافقة مع إنشاء التعليقات التوضيحية المرجعية لعلم الجينوم (معرفات الجينات/النصوص المفقودة أو الجينات المكررة أو النصوص، contigs التي هي كبيرة جدا وما إلى ذلك). تحتوي الحزمة على ثلاث وظائف: 1. قم بتنزيل ملفات البيانات التعريفية fasta وgtf والتجميع للحصول على قائمة الأنواع (حسب الاسم العلمي أو التاكسي). 2. إنشاء إحصائيات للتجميعات وتصحيح أخطائها. 3. اكتب نصوص برمجية للصدفة لإنشاء مراجع [cellranger-arc].
أنشئ بيئة أناكوندا باستخدام python>=3.6
conda install -c conda-forge ncbi-datasets-cli conda install -c conda-forge -c bioconda ete3 gtfparse numpy pandas polars polars-lts-cpu pyarrow requests biopython tqdm
git clone [email protected]:mtvector/cleanome.git cd cleanome pip install .
لتصحيح أخطاء gtf عن طريق إضافة حقول الجينات والنصوص المفقودة، واستبدال حقول الجينات المفقودة بـ gene_id، والمشكلات الشائعة الأخرى في التعليقات التوضيحية للجينوم NCBI:
debug_gtf file.gtf file.debug.gtf
راجع example_run.sh للحصول على مثال لبرنامج نصي يستخدم المسار الكامل لتنزيل الجينوم والحصول على الإحصائيات وتصحيح أخطاء gtfs وإنشاء مراجع cellranger-arc.
تشمل وظائف خطوط الأنابيب الحالية ما يلي:
download_genomes --species_list ./species.txt --genome_dir ./genomes/
قم بتنزيل الجينومات من NCBI لجميع الأنواع الموجودة في القائمة. تم تضمين أداة مساعدة لتنزيل جينومات ENSEMBL للقائمة (يتعين عليك كتابة download_genomes.py الخاص بك في الوقت الحالي)
get_genomes_and_stats --genome_dir ./genomes/ -o ./genome_info.csv -c
يجمع fastas وgtfs من جميع الجينومات في الدليل ويحسب بعض الإحصائيات البسيطة.
make_cellranger_arc_sh --sh_scripts_dir ./submission_scripts/ --stats_csv ./genome_info.csv --output_dir ~/cellranger-arc --log_dir ~/log/ -cellranger_bin /path/to/cellranger-arc/bin/
تصحيح أخطاء gtfs (إلغاء النسخ/الجينات، وإضافة النصوص المفقودة للإكسونات والجينات المفقودة للنصوص، وملء القيم المفقودة بالعناصر النائبة، وتقسيم الكروموسومات الكبيرة جدًا، وإصلاح التداخل)