بعض البرامج النصية لتنزيل الجينومات البكتيرية والفطرية من NCBI بعد أن أعادوا هيكلة بروتوكول نقل الملفات (FTP) الخاص بهم منذ فترة.
تمت سرقة الفكرة بلا خجل من نصوص التنزيل الخاصة بـ Mick Watson's Kraken والتي يمكن العثور عليها أيضًا في Mick's GitHub repo. ومع ذلك، فإن نصوص ميك مكتوبة بلغة Perl خصيصًا لبناء قاعدة بيانات Kraken (كما هو معلن).
هذه مجموعة من النصوص التي تركز على تنزيل الجينوم الفعلي.
تثبيت النقطة ncbi-genome-download
وبدلاً من ذلك، يمكنك استنساخ هذا المستودع من GitHub، ثم تشغيله (في بيئة افتراضية بلغة python).
تثبيت النقطة .
إذا فشل هذا في الإصدارات الأقدم من Python، فحاول تحديث أداة pip
أولاً:
تثبيت النقطة - ترقية النقطة
ثم أعد تشغيل تثبيت ncbi-genome-download
.
وبدلاً من ذلك، يتم حزم ncbi-genome-download
في conda
. ارجع إلى موقع Anaconda/miniconda لتثبيت التوزيع (موصى به للغاية). مع هذا التثبيت يمكن للمرء أن يفعل:
conda install -c bioconda ncbi-genome-download
تم تطوير واختبار ncbi-genome-download
فقط على إصدارات Python التي لا تزال تحت الدعم النشط من مشروع Python. في الوقت الحالي، يعني ذلك الإصدارات 3.7 و3.8 و3.9 و3.10 و3.11. على وجه التحديد، لم يتم إجراء أي محاولة للاختبار ضمن إصدارات Python الأقدم من 3.7.
إذا كان نظامك عالقًا في إصدار أقدم من Python، ففكر في استخدام أداة مثل Homebrew للحصول على إصدار أكثر حداثة.
كان ncbi-genome-download
0.2.12 هو الإصدار الأخير الذي يدعم Python 2.
لتنزيل جميع جينومات RefSeq البكتيرية بتنسيق GenBank من NCBI، قم بتشغيل ما يلي:
ncbi-الجينوم-تنزيل البكتيريا
من الممكن أيضًا تنزيل مجموعات متعددة:
ncbi-الجينوم-تنزيل البكتيريا، الفيروسية
ملاحظة : لرؤية جميع المجموعات المتاحة، راجع ncbi-genome-download --help
أو ببساطة استخدم all
للتحقق من جميع المجموعات. ستؤدي تسمية مجموعة أكثر تحديدًا إلى تقليل حجم التنزيل والوقت اللازم للعثور على التسلسلات المطلوب تنزيلها.
إذا كنت تستخدم اتصالاً سريعًا إلى حد معقول، فقد ترغب في تجربة تشغيل تنزيلات متعددة بالتوازي:
NCBI-جينوم-تنزيل البكتيريا--التوازي 4
لتنزيل جميع جينومات GenBank الفطرية من NCBI بتنسيق GenBank، قم بتشغيل:
ncbi-genome-download --section genbank fungi
لتنزيل جميع جينومات RefSeq الفيروسية بتنسيق FASTA، قم بتشغيل:
ncbi-genome-download --formats fasta فيروسي
من الممكن تنزيل تنسيقات متعددة عن طريق توفير قائمة التنسيقات أو ببساطة تنزيل جميع التنسيقات:
ncbi-genome-download --formats fasta، تقرير التجميع الفيروسي ncbi-genome-download --formats جميعها فيروسية
لتنزيل جينومات RefSeq البكتيرية المكتملة فقط بتنسيق GenBank، قم بتشغيل:
ncbi-genome-download --مستويات التجميع البكتيريا الكاملة
من الممكن تنزيل مستويات تجميع متعددة مرة واحدة عن طريق توفير قائمة:
ncbi-genome-download --مستويات التجميع كاملة، بكتيريا الكروموسوم
لتنزيل الجينومات المرجعية البكتيرية فقط من RefSeq بتنسيق GenBank، قم بتشغيل:
ncbi-genome-download --refseq-الفئات البكتيريا المرجعية
لتنزيل جينومات RefSeq البكتيرية من جنس Streptomyces ، قم بتشغيل:
ncbi-genome-download --أجناس البكتيريا العقدية
ملحوظة : هذه مطابقة سلسلة بسيطة لاسم الكائن الحي المقدم من NCBI فقط.
يمكنك أيضًا استخدام هذا مع خدعة بسيطة لتنزيل جينومات نوع معين أيضًا:
ncbi-genome-download --genera البكتيريا "Streptomyces coelicolor".
ملاحظة : الاقتباسات مهمة. مرة أخرى، هذه مطابقة سلسلة بسيطة لاسم الكائن الحي المقدم من NCBI.
أجناس متعددة ممكنة أيضًا:
تنزيل الجينوم ncbi - بكتيريا "Streptomyces coelicolor، Escherichia coli"
يمكنك أيضًا وضع أسماء الأجناس في ملف، كائن حي واحد في كل سطر، على سبيل المثال:
العقدية الأميكولاتوبسيس
بعد ذلك، قم بتمرير المسار إلى هذا الملف (على سبيل المثال my_genera.txt
) إلى خيار --genera
، كما يلي:
ncbi-genome-download --genera my_genera.txt البكتيريا
ملاحظة : سيقوم الأمر أعلاه بتنزيل جميع جينومات Streptomyces و Amycolatopsis من RefSeq.
يمكنك جعل تطابق السلسلة غامضًا باستخدام خيار --fuzzy-genus
. يمكن أن يكون هذا مفيدًا إذا كنت بحاجة إلى مطابقة قيمة في منتصف اسم الكائن NCBI، كما يلي:
تنزيل الجينوم ncbi --أجناس coelicolor --بكتيريا جنس غامض
ملاحظة : سيقوم الأمر أعلاه بتنزيل جميع الجينومات البكتيرية التي تحتوي على "coelicolor" في أي مكان في اسم الكائن الحي من RefSeq.
لتنزيل جينومات RefSeq البكتيرية استنادًا إلى معرف تصنيف الأنواع NCBI، قم بتشغيل:
ncbi-genome-download --species-taxids 562 بكتيريا
ملاحظة : سيقوم الأمر أعلاه بتنزيل كافة جينومات RefSeq التي تنتمي إلى الإشريكية القولونية .
لتنزيل جينومات RefSeq البكتيرية المحددة استنادًا إلى معرف تصنيف NCBI الخاص به، قم بتشغيل:
ncbi-genome-download --taxids 511145 بكتيريا
ملاحظة : سيقوم الأمر أعلاه بتنزيل جينوم RefSeq الذي ينتمي إلى Escherichia coli str. K-12 فرعية. ام جي 1655 .
من الممكن أيضًا تنزيل ضرائب الأنواع المتعددة أو ضرائب الأنواع عن طريق توفير الأرقام في قائمة مفصولة بفواصل:
تنزيل الجينوم ncbi -- التاكسيدات 9606,9685 -- الكروموسوم على مستوى التجميع الفقاريات_الثدييات
ملاحظة : سيقوم الأمر أعلاه بتنزيل الجينومات المرجعية للقطط والبشر.
بالإضافة إلى ذلك، يمكنك وضع أنواع متعددة من ضرائب الأنواع أو ضرائبها في ملف، واحد في كل سطر وتمرير اسم الملف هذا إلى معلمات --species-taxids
أو --taxids
، على التوالي.
بافتراض أن لديك ملف my_taxids.txt
بالمحتويات التالية:
9606
9685
يمكنك تنزيل الجينومات المرجعية للقطط والبشر على النحو التالي:
ncbi-genome-download --taxids my_taxids.txt --مستويات تجميع الكروموسوم الفقاريات_الثدييات
من الممكن أيضًا إنشاء بنية دليل يمكن قراءتها بواسطة الإنسان بالتوازي مع عكس التخطيط المستخدم بواسطة NCBI:
ncbi-genome-download --بكتيريا يمكن قراءتها بواسطة الإنسان
سيستخدم هذا الارتباطات للإشارة إلى الملفات المناسبة في بنية دليل NCBI، وبالتالي يوفر مساحة الملف. لاحظ أن الروابط غير مدعومة في بعض أنظمة ملفات Windows وبعض الإصدارات الأقدم من Windows.
من الممكن أيضًا إعادة تشغيل تنزيل سابق باستخدام خيار --human-readable
. في هذه الحالة، لن يقوم ncbi-genome-download
بتنزيل أي ملفات جينوم جديدة، وسيقوم فقط بإنشاء بنية دليل يمكن قراءتها بواسطة الإنسان. لاحظ أنه إذا تم تغيير أي ملفات من جانب NCBI، فسيتم تشغيل تنزيل الملف.
يوجد خيار "التشغيل التجريبي" لإظهار الملحقات التي سيتم تنزيلها، وفقًا للمرشحات الخاصة بك:
ncbi-genome-download --البكتيريا الجافة
إذا كنت تريد تصفية عمود "العلاقة بنوع المادة" في ملف ملخص التجميع، فيمكنك استخدام خيار --type-materials
. القيم المحتملة هي "أي"، و"الكل"، و"النوع"، و"المرجع"، و"المرادف"، و/أو "النوع الوكيل"، و/أو "النمط الجديد". ستتضمن "أي" التجميعات التي ليس لها علاقة بنوع قيمة المادة المحددة، بينما ستؤدي "الكل" إلى تنزيل التجميعات ذات القيمة المحددة فقط. يمكن إعطاء قيم متعددة، مفصولة بفاصلة:
ncbi-genome-download --نوع المواد، المرجع
افتراضيًا، يقوم ncbi-genome-download بتخزين ملفات ملخص التجميع مؤقتًا للمجموعات التصنيفية المعنية لمدة يوم واحد. يمكنك تخطي استخدام ملف ذاكرة التخزين المؤقت باستخدام خيار --no-cache
. يُظهر إخراج --help
أيضًا دليل ذاكرة التخزين المؤقت، إذا كنت تريد إزالة أي من الملفات المخزنة مؤقتًا.
للحصول على نظرة عامة على جميع الخيارات، قم بتشغيل
ncbi-genome-download --help
يمكنك أيضًا استخدامه كاستدعاء أسلوب:
استيراد ncbi_genome_download كـ ngdngd.download()
قم بتمرير وسيطات الكلمات الرئيسية pythonised كما هو موضح أعلاه أو في --help
. لتحديد المجموعات التصنيفية، مثل البكتيريا ، استخدم الكلمة الأساسية groups
. لتحديد تنسيقات الملفات، مثل خيار --format
CLI، استخدم file_formats
. يجب أن تتطابق جميع الكلمات الرئيسية الأخرى مع خيارات واجهة سطر الأوامر (CLI)، مع -
إلى _
. لاحظ أنه نظرًا لأن استدعاء الأسلوب يتبع نفس المنطق مثل واجهة سطر الأوامر (CLI)، فيجب تمرير بيانات القوائم كسلاسل، مفصولة بفاصلة ولكن بدون مسافات، تمامًا كما هو الحال في سطر الأوامر.
gimme_taxa.py
يتيح لك هذا البرنامج النصي معرفة معرفات الضرائب التي سيتم تمريرها إلى ngd
، وسيقوم بكتابة ملف بسيط مكون من عنصر واحد لكل سطر لتمريره إليه. يستخدم مجموعة أدوات ete3
، لذا قم بالرجوع إلى موقعهم لتثبيت التبعية إذا لم تكن راضية بالفعل.
يمكنك الاستعلام عن قاعدة البيانات باستخدام معرف ضريبة معين، أو اسم علمي. تتمثل الوظيفة الأساسية للبرنامج النصي في إرجاع جميع الأصناف الفرعية للأصناف الأصلية المحددة. يحتوي البرنامج النصي على خيارات متنوعة للمعلومات المكتوبة في الإخراج.
قد يبدو الاستدعاء الأساسي كما يلي:
# جلب جميع الأصناف المنحدرة لـ Escherichia (taxid 561):python gimme_taxa.py -o ~/mytaxafile.txt 561# بدلاً من ذلك، فقط قم بتوفير اسم الصنف python gimme_taxa.py -o all_descendent_taxids.txt Escherichia# يمكنك تقديم ضرائب متعددة و/أو namespython gimme_taxa.py -o all_descendent_taxids.txt 561,ميثانوبرفيباكتر
عند الاستخدام لأول مرة، سيتم إنشاء قاعدة بيانات sqlite صغيرة في الدليل الرئيسي الخاص بك افتراضيًا (قم بتغيير الموقع باستخدام علامة --database
). يمكنك تحديث قاعدة البيانات هذه باستخدام علامة --update
. لاحظ أنه إذا لم تكن قاعدة البيانات موجودة في دليلك الرئيسي، فيجب عليك تحديدها باستخدام --database
وإلا سيتم إنشاء قاعدة بيانات جديدة في دليلك الرئيسي.
لرؤية كل المساعدة:
بيثون gimme_taxa.py بيثون gimme_taxa.py -h بيثون gimme_taxa.py --help
لاستخدام البرنامج النصي gimme_taxa.py
مع خيار --taxids
ncbi-genome-download
، تحتاج إلى استدعاء gimme_taxa.py
مع الخيار -j
، مثل هذا:
gimme_taxa.py -j -o my_taxids.txt الإشريكية ncbi-genome-download --taxids my_taxids.txt البكتيريا
ncbi-genome-download
يمكنك الاستشهاد ncbi-genome-download
عبر إيداع Zenodo ضمن DOI: 10.5281/zenodo.8192432 أو DOI المحدد للإصدار الذي استخدمته.
كل التعليمات البرمجية متاحة بموجب ترخيص Apache الإصدار 2، راجع ملف LICENSE
للحصول على التفاصيل.