يرجى ملاحظة أنه تم نقل مدونة بوسيدون للتو إلى NextFlow ، لذا قد لا يزال هناك بعض الأخطاء. لا تتردد في الإبلاغ عن المشكلات!
نعرض هنا Poseidon ، وهو خط أنابيب للكشف عن المواقع المختارة الإيجابية بشكل كبير وأحداث إعادة التركيب المحتملة في محاذاة تسلسل ترميز البروتين المتعدد. توفر المواقع التي تخضع للاختيار الإيجابي رؤى في التاريخ التطوري لتسلسلاتك ، على سبيل المثال إظهار النقاط الساخنة للطفرة المهمة ، المتراكمة كنتائج لسباقات الأسلحة المضيفة فيروس أثناء التطور.
يعتمد بوسيدون على مجموعة متنوعة من أدوات الطرف الثالث المختلفة (انظر أدناه). ولكن لا تقلق ، قمنا بتغليف كل أداة في حاوية Docker الخاصة بها وتوصيلها في نظام إدارة سير العمل التالي.
انتقل مباشرة إلى مثال صغير على ناتج Poseidon لبروتين Sars-Cov-2 Spike بالمقارنة مع دراسة حديثة لـ Zhou et al . 2020.
تحتاج فقط إلى NextFlow (الإصدار 20.+) وتثبيت Docker لتشغيل خط الأنابيب. سيتم سحب جميع التبعيات تلقائيًا.
إما تشغيل بوسيدون عن طريق استنساخ هذا المستودع:
git clone https://github.com/hoelzer/poseidon.gitcd poseidon NextFlow Run Poseidon.nf -help
أو دع NextFlow يقوم بالسحب
NextFlow سحب Hoelzer/Poseidon
نوصي باستخدام إصدار محدد من Poseidon عبر
#pullnextflow سحب hoelzer/poseidon -r v1.0.1#runnextflow Run Hoelzer/poseidon -r v1.0.1 -help
اعتمادًا على إجراء التثبيت الخاص بك ، قم بتحديث خط الأنابيب عبر git pull
أو nextflow pull hoelzer/poseidon
.
هام: يحتاج بوسيدون إلى تسلسل النوكليوتيدات مع إطار القراءة المفتوح الصحيح كمدخل. بالإضافة إلى ذلك ، تعتمد النتائج اعتمادًا كبيرًا على اختيارك للتسلسل ، وبالتالي ، قد تفكر في تشغيل خط الأنابيب عدة مرات مع عينات مختلفة من تسلسل الإدخال الخاص بك. كما لا يمكن لخط الأنابيب أن يعمل مع الكثير من التسلسلات لأنه في الأساس يستخدم Poseidon CodeML من جناح PAML غير المخصص لـ> 100 تسلسل. يرجى العثور على وصف مفصل لمعلمات الإدخال والإعدادات أدناه.
يمكن تنفيذ NextFlow بسهولة على بيئات مختلفة مثل جهازك المحلي أو مجموعة عالية الأداء أو السحابة. يتم استخدام مختلف -profile
لإخبار NextFlow أي النظام الذي يجب استخدامه. للتنفيذ المحلي -profile local,docker
(وهو أيضًا الافتراضي). يمكنك أيضًا تشغيل Poseidon على HPC باستخدام التفرد عبر -profile lsf,singularity
، -profile slurm,singularity
أو -profile sge,singularity
. في مثل هذه الحالات ، يرجى أيضًا التفكير في ضبط --cachedir
للتوجيه إلى مكان تخزين صور التفرد على المجموعة الخاصة بك. قد تكون المعلمة --workdir
مفيدة أيضًا لضبط مكان تخزين أدلة العمل المؤقتة (على سبيل المثال الاستخدام /scratch
بدلاً من /tmp
اعتمادًا على تكوين HPC الخاص بك.)
الآن ، لنفترض أنك استخدمت NextFlow لسحب رمز Poseidon وتنفيذ خط الأنابيب على جهاز محلي باستخدام ملف التعريف الافتراضي -profile local,docker
.
# عرض Help Nextflow Run Hoelzer/Poseidon -Help # Run Small Meosted على جهاز محلي مع # (لأول مرة سيحتاج هذا إلى مزيد من الوقت لأنه يتم تنزيل حاويات Docker) ~/.nextflow/assets/hoelzer/poseidon/test_data/bats_mx1_small.fasta -cores 4# استئناف Runnextflow Run Hoelzer/poseidon -r v1.0.1 -fasta ~/.nextflow/assets/hoelzer/poseidon/test_data/bats_mx1_small.fasta -CORES 4 -RESUME# بدلاً من استخدام جميع النوى المتاحة فقط لا تستخدم سوى الحد الأقصى على MachineneNextFlow Run Hoelzer/Poseidon -r v1.0.1 -fasta ~/.nextflow/assets/hoelzer/poseidon/test_data/bats_mx1_small.fasta -MAX_CORES 8 -CORES 4
لإعادة إنتاج نتائج الاختيار الإيجابي المبلغ عنها في Fuchs et al . (2017) ، مجلة علم الفيروسات:
NextFlow Run Hoelzer/poseidon -r v1.0.0 -fasta ~/.nextflow/assets/hoelzer/poseidon/test_data/bats_mx1.fasta -cores 4-kh-outgroup "pteropus_alecto ، eidolon_helvum ، rousettus_aegyptiacus ، hypsignatus_monstrosus"-المرجع "myotis_daubentonii"
يشتمل خط أنابيب Poseidon على محاذاة في الإطار لتسلسل ترميز البروتين المتماثل ، واكتشاف أحداث إعادة التركيب المفترضة ونقاط التوقف التطورية ، وإعادة البناء التطوري والكشف عن المواقع المختارة بشكل إيجابي في المحاذاة الكاملة وجميع الشظايا الممكنة. أخيرًا ، يتم دمج جميع النتائج وتصورها في صفحة ويب HTML سهلة الاستخدام واضحة. يشار إلى شظايا المحاذاة الناتجة مع أشرطة ملونة في إخراج HTML.
Translatorx (v1.1) ، Abascal et al . (2010) ؛ 20435676
Muscle (v3.8.31) ، Edgar (2004) ؛ 15034147
Raxml (V8.0.25) ، Stamatakis (2014) ؛ 24451623
Newick Utilities (v1.6) ، Junier and Zdobnov (2010) ؛ 20472542
ModelTest ، Posada و Crandall (1998) ؛ 9918953
Hyphy (v2.2) ، Pond et al . (2005) ؛ 15509596
جارد ، بوند وآخرون. (2006) ؛ 17110367
PAML/CODEML (v4.8) ، Yang (2007) ؛ 17483113
روبي (v2.3.1)
inkscape (v1.0)
pdftex (v3.14)
معظم معلمات Poseidon اختيارية ويتم شرحها أدناه بالتفصيل.
--fasta
إلزامي. يجب أن يتبع ملف الإدخال fasta التنسيق:
>Myotis_lucifugus Mx1 Gene ATGGCGATCGAGATACGATACGTA... >Myotis_davidii Mx1 Gene ATGGCGGTCGAGATAAGATACGTT...
يجب أن تحتوي جميع التسلسلات على إطار قراءة مفتوح صحيح ، ولا يُسمح إلا لاحتواء أحرف النوكليوتيدات [A | C | G | T] ولا يوجد رمز إيقاف داخلي.
يجب أن تكون معرفات التسلسل فريدة من نوعها حتى أول حدوث مساحة.
--reference
خياري. الافتراضي: استخدم معرف التسلسل الأول كمرجع. يمكنك تحديد معرف نوع واحد من ملف fasta المتعدد كنوع مرجعي. سيتم رسم المواقع التي تم اختيارها بشكل إيجابي والأحماض الأمينية المقابلة فيما يتعلق بهذا النوع. يجب أن يتطابق المعرف مع رأس FARTA حتى تحدث المساحة الأولى. على سبيل المثال ، إذا كنت تريد myotis lucifugus كأنواع مرجعية الخاصة بك ويحتوي ملف fasta الخاص بك على:
>Myotis_lucifugus Mx1 Gene ATGGCGATCGAGATACGATACGTA...
يستخدم
--reference "Myotis_lucifugus"
كمعلمة لتعيين الأنواع المرجعية. لكل افتراضي ، سيتم استخدام المعرف الأول الذي يحدث في ملف FARTA المتعدد.
--outgroup
خياري. الافتراضي: الأشجار غير مجردة. يمكنك تحديد معرفات الأنواع أو متعددة ( فاصلة مفصولة) على أنها مجموعة خارجية. سيتم تجذير جميع الأشجار phylogenetic وفقًا لهذا النوع. على سبيل المثال ، إذا كان ملف FARTA المتعدد يحتوي على
ATGGCGATCGAGATACGATACGTA...
>Myotis_davidii Mx1 Gene
ATGGCGGTCGAGATAAGATACGTT...
>Pteropus_vampyrus Mx1 Gene
ATGGCCGTAGAGATTAGATACTTT...
>Eidolon_helvum Mx1 Gene
ATGCCCGTAGAGAATAGATACTTT...
يمكنك تحديد:
--outgroup "Pteropus_vampyrus,Eidolon_helvum"
لجذر جميع الأشجار فيما يتعلق بهذا النوعين.
--kh
خياري. الافتراضي: خطأ. مع هذه المعلمة ، يمكنك أن تقرر ما إذا كان ينبغي أخذ نقاط توقف ضئيلة في الاعتبار. يتم اختبار جميع نقاط التوقف من أجل التناقض الطوبولوجي الهام باستخدام اختبار Kashino Hasegawa (KH) Kishino ، H. و Hasegawa ، M. (1989). غالبًا ما تنشأ نقاط التوقف المهمة KH من التباين في أطوال الفرع بين الأجزاء. ومع ذلك ، قد يكون أخذ نقاط التوقف المهمة في KH في الاعتبار أمرًا مثيرًا للاهتمام ، لأننا لاحظنا بالفعل مواقع مختارة إيجابية في أجزاء دون أي تناقض طوبولوجي كبير. يتم وضع علامة على شظايا kH المهمة في الإخراج النهائي ، حيث قد لا تحدث من أحداث إعادة التركيب الحقيقية.
لكل نقاط توقف مهمة فقط يتم استخدامها لمزيد من الحسابات.
يرجى أيضًا أن تضع في اعتبارك أن استخدام نقاط التوقف غير ذات أهمية يمكن أن يمتد وقت تشغيل Poseidon من دقائق إلى ساعات ، اعتمادًا على عدد نقاط التوقف المكتشفة.
يرجى الاطلاع على --help
للمعلمات الأخرى (gard ، raxml ، ...) واسمحوا لنا أن نعرف ما إذا كنت بحاجة إلى مزيد من التخصيص!
إذا كان بوسيدون يساعدك ، فيرجى الاستشهاد:
مارتن هولزر ومانجا مارز ، "بوسيدون: خط أنابيب التالي لاكتشاف أحداث إعادة التركيب التطورية والاختيار الإيجابي" ، OUP Bioinformatics (2020)