هناك الكثير من الطرق لتشغيل سير العمل على AWS. نذكر هنا بعض الاحتمالات التي قد يعمل كل منها لتحقيق أهداف بحثية مختلفة. أثناء تصفحك للبرامج التعليمية المتنوعة أدناه، فكر في كيفية تشغيل سير العمل هذا بشكل أكثر كفاءة باستخدام إحدى الطرق الأخرى المدرجة هنا. إذا لم تكن على دراية بأي من المصطلحات أو المفاهيم هنا، فيرجى مراجعة صفحة AWS Jumpstart.
screen
أو، كبرنامج نصي لبدء التشغيل مرفق كبيانات وصفية. راجع البرنامج التعليمي GWAS أدناه للحصول على مزيد من المعلومات حول كيفية تشغيل خط الأنابيب باستخدام EC2.بالنسبة للعديد من هذه البرامج التعليمية، ستحتاج إلى مفاتيح وصول قصيرة المدى لإنشاء الموارد واستخدامها، خاصة عندما يستدعي البرنامج التعليمي "معرف مفتاح الوصول" و"المفتاح السري". استخدم هذا الدليل للحصول على شرح لكيفية الحصول على مفاتيح الوصول قصيرة المدى واستخدامها. إذا كنت باحثًا تابعًا للمعاهد الوطنية للصحة، بمعنى آخر، لا تعمل في المعاهد الوطنية للصحة ولكن لديك حساب Cloud Lab، فلن تتمكن من الوصول إلى المفاتيح. إذا كان هناك برنامج تعليمي لم تتمكن من إكماله، فتواصل معنا للحصول على المساعدة على [email protected]
يرجى أيضًا ملاحظة أن أجهزة GPU تكلف أكثر من معظم أجهزة وحدة المعالجة المركزية (CPU)، لذا تأكد من إيقاف تشغيل هذه الأجهزة بعد الاستخدام، أو تطبيق تكوين دورة حياة EC2. قد تواجه أيضًا حصصًا للخدمة لحمايتك من الاستخدام العرضي لأنواع الأجهزة باهظة الثمن. إذا حدث ذلك، وكنت لا تزال ترغب في استخدام نوع مثيل معين، فاتبع هذه الإرشادات.
التعلم الآلي هو مجال فرعي من الذكاء الاصطناعي الذي يركز على تطوير الخوارزميات والنماذج التي تمكن أجهزة الكمبيوتر من التعلم من البيانات واتخاذ التنبؤات أو القرارات بناءً عليها، دون برمجتها بشكل صريح. يتم تطبيق الذكاء الاصطناعي وخوارزميات التعلم الآلي على مجموعة متنوعة من الأسئلة البحثية الطبية الحيوية، بدءًا من تصنيف الصور وحتى استدعاء المتغيرات الجينومية. لدى AWS قائمة طويلة من البرامج التعليمية المتوفرة حول الذكاء الاصطناعي/تعلم الآلة وقد قمنا بتجميع قائمة هنا. تركز أحدث التطورات على الذكاء الاصطناعي التوليدي بما في ذلك حالات الاستخدام مثل استخراج المعلومات من النص، وتحويل الكلام إلى نص، وإنشاء الصور من النص. يسمح Sagemaker Studio للمستخدم بإنشاء نماذج الذكاء الاصطناعي التوليدية واختبارها وتدريبها بسرعة، كما أنه جاهز لاستخدام النماذج المضمنة في JumpStart. تتراوح هذه النماذج من النماذج الأساسية، والنماذج القابلة للضبط الدقيق، والحلول الخاصة بالمهمة.
المعلوماتية السريرية، والمعروفة أيضًا باسم معلوماتية الرعاية الصحية أو المعلوماتية الطبية، هي مجال متعدد التخصصات يطبق علم البيانات على بيانات الرعاية الصحية لتحسين رعاية المرضى، وتعزيز العمليات السريرية، وتسهيل البحث الطبي. وغالبًا ما يتضمن دمج أنواع البيانات المتنوعة بما في ذلك السجلات الصحية الإلكترونية أو البيانات الديموغرافية أو البيئية. تقدم AWS ورشتي عمل حسب الطلب ترشدك عبر AWS HealthLake لتحليل بيانات الصحة السكانية. توضح لك ورشة العمل الأولى هذه كيفية إدخال البيانات إلى HealthLake، والاستعلام عن تلك البيانات باستخدام Athena، وتصور هذه البيانات باستخدام QuickSight، ثم دمج بيانات FHIR مع البيانات البيئية وتصور مجموعة البيانات المجمعة. تقوم ورشة العمل الثانية أيضًا بإدخال البيانات في HealthLake، ثم تصور بيانات الأجهزة الطبية، وتستخدم الذكاء الاصطناعي لتلخيص الملاحظات السريرية، ثم تقوم بنسخ الملفات الصوتية السريرية وتلخيصها.
توجد بيانات التسلسل الجيني للجيل القادم في أرشيف قراءة التسلسل NCBI (SRA). يمكنك الوصول إلى هذه البيانات باستخدام مجموعة أدوات SRA. نرشدك خلال هذا باستخدام هذا المفكرة، والذي يرشدك أيضًا إلى كيفية إعداد جداول Athena والبحث فيها لإنشاء قائمة انضمام. يمكنك أيضًا قراءة هذا الدليل لمزيد من المعلومات حول جداول مجموعات البيانات المتاحة. يمكن العثور على أمثلة إضافية لدفاتر الملاحظات في مستودع NCBI هذا. على وجه الخصوص، نوصي بهذا الدفتر (https://github.com/ncbi/ASHG-Workshop-2021/blob/main/3_Biology_Example_AWS_Demo.ipynb)، الذي يتناول المزيد من التفاصيل حول استخدام Athena للوصول إلى نتائج التحليل التصنيفي SRA الأداة، والتي غالبًا ما تختلف عن اسم الأنواع الذي يُدخله المستخدم بسبب التلوث أو الخطأ أو بسبب كون العينات ميتاجينومية بطبيعتها.
دراسات الارتباط على مستوى الجينوم (GWAS) هي تحقيقات واسعة النطاق تحلل جينومات العديد من الأفراد لتحديد المتغيرات الجينية الشائعة المرتبطة بالسمات أو الأمراض أو الأنماط الظاهرية الأخرى.
يتطلب تحليل التصوير الطبي تحليل ملفات الصور الكبيرة وغالبًا ما يتطلب تخزينًا مرنًا وحوسبة سريعة.
يعد تحليل RNA-seq طريقة تسلسل عالية الإنتاجية تسمح بقياس وتوصيف مستويات التعبير الجيني وديناميكيات النسخ. عادةً ما يتم تشغيل عمليات سير العمل باستخدام مديري سير العمل، ويمكن غالبًا تصور النتائج النهائية في دفاتر الملاحظات.
تسلسل الحمض النووي الريبي أحادي الخلية (scRNA-seq) هو تقنية تتيح تحليل التعبير الجيني على مستوى الخلية الفردية، مما يوفر نظرة ثاقبة حول عدم التجانس الخلوي، وتحديد أنواع الخلايا النادرة، والكشف عن الديناميكيات الخلوية والحالات الوظيفية داخل الأنظمة البيولوجية المعقدة.
NCBI BLAST (أداة البحث عن المحاذاة المحلية الأساسية) هو برنامج معلوماتية حيوية يستخدم على نطاق واسع ويقدمه المركز الوطني لمعلومات التكنولوجيا الحيوية (NCBI) الذي يقارن تسلسلات النيوكليوتيدات أو البروتين مع قاعدة بيانات كبيرة لتحديد تسلسلات مماثلة واستنتاج العلاقات التطورية والشروح الوظيفية والهيكلية. معلومة. لقد كتب فريق NCBI نسخة من BLAST للسحابة تسمى ElasticBLAST، ويمكنك قراءة كل شيء عنها هنا. بشكل أساسي، تساعدك ElasticBLAST على إرسال مهام BLAST إلى AWS Batch وكتابة النتائج مرة أخرى إلى S3. لا تتردد في تجربة المثال التعليمي في Cloud Shell، أو تجربة إصدار الكمبيوتر المحمول الخاص بنا.
يمكنك تشغيل العديد من خوارزميات طي البروتين بما في ذلك Alpha Fold على AWS. نظرًا لأن قواعد البيانات كبيرة جدًا، يكون الإعداد عادةً صعبًا للغاية، ولكن AWS أنشأت مكدس StackFormation الذي يعمل تلقائيًا على تشغيل جميع الموارد اللازمة لتشغيل Alpha Fold وخوارزميات طي البروتين الأخرى. يمكنك القراءة عن موارد AWS هنا، وعرض صفحة GitHub هنا. لكي يعمل هذا، ستحتاج إلى تعديل مجموعات الأمان الخاصة بك باتباع هذه الإرشادات. من المحتمل أيضًا أن تمنح أذونات إضافية للدور الذي يستخدمه CloudFormation. إذا واجهتك مشكلة، تواصل مع [email protected]. يمكنك أيضًا تشغيل ESMFold باستخدام هذا البرنامج التعليمي.
يتضمن تحليل تسلسل الحمض النووي للقراءة الطويلة تحليل قراءات التسلسل التي يزيد طولها عادة عن 10 آلاف زوج أساسي، مقارنة بتسلسل القراءة القصيرة حيث يبلغ طول القراءات حوالي 150 زوجًا أساسيًا. لدى Oxford Nanopore عرضًا كاملاً جدًا من البرامج التعليمية للكمبيوتر الدفتري للتعامل مع البيانات المقروءة لفترة طويلة للقيام بمجموعة متنوعة من الأشياء بما في ذلك الاتصال المتغير وتحليل RNAseq وSars-Cov-2 وغير ذلك الكثير. الوصول إلى دفاتر الملاحظات هنا. تتوقع هذه الدفاتر أنك تعمل محليًا وتصل إلى خادم epi2me الدفتري. لتشغيلها في Cloud Lab، تخطى الخلية الأولى التي تتصل بالخادم ثم يجب أن يعمل باقي الكمبيوتر الدفتري بشكل صحيح، مع بعض التعديلات. إذا كنت تريد فقط تجربة دفاتر الملاحظات، فلا تبدأ بها. إذا كنت مهتمًا بتحليل تسلسل القراءة الطويلة، فقد تكون هناك حاجة لبعض عمليات استكشاف الأخطاء وإصلاحها لتكييفها مع بيئة Cloud Lab. قد تحتاج أيضًا إلى إعادة كتابتها في دفتر ملاحظات جديد عن طريق تعديل الأوامر. لا تتردد في التواصل مع فريق الدعم لدينا للحصول على المساعدة.
أنشأ اتحاد تسريع العلاجات للفرص في الطب (ATOM) سلسلة من دفاتر ملاحظات Jupyter التي ترشدك عبر نهج ATOM لاكتشاف الأدوية.
تم إنشاء دفاتر الملاحظات هذه للتشغيل في Google Colab، لذا إذا قمت بتشغيلها في AWS، فستحتاج إلى إجراء بعض التعديلات. أولاً، نوصيك باستخدام Sagemaker Studio Notebook بدلاً من دفتر ملاحظات يديره المستخدم ببساطة لأنه سيتم تثبيت Tensorflow والتبعيات الأخرى عليه. تأكد من إرفاق وحدة معالجة الرسومات (GPU) بمثيلك (T4 جيد). ستحتاج أيضًا إلى التعليق على %tensorflow_version 2.x
نظرًا لأن هذا أمر خاص بـ Colab. ستحتاج أيضًا إلى pip install
بعض الحزم حسب الحاجة. إذا حصلت على أخطاء في deepchem
، فحاول تشغيل pip install --pre deepchem[tensorflow]
و/أو pip install --pre deepchem[torch]
. أيضًا، ستتطلب بعض أجهزة الكمبيوتر المحمولة نواة Tensorflow، بينما يتطلب البعض الآخر Pytorch. قد تواجه أيضًا خطأ Pandas، أو تتواصل مع مطوري ATOM GitHub للحصول على أفضل حل، أو تراجع مشكلاتهم.
المجهر الإلكتروني بالتبريد (cryoEM)، هو تقنية تصوير قوية تستخدم في علم الأحياء الهيكلي لتصور هياكل الجزيئات البيولوجية الكبيرة، مثل البروتينات والأحماض النووية والمجمعات الجزيئية الكبيرة، بدقة شبه ذرية أو حتى ذرية. لقد أحدث ثورة في مجال البيولوجيا الهيكلية من خلال توفير هياكل مفصلة ثلاثية الأبعاد للجزيئات الحيوية، وهو أمر بالغ الأهمية لفهم وظائفها.
لدى AWS الكثير من البيانات العامة التي يمكنك دمجها في اختباراتك أو استخدامها في أبحاثك الخاصة. يمكنك الوصول إلى مجموعات البيانات هذه في سجل البيانات المفتوحة على AWS. هناك يمكنك النقر على أي من مجموعات البيانات لعرض مسار S3 إلى البيانات، بالإضافة إلى المنشورات التي استخدمت تلك البيانات والبرامج التعليمية إذا كانت متوفرة. للتوضيح، يمكننا النقر فوق مجموعة بيانات gnomad، ثم الحصول على مسار S3 وعرض الملفات في سطر الأوامر عن طريق لصق https://registry.opendata.aws/broad-gnomad/
.