هناك العديد من الطرق لتشغيل سير العمل على Google Cloud Platform. نذكر هنا بعض الاحتمالات التي قد يعمل كل منها لتحقيق أهداف بحثية مختلفة. أثناء تصفحك للبرامج التعليمية المتنوعة أدناه، فكر في كيفية تشغيل سير العمل هذا بشكل أكثر كفاءة باستخدام إحدى الطرق الأخرى المدرجة هنا.
screen
أو، كبرنامج نصي لبدء التشغيل مرفق كبيانات تعريفية.managed notebooks
ودفاتر user managed notebooks
. تحتوي managed notebooks
على المزيد من الميزات ويمكن جدولتها، ولكنها تمنحك تحكمًا أقل في بيئات/عمليات التثبيت.التعلم الآلي هو مجال فرعي من الذكاء الاصطناعي يركز على تطوير الخوارزميات والنماذج التي تمكن أجهزة الكمبيوتر من التعلم من البيانات واتخاذ التنبؤات أو القرارات بناءً عليها، دون برمجتها بشكل صريح. يحدث التعلم الآلي على Google Cloud Platform بشكل عام داخل VertexAI. يمكنك التعرف على المزيد حول التعلم الآلي على Google Cloud Platform في دورة Google Crash Course هذه. للحصول على أمثلة عملية، جرب هذه الوحدة التي طورتها جامعة ولاية سان فرانسيسكو أو هذه الوحدة من جامعة أركاساس التي تم تطويرها لمشروع NIGMS Sandbox.
الآن بعد أن وصل عصر الذكاء الاصطناعي التوليدي (Gen AI)، أصدرت Google مجموعة من عروض Gen AI ضمن مجموعة Vertex AI. بعض الأمثلة على قدرة نماذج الذكاء الاصطناعي التوليدية هي استخراج المعلومات المطلوبة من النص، وتحويل الكلام إلى نص، وتوليد الصور من الأوصاف والعكس، وأكثر من ذلك بكثير. تسمح وحدة تحكم Vertex AI Studio الخاصة بشركة Vertex AI للمستخدم بإنشاء نماذج ذكاء اصطناعي توليدية واختبارها وتدريبها بسرعة على السحابة في بيئة آمنة ومأمونة، راجع النظرة العامة في هذا البرنامج التعليمي. يحتوي الاستوديو أيضًا على نماذج جاهزة للاستخدام موجودة جميعها في Model Garden. تتراوح هذه النماذج من النماذج الأساسية، والنماذج القابلة للضبط الدقيق، والحلول الخاصة بالمهمة.
تحليل الصور الطبية هو تطبيق الخوارزميات والتقنيات الحسابية لاستخراج معلومات ذات معنى من الصور الطبية لأغراض التشخيص وتخطيط العلاج وأغراض البحث. يتطلب تحليل الصور الطبية ملفات صور كبيرة ومساحة تخزين مرنة وحوسبة سريعة في كثير من الأحيان.
توجد بيانات التسلسل الجيني للجيل القادم في أرشيف قراءة التسلسل NCBI (SRA). يمكنك الوصول إلى هذه البيانات باستخدام مجموعة أدوات SRA. سنرشدك خلال هذا باستخدام هذا المفكرة، بما في ذلك كيفية استخدام BigQuery لإنشاء قائمة المدخلات الخاصة بك. يمكنك أيضًا استخدام BigQuery لإنشاء قائمة بالمدخلات للتنزيل باستخدام دليل الإعداد ودليل الاستعلام هذا. يمكن العثور على أمثلة إضافية لدفاتر الملاحظات في مستودع NCBI هذا. على وجه الخصوص، نوصي بهذا الدفتر (https://github.com/ncbi/ASHG-Workshop-2021/blob/main/1_Basic_BigQuery_Examples.ipynb)، الذي يتناول مزيدًا من التفاصيل حول استخدام BigQuery للوصول إلى نتائج التحليل التصنيفي SRA الأداة، والتي غالبًا ما تختلف عن اسم الأنواع الذي يُدخله المستخدم بسبب التلوث أو الخطأ أو بسبب كون العينات ميتاجينومية بطبيعتها. علاوة على ذلك، يقوم هذا الكمبيوتر الدفتري بالتعمق في تحليل نتائج BigQuery وقد يوفر لك بعض الأفكار الجيدة حول كيفية البحث عن عينات من SRA. توجد تحليلات البيانات الوصفية والتصنيف SRA في جداول BigQuery منفصلة، ويمكنك معرفة كيفية الانضمام إلى هذين الجدولين باستخدام SQL من Powerpoint هذا أو من برنامجنا التعليمي هنا. أخيرًا، أصدرت NCBI ورشة العمل هذه التي تتناول مجموعة واسعة من تطبيقات BigQuery مع مجموعات بيانات NCBI.
استدعاء المتغير الجينومي هو عملية تحديد وتوصيف الاختلافات الجينية من بيانات تسلسل الحمض النووي لفهم الاختلافات في التركيب الجيني للفرد.
إن إخراج سير عمل استدعاء المتغير الجينومي هو ملف بتنسيق استدعاء المتغير (VCF). غالبًا ما تكون هذه ملفات بيانات كبيرة ومنظمة يمكن البحث فيها باستخدام أدوات استعلام قاعدة البيانات مثل Big Query.
دراسات الارتباط على مستوى الجينوم (GWAS) هي تحقيقات واسعة النطاق تحلل جينومات العديد من الأفراد لتحديد المتغيرات الجينية الشائعة المرتبطة بالسمات أو الأمراض أو الأنماط الظاهرية الأخرى.
علم البروتينات هو دراسة المجموعة الكاملة من البروتينات في الخلية أو الأنسجة أو الكائن الحي، بهدف فهم بنيتها ووظيفتها وتفاعلاتها للكشف عن رؤى حول العمليات البيولوجية والأمراض. على الرغم من أن معظم التحليلات البروتينية الأولية تحدث في منصات البرمجيات الاحتكارية، إلا أن الكثير من التحليلات الثانوية تحدث في دفاتر الملاحظات Jupyter أو R، ونقدم عدة أمثلة هنا:
Custom container
، ثم قم بلصق Docker container image
فيما يلي: west1-docker.pkg.dev/cloud-devrel-public-resources/alphafold/alphafold-on-gcp:latest
.يعد تحليل RNA-seq طريقة تسلسل عالية الإنتاجية تسمح بقياس وتوصيف مستويات التعبير الجيني وديناميكيات النسخ. عادةً ما يتم تشغيل عمليات سير العمل باستخدام مديري سير العمل، وغالبًا ما يمكن تصور النتائج النهائية في دفاتر الملاحظات.
تجميع النسخ هو عملية إعادة بناء المجموعة الكاملة من نسخ الحمض النووي الريبي (RNA) في الخلية أو الأنسجة من بيانات التسلسل المجزأة، مما يوفر رؤى قيمة في التعبير الجيني والتحليل الوظيفي.
تسلسل الحمض النووي الريبي أحادي الخلية (scRNA-seq) هو تقنية تتيح تحليل التعبير الجيني على مستوى الخلية الفردية، مما يوفر نظرة ثاقبة حول عدم التجانس الخلوي، وتحديد أنواع الخلايا النادرة، والكشف عن الديناميكيات الخلوية والحالات الوظيفية داخل الأنظمة البيولوجية المعقدة.
ATAC-seq هي تقنية تسمح للعلماء بفهم كيفية تعبئة الحمض النووي في الخلايا من خلال تحديد مناطق الحمض النووي التي يمكن الوصول إليها والتي من المحتمل أن تشارك في تنظيم الجينات. - ترشدك هذه الوحدة إلى كيفية العمل من خلال سير عمل ATACseq وATACseq أحادي الخلية على Google Cloud. تم تطوير الوحدة بواسطة المركز الطبي بجامعة نبراسكا لمشروع NIGMS Sandbox.
باعتبارها واحدة من التعديلات اللاجينية الأكثر وفرة والمدروسة جيدًا، تلعب مثيلة الحمض النووي دورًا أساسيًا في تطور الخلايا الطبيعية ولها تأثيرات مختلفة على النسخ واستقرار الجينوم وتغليف الحمض النووي داخل الخلايا. Methylseq هي تقنية لتحديد المناطق الميثيلية في الجينوم.
الميتاجينوميات هي دراسة المواد الجينية التي يتم جمعها مباشرة من العينات البيئية، مما يتيح استكشاف المجتمعات الميكروبية وتنوعها وإمكاناتها الوظيفية، دون الحاجة إلى الاستزراع المختبري. -ترشدك هذه الوحدة خلال إجراء تحليل الميتاجينوم باستخدام سطر الأوامر وNextflow. تم تطوير الوحدة من قبل جامعة داكوتا الجنوبية كجزء من مشروع NIGMS Sandbox.
يتضمن التحليل متعدد الأطوار دمج البيانات عبر الطرائق (مثل الجينوم، والنسخ، والنمط الظاهري) لتوليد رؤى إضافية.
اكتشاف العلامات الحيوية هو عملية تحديد جزيئات أو خصائص معينة يمكن أن تكون بمثابة مؤشرات للعمليات البيولوجية أو الأمراض أو الاستجابات العلاجية، مما يساعد في التشخيص والتشخيص والطب الشخصي. يتم إجراء اكتشاف العلامات الحيوية عادة من خلال تحليل شامل لأنواع مختلفة من البيانات، مثل علم الجينوم، وعلم البروتينات، وعلم التمثيل الغذائي، والبيانات السريرية، باستخدام تقنيات متقدمة بما في ذلك الفحص عالي الإنتاجية، والمعلوماتية الحيوية، والتحليل الإحصائي لتحديد الأنماط أو التوقيعات التي تفرق بين الصحة والمرض. الأفراد المرضى، أو المستجيبين وغير المستجيبين لعلاجات محددة.
NCBI BLAST (أداة البحث عن المحاذاة المحلية الأساسية) هو برنامج معلوماتية حيوية يستخدم على نطاق واسع ويقدمه المركز الوطني لمعلومات التكنولوجيا الحيوية (NCBI) الذي يقارن تسلسلات النيوكليوتيدات أو البروتين مع قاعدة بيانات كبيرة لتحديد تسلسلات مماثلة واستنتاج العلاقات التطورية والشروح الوظيفية والهيكلية. معلومة.
يتضمن تحليل تسلسل الحمض النووي للقراءة الطويلة تحليل قراءات التسلسل التي يزيد طولها عادة عن 10 آلاف زوج أساسي، مقارنة بتسلسل القراءة القصيرة حيث يبلغ طول القراءات حوالي 150 زوجًا أساسيًا. لدى Oxford Nanopore عرضًا كاملاً جدًا من البرامج التعليمية للكمبيوتر الدفتري للتعامل مع البيانات المقروءة لفترة طويلة للقيام بمجموعة متنوعة من الأشياء بما في ذلك الاتصال المتغير وتحليل RNAseq وSars-Cov-2 وغير ذلك الكثير. يمكنك العثور على قائمة ووصف لدفاتر الملاحظات هنا، أو استنساخ GitHub repo. لاحظ أن هذه الدفاتر تتوقع أنك تعمل محليًا وتصل إلى خادم epi2me الدفتري. لتشغيلها في Cloud Lab، تخطى الخلية الأولى التي تتصل بالخادم ومن ثم يجب أن يعمل باقي دفتر الملاحظات بشكل صحيح، مع بعض التعديلات.
أنشأ اتحاد تسريع العلاجات للفرص في الطب (ATOM) سلسلة من دفاتر ملاحظات Jupyter التي ترشدك عبر نهج ATOM لاكتشاف الأدوية.
تم إنشاء دفاتر الملاحظات هذه للتشغيل في Google Colab، لذا إذا قمت بتشغيلها في Google Cloud، فستحتاج إلى إجراء بعض التعديلات. أولاً، نوصيك باستخدام دفتر ملاحظات مُدار بواسطة Google بدلاً من دفتر ملاحظات مُدار بواسطة المستخدم وذلك ببساطة لأن دفاتر الملاحظات المُدارة من Google مثبتة بالفعل على Tensorflow وتبعيات أخرى. تأكد من إرفاق وحدة معالجة الرسومات (GPU) بمثيلك (T4 جيد). ستحتاج أيضًا إلى التعليق على %tensorflow_version 2.x
نظرًا لأن هذا أمر خاص بـ Colab. ستحتاج أيضًا إلى pip install
بعض الحزم حسب الحاجة. إذا حصلت على أخطاء في deepchem
، فحاول تشغيل pip install --pre deepchem[tensorflow]
و/أو pip install --pre deepchem[torch]
. أيضًا، ستتطلب بعض أجهزة الكمبيوتر المحمولة نواة Tensorflow، بينما يتطلب البعض الآخر Pytorch. قد تواجه أيضًا خطأ Pandas، تواصل مع مطوري ATOM GitHub للحصول على أفضل حل لهذه المشكلة.
يمكنك التفاعل مع Google Batch مباشرةً لإرسال الأوامر، أو بشكل أكثر شيوعًا يمكنك التفاعل معه من خلال محركات التنسيق مثل Nextflow وCromwell، وما إلى ذلك. لدينا برامج تعليمية تستخدم Google Batch باستخدام Nextflow حيث نقوم بتشغيل خط أنابيب Methylseq nf-core أيضًا. مثل العديد من NIGMS Sandbox بما في ذلك تجميع النسخ، وmultiomics، وmethylseq، وmetagenomics.
تم إيقاف Life Science API على Google Cloud Platform ولن تكون متاحة بحلول 8 تموز (يوليو) 2025 على النظام الأساسي، ونوصي باستخدام Google Batch بدلاً من ذلك. في الوقت الحالي، لا يزال بإمكانك التفاعل مع Life Sciences API مباشرة لإرسال الأوامر، أو بشكل أكثر شيوعًا يمكنك التفاعل معها من خلال محركات التنسيق مثل Snakemake، وحتى الآن يدعم مدير سير العمل هذا فقط Life Sciences API.
لدى Google الكثير من مجموعات البيانات العامة المتاحة التي يمكنك استخدامها للاختبار. يمكن عرضها هنا ويمكن الوصول إليها عبر BigQuery أو مباشرة من مجموعة السحابة. على سبيل المثال، لعرض جينومات المرحلة 3 1k في سطر الأوامر، اكتب gsutil ls gs://genomics-public-data/1000-genomes-phase-3
.