Существует множество способов запуска рабочих процессов в GCP. Здесь мы перечисляем несколько возможностей, каждая из которых может работать для разных исследовательских целей. Проходя различные руководства ниже, подумайте о том, как можно более эффективно запустить этот рабочий процесс, используя один из других методов, перечисленных здесь.
screen
или в виде сценария запуска, прикрепленного в виде метаданных.managed notebooks
и user managed notebooks
. managed notebooks
имеют больше функций и могут быть запланированы, но дают вам меньше контроля над средами/установками conda.Машинное обучение — это подобласть искусственного интеллекта, которая фокусируется на разработке алгоритмов и моделей, которые позволяют компьютерам учиться и делать прогнозы или решения на основе данных без явного программирования. Машинное обучение в GCP обычно происходит в VertexAI. Вы можете узнать больше о машинном обучении в GCP на этом ускоренном курсе Google. Для практических примеров попробуйте этот модуль, разработанный Государственным университетом Сан-Франциско, или модуль Университета Аркасаса, разработанный для проекта NIGMS Sandbox.
Теперь, когда наступила эра генеративного искусственного интеллекта (Gen AI), Google выпустила множество предложений Gen AI в рамках пакета Vertex AI. Некоторые примеры того, на что способны генеративные модели ИИ, — это извлечение необходимой информации из текста, преобразование речи в текст, генерация изображений из описаний и наоборот и многое другое. Консоль Vertex AI Studio от Vertex AI позволяет пользователю быстро создавать, тестировать и обучать генеративные модели ИИ в облаке в безопасной и надежной обстановке, см. наш обзор в этом руководстве. У студии также есть готовые к использованию модели, все они находятся в Модельном саду. Эти модели варьируются от базовых моделей до моделей с точной настройкой и решений для конкретных задач.
Анализ медицинских изображений — это применение вычислительных алгоритмов и методов для извлечения значимой информации из медицинских изображений для диагностики, планирования лечения и исследовательских целей. Для анализа медицинских изображений требуются большие файлы изображений, часто гибкое хранилище и ускоренные вычисления.
Данные генетических последовательностей следующего поколения хранятся в архиве чтения последовательностей NCBI (SRA). Вы можете получить доступ к этим данным с помощью SRA Toolkit. Мы расскажем вам об этом с помощью этого блокнота, в том числе о том, как использовать BigQuery для создания списка объектов. Вы также можете использовать BigQuery для создания списка материалов для загрузки, используя это руководство по настройке и это руководство по запросам. Дополнительные примеры блокнотов можно найти в репозитории NCBI. В частности, мы рекомендуем этот блокнот (https://github.com/ncbi/ASHG-Workshop-2021/blob/main/1_Basic_BigQuery_Examples.ipynb), в котором более подробно описано использование BigQuery для доступа к результатам таксономического анализа SRA. Инструмент, который часто отличается от названия вида, введенного пользователем, из-за загрязнения, ошибки или из-за того, что образцы имеют метагеномный характер. Кроме того, в этом блокноте подробно рассматривается анализ результатов BigQuery и может дать вам несколько хороших идей о том, как искать образцы из SRA. Метаданные и таксономический анализ SRA находятся в отдельных таблицах BigQuery. Вы можете узнать, как объединить эти две таблицы с помощью SQL, из этого Powerpoint или из нашего руководства здесь. Наконец, NCBI выпустила этот семинар, в котором рассматривается широкий спектр приложений BigQuery с наборами данных NCBI.
Вызов геномных вариантов — это процесс идентификации и характеристики генетических вариаций на основе данных секвенирования ДНК для понимания различий в генетическом составе человека.
Результатом рабочих процессов вызова геномных вариантов является файл в формате вызова вариантов (VCF). Зачастую это большие структурированные файлы данных, поиск в которых можно осуществлять с помощью инструментов запросов к базе данных, таких как Big Query.
Полногеномные исследования ассоциаций (GWAS) — это крупномасштабные исследования, в которых анализируются геномы многих людей для выявления общих генетических вариантов, связанных с признаками, заболеваниями или другими фенотипами.
Протеомика — это изучение всего набора белков в клетке, ткани или организме с целью понять их структуру, функции и взаимодействия, чтобы раскрыть суть биологических процессов и заболеваний. Хотя большинство первичных протеомных анализов выполняется на проприетарных программных платформах, большая часть вторичного анализа выполняется в ноутбуках Jupyter или R. Здесь мы приведем несколько примеров:
Custom container
, а затем в поле Docker container image
вставьте следующее: west1-docker.pkg.dev/cloud-devrel-public-resources/alphafold/alphafold-on-gcp:latest
.Анализ РНК-секвенирования — это высокопроизводительный метод секвенирования, который позволяет измерять и характеризовать уровни экспрессии генов и динамику транскриптома. Рабочие процессы обычно запускаются с помощью менеджеров рабочих процессов, а конечные результаты часто можно визуализировать в блокнотах.
Сборка транскриптома — это процесс реконструкции полного набора транскриптов РНК в клетке или ткани на основе фрагментированных данных секвенирования, дающий ценную информацию об экспрессии генов и функциональном анализе.
Секвенирование одноклеточной РНК (scRNA-seq) — это метод, который позволяет анализировать экспрессию генов на уровне отдельных клеток, дает представление о клеточной гетерогенности, идентифицирует редкие типы клеток и выявляет клеточную динамику и функциональные состояния в сложных биологических системах.
ATAC-seq — это метод, который позволяет ученым понять, как ДНК упаковывается в клетках, путем определения областей ДНК, которые доступны и потенциально участвуют в регуляции генов. - В этом модуле рассказывается, как работать с рабочим процессом ATACseq и одноячеечным ATACseq в Google Cloud. Модуль был разработан Медицинским центром Университета Небраски для проекта NIGMS Sandbox.
Метилирование ДНК, являющееся одной из наиболее распространенных и хорошо изученных эпигенетических модификаций, играет важную роль в нормальном развитии клеток и оказывает различные эффекты на транскрипцию, стабильность генома и упаковку ДНК внутри клеток. Метилсек — это метод идентификации метилированных участков генома.
Метагеномика — это исследование генетического материала, собранного непосредственно из образцов окружающей среды, позволяющее исследовать микробные сообщества, их разнообразие и функциональный потенциал без необходимости лабораторного культивирования. -Этот модуль поможет вам провести метагеномный анализ с использованием командной строки и Nextflow. Модуль был разработан Университетом Южной Дакоты в рамках проекта NIGMS Sandbox.
Мультиомный анализ включает интеграцию данных разных модальностей (например, геномных, транскриптомных, фенотипических) для получения дополнительной информации.
Открытие биомаркеров — это процесс идентификации конкретных молекул или характеристик, которые могут служить индикаторами биологических процессов, заболеваний или реакций на лечение, помогая в диагностике, прогнозировании и персонализированной медицине. Открытие биомаркеров обычно проводится посредством всестороннего анализа различных типов данных, таких как геномика, протеомика, метаболомика и клинические данные, с использованием передовых методов, включая высокопроизводительный скрининг, биоинформатику и статистический анализ для выявления закономерностей или признаков, которые различают здоровых и здоровых людей. больные люди, или те, кто отвечает и не отвечает на конкретное лечение.
NCBI BLAST (Basic Local Alignment Search Tool) — это широко используемая программа биоинформатики, предоставляемая Национальным центром биотехнологической информации (NCBI), которая сравнивает нуклеотидные или белковые последовательности с большой базой данных для выявления сходных последовательностей и вывода об эволюционных отношениях, функциональных аннотациях и структурных данных. информация.
Анализ последовательностей ДНК с длинным считыванием включает анализ считываний секвенирования, длина которых обычно превышает 10 тысяч пар оснований (п.н.), по сравнению с секвенированием с коротким считыванием, где длина считываний составляет около 150 пар оснований. Oxford Nanopore предлагает довольно полное предложение учебных пособий по блокнотам для обработки данных длительного чтения для выполнения различных задач, включая вызов вариантов, RNAseq, анализ Sars-Cov-2 и многое другое. Вы можете найти список и описание блокнотов здесь или клонировать репозиторий GitHub. Обратите внимание: эти блокноты предполагают, что вы работаете локально и получаете доступ к серверу блокнотов epi2me. Чтобы запустить их в Cloud Lab, пропустите первую ячейку, которая подключается к серверу, и тогда остальная часть ноутбука должна работать правильно с некоторыми изменениями.
Консорциум по ускорению терапии для возможностей в медицине (ATOM) создал серию блокнотов Jupyter, которые знакомят вас с подходом ATOM к открытию лекарств.
Эти блокноты были созданы для работы в Google Colab, поэтому, если вы запустите их в Google Cloud, вам придется внести некоторые изменения. Во-первых, мы рекомендуем вам использовать блокнот, управляемый Google, а не блокнот, управляемый пользователем, просто потому, что в блокнотах, управляемых Google, уже установлен Tensorflow и другие зависимости. Обязательно подключите графический процессор к своему экземпляру (подойдет T4). Кроме того, вам нужно будет закомментировать %tensorflow_version 2.x
поскольку это команда, специфичная для Colab. Вам также потребуется pip install
несколько пакетов по мере необходимости. Если вы получаете ошибки с deepchem
, попробуйте запустить pip install --pre deepchem[tensorflow]
и/или pip install --pre deepchem[torch]
. Кроме того, для некоторых ноутбуков потребуется ядро Tensorflow, а для других — Pytorch. Вы также можете столкнуться с ошибкой Pandas. Обратитесь к разработчикам ATOM GitHub за лучшим решением этой проблемы.
Вы можете взаимодействовать с Google Batch напрямую для отправки команд или, чаще, вы можете взаимодействовать с ним через механизмы оркестрации, такие как Nextflow и Cromwell и т. д. У нас есть учебные пособия, в которых используется Google Batch с использованием Nextflow, где мы также запускаем конвейер nf-core Mmethylseq. как несколько из песочницы NIGMS, включая сборку транскриптома, мультиомику, метилсек и метагеномику.
API Life Science устарел в GCP и больше не будет доступен на платформе 8 июля 2025 г. Вместо этого мы рекомендуем использовать Google Batch. На данный момент вы по-прежнему можете взаимодействовать с API Life Sciences напрямую для отправки команд или, что чаще, вы можете взаимодействовать с ним через механизмы оркестровки, такие как Snakemake, на данный момент этот менеджер рабочих процессов поддерживает только API Life Sciences.
У Google есть множество общедоступных наборов данных, которые вы можете использовать для тестирования. Их можно просмотреть здесь, а доступ к ним можно получить через BigQuery или непосредственно из облачного сегмента. Например, чтобы просмотреть 1 тыс. геномов фазы 3, введите в командной строке gsutil ls gs://genomics-public-data/1000-genomes-phase-3
.