Существует множество способов запуска рабочих процессов на AWS. Здесь мы перечисляем несколько возможностей, каждая из которых может работать для разных исследовательских целей. Просматривая различные руководства, приведенные ниже, подумайте о том, как можно более эффективно запустить этот рабочий процесс, используя один из других методов, перечисленных здесь. Если вы не знакомы с какими-либо терминами или понятиями, представленными здесь, просмотрите страницу AWS Jumpstart.
screen
или в виде сценария запуска, прикрепленного в виде метаданных. Дополнительную информацию о том, как запустить конвейер с использованием EC2, см. в руководстве по GWAS ниже.Для многих из этих учебных пособий вам потребуются краткосрочные ключи доступа для создания и использования ресурсов, особенно если в учебном пособии требуются «идентификатор ключа доступа» и «секретный ключ». Используйте это руководство для объяснения того, как получить и использовать ключи краткосрочного доступа. Если вы являетесь исследователем, связанным с НИЗ, то есть вы не работаете в НИЗ, но имеете учетную запись Cloud Lab, у вас не будет доступа к ключам. Если у вас есть учебное пособие, которое вы не можете пройти, обратитесь к нам за помощью по адресу [email protected].
Также обратите внимание, что машины с графическим процессором стоят дороже, чем большинство машин с ЦП, поэтому обязательно выключайте эти машины после использования или примените конфигурацию жизненного цикла EC2. Вы также можете столкнуться с квотами на обслуживание, которые защитят вас от случайного использования дорогостоящих типов машин. Если это произойдет, и вы все равно хотите использовать экземпляр определенного типа, следуйте этим инструкциям.
Машинное обучение — это подобласть искусственного интеллекта, которая фокусируется на разработке алгоритмов и моделей, которые позволяют компьютерам учиться и делать прогнозы или решения на основе данных без явного программирования. Алгоритмы искусственного интеллекта и машинного обучения применяются для решения различных вопросов биомедицинских исследований, начиная от классификации изображений и заканчивая вызовом геномных вариантов. AWS имеет длинный список доступных руководств по AI/ML, и мы составили его здесь. Самые последние разработки сосредоточены на генеративном искусственном интеллекте, включая такие варианты использования, как извлечение информации из текста, преобразование речи в текст и создание изображений из текста. Sagemaker Studio позволяет пользователю быстро создавать, тестировать и обучать генеративные модели искусственного интеллекта, а также предлагает готовые к использованию модели, содержащиеся в JumpStart. Эти модели варьируются от базовых моделей до моделей с точной настройкой и решений для конкретных задач.
Клиническая информатика, также известная как информатика здравоохранения или медицинская информатика, представляет собой междисциплинарную область, которая применяет науку о данных к данным здравоохранения для улучшения ухода за пациентами, улучшения клинических процессов и облегчения медицинских исследований. Это часто предполагает интеграцию различных типов данных, включая электронные медицинские записи, демографические данные или данные об окружающей среде. AWS предлагает два семинара по запросу, на которых вы познакомитесь с AWS HealthLake для анализа данных о здоровье населения. На этом первом семинаре показано, как импортировать данные в HealthLake, запрашивать эти данные с помощью Athena, визуализировать эти данные с помощью QuickSight, затем объединять данные FHIR с данными об окружающей среде и визуализировать объединенный набор данных. Второй семинар также вводит данные в HealthLake, затем визуализирует данные о медицинских устройствах, использует искусственный интеллект для обобщения клинических записей, а затем расшифровывает клинические аудиофайлы и обобщает их.
Данные генетических последовательностей следующего поколения хранятся в архиве чтения последовательностей NCBI (SRA). Вы можете получить доступ к этим данным с помощью SRA Toolkit. Мы объясним вам это с помощью этой записной книжки, в которой также описано, как настраивать и выполнять поиск в таблицах Athena для создания списка доступа. Вы также можете прочитать это руководство для получения дополнительной информации о доступных таблицах наборов данных. Дополнительные примеры блокнотов можно найти в репозитории NCBI. В частности, мы рекомендуем этот блокнот (https://github.com/ncbi/ASHG-Workshop-2021/blob/main/3_Biology_Example_AWS_Demo.ipynb), в котором более подробно описано использование Athena для доступа к результатам таксономического анализа SRA. Инструмент, который часто отличается от названия вида, введенного пользователем, из-за загрязнения, ошибки или из-за того, что образцы имеют метагеномный характер.
Полногеномные исследования ассоциаций (GWAS) — это крупномасштабные исследования, в которых анализируются геномы многих людей для выявления общих генетических вариантов, связанных с признаками, заболеваниями или другими фенотипами.
Анализ медицинских изображений требует анализа больших файлов изображений и часто требует гибкого хранилища и ускоренных вычислений.
Анализ РНК-секвенирования — это высокопроизводительный метод секвенирования, который позволяет измерять и характеризовать уровни экспрессии генов и динамику транскриптома. Рабочие процессы обычно запускаются с помощью менеджеров рабочих процессов, а конечные результаты часто можно визуализировать в блокнотах.
Секвенирование одноклеточной РНК (scRNA-seq) — это метод, который позволяет анализировать экспрессию генов на уровне отдельных клеток, дает представление о клеточной гетерогенности, идентифицирует редкие типы клеток и выявляет клеточную динамику и функциональные состояния в сложных биологических системах.
NCBI BLAST (Basic Local Alignment Search Tool) — это широко используемая программа биоинформатики, предоставляемая Национальным центром биотехнологической информации (NCBI), которая сравнивает нуклеотидные или белковые последовательности с большой базой данных для идентификации сходных последовательностей и вывода об эволюционных отношениях, функциональных аннотациях и структурных данных. информация. Команда NCBI написала версию BLAST для облака под названием ElasticBLAST, и вы можете прочитать все о ней здесь. По сути, ElasticBLAST помогает отправлять задания BLAST в AWS Batch и записывать результаты обратно в S3. Не стесняйтесь поэкспериментировать с примером руководства в Cloud Shell или попробуйте нашу версию для ноутбука.
Вы можете запустить несколько алгоритмов сворачивания белков, включая Alpha Fold, на AWS. Поскольку базы данных очень велики, настройка обычно довольно сложна, но AWS создала стек StackFormation, который автоматизирует развертывание всех ресурсов, необходимых для запуска Alpha Fold и других алгоритмов сворачивания белков. Вы можете прочитать о ресурсах AWS здесь и просмотреть страницу GitHub здесь. Чтобы это заработало, вам необходимо изменить группы безопасности, следуя этим инструкциям. Вам также, вероятно, придется предоставить дополнительные разрешения роли, которую использует CloudFormation. Если вы застряли, обратитесь по адресу [email protected]. Вы также можете запустить ESMFold, используя это руководство.
Анализ последовательностей ДНК с длинным считыванием включает анализ считываний секвенирования, длина которых обычно превышает 10 тысяч пар оснований (п.н.), по сравнению с секвенированием с коротким считыванием, где длина считываний составляет около 150 пар оснований. Oxford Nanopore предлагает довольно полное предложение учебных пособий по блокнотам для обработки данных длительного чтения для выполнения различных задач, включая вызов вариантов, RNAseq, анализ Sars-Cov-2 и многое другое. Доступ к блокнотам здесь. Эти ноутбуки предполагают, что вы работаете локально и получаете доступ к серверу ноутбуков epi2me. Чтобы запустить их в Cloud Lab, пропустите первую ячейку, которая подключается к серверу, и тогда остальная часть ноутбука должна работать правильно с некоторыми изменениями. Если вы просто хотите опробовать блокноты, не начинайте с них. Если вас интересует анализ последовательностей длинного чтения, возможно, потребуется устранить неполадки, чтобы адаптировать его к среде Cloud Lab. Возможно, вам даже придется переписать их в новой тетради, адаптировав команды. Не стесняйтесь обращаться за помощью в нашу службу поддержки.
Консорциум по ускорению терапии для возможностей в медицине (ATOM) создал серию блокнотов Jupyter, которые знакомят вас с подходом ATOM к открытию лекарств.
Эти блокноты были созданы для работы в Google Colab, поэтому, если вы запустите их в AWS, вам придется внести некоторые изменения. Во-первых, мы рекомендуем вам использовать блокнот Sagemaker Studio, а не блокнот, управляемый пользователем, просто потому, что в нем будет установлен Tensorflow и другие зависимости. Обязательно подключите графический процессор к своему экземпляру (подойдет T4). Кроме того, вам нужно будет закомментировать %tensorflow_version 2.x
поскольку это команда, специфичная для Colab. Вам также потребуется pip install
несколько пакетов по мере необходимости. Если вы получаете ошибки с deepchem
, попробуйте запустить pip install --pre deepchem[tensorflow]
и/или pip install --pre deepchem[torch]
. Кроме того, для некоторых ноутбуков потребуется ядро Tensorflow, а для других — Pytorch. Вы также можете столкнуться с ошибкой Pandas, обратиться к разработчикам ATOM GitHub за лучшим решением или просмотреть их проблемы.
Криоэлектронная микроскопия (криоЭМ) — это мощный метод визуализации, используемый в структурной биологии для визуализации структур биологических макромолекул, таких как белки, нуклеиновые кислоты и большие молекулярные комплексы, с почти атомным или даже атомным разрешением. Он произвел революцию в области структурной биологии, предоставив подробные трехмерные структуры биомолекул, что имеет решающее значение для понимания их функций.
AWS располагает множеством общедоступных данных, которые вы можете интегрировать в тестирование или использовать в собственных исследованиях. Вы можете получить доступ к этим наборам данных в Реестре открытых данных на AWS. Там вы можете щелкнуть любой набор данных, чтобы просмотреть путь S3 к данным, а также публикации, в которых использовались эти данные, и учебные пособия, если они доступны. Для демонстрации мы можем щелкнуть набор данных gnomad, затем получить путь S3 и просмотреть файлы в командной строке, вставив https://registry.opendata.aws/broad-gnomad/
.