ColabFold на вашем локальном ПК (или macOS). См. также репозиторий ColabFold.
LocalColabFold — это сценарий установки, предназначенный для обеспечения доступности функций ColabFold на локальных компьютерах пользователей. Он поддерживает широкий спектр операционных систем, таких как Windows 10 или новее (с использованием подсистемы Windows для Linux 2), macOS и Linux.
Если вы намереваетесь предсказать только небольшое количество встречающихся в природе белков, я рекомендую использовать блокнот ColabFold или загрузить структуры из базы данных структур белков AlphaFold или UniProt. LocalColabFold подходит для более сложных приложений, таких как пакетная обработка прогнозов структуры природных комплексов, неприродных белков или прогнозов с помощью заданных вручную MSA/шаблонов.
Вывод структуры и релаксация будут ускорены, если на вашем компьютере установлены драйверы графического процессора Nvidia и CUDA.
Без тайм-аута (90 минут и 12 часов)
Нет ограничений графического процессора
НЕ требуется готовить большую базу данных, необходимую для встроенного AlphaFold2 .
Поскольку текущая версия jax > 0.4.26 с поддержкой графического процессора требует CUDA 12.1 или новее и cudnn 9, обновите или установите драйвер CUDA и cudnn. Рекомендуется CUDA 12.4.
ColabFold теперь обновлен до версии 1.5.5 (совместим с AlphaFold 2.3.2). Теперь LocalColabFold требует CUDA 12.1 или новее . Пожалуйста, обновите драйвер CUDA, если вы этого не сделали.
Теперь (Local)ColabFold может предсказывать структуры белков без подключения к Интернету. Используйте сценарий setup_databases.sh
для загрузки и создания баз данных (см. также Загрузки ColabFold). В этом комментарии написана инструкция по запуску colabfold_search
для локального получения MSA и шаблонов.
30 января 2024 г., ColabFold 1.5.5 (совместим с AlphaFold 2.3.2). Теперь LocalColabFold требует CUDA 12.1 или новее . Пожалуйста, обновите драйвер CUDA.
30 апреля 2023 г. Обновлено использование Python 3.10 для совместимости с Google Colaboratory.
09.03.2023 вышла версия 1.5.1. Базовый каталог был изменен на localcolabfold
с colabfold_batch
чтобы отличить его от команды выполнения.
09.03.2023 вышла версия 1.5.0. См. выпуск v1.5.0.
05 февраля 2023 г. выпущена предварительная версия 1.5.0.
16 июня 2022 г. вышла версия 1.4.0. См. выпуск v1.4.0.
07 мая 2022 г., обновлен update_linux.sh
. См. также Как обновить. Используйте новую опцию --use-gpu-relax
если требуется расслабление графического процессора (рекомендуется).
12 апреля 2022 г. вышла версия 1.3.0. См. выпуск v1.3.0.
09 декабря 2021 г. выпущена бета-версия 1.2.0. добавлены простые в использовании сценарии обновления. См. раздел «Как обновить».
04 декабря 2021 г. LocalColabFold теперь совместим с последней версией ColabFold, устанавливаемой с помощью pip. В этом репозитории я предоставлю сценарий для установки ColabFold с некоторыми внешними файлами параметров для выполнения релаксации с помощью AMBER. Весовые параметры AlphaFold и AlphaFold-Multimer будут загружены автоматически при первом запуске.
Убедитесь, что команды curl
, git
и wget
уже установлены на вашем компьютере. Если их нет, вам необходимо сначала установить их. Для Ubuntu введите sudo apt -y install curl git wget
.
Убедитесь, что ваш драйвер компилятора Cuda имеет версию 11.8 или новее (предпочтительна последняя версия 12.4). Если у вас нет графического процессора или вы не планируете его использовать, вы можете пропустить этот шаг:
$ nvcc --версия nvcc: драйвер компилятора NVIDIA (R) Cuda. Авторские права (c) 2005–2022 г., корпорация NVIDIA Построено в среду_сентября_21_10:33:58_PDT_2022. Инструменты компиляции Cuda, выпуск 11.8, V11.8.89 Сборка cuda_11.8.r11.8/compiler.31833905_0
НЕ используйте nvidia-smi
для проверки версии.
См. Руководство по установке NVIDIA CUDA для Linux, если вы его еще не установили.
Убедитесь, что ваша версия компилятора GNU 9.0 или новее , поскольку для openmm требуется GLIBCXX_3.4.26
:
$ gcc --версия gcc (Ubuntu 9.3.0-17ubuntu1~20.04) 9.3.0 Авторские права (C) 2019 Free Software Foundation, Inc. Это бесплатное программное обеспечение; условия копирования см. в источнике. НЕТ гарантия; даже не для ТОВАРНОЙ ПРИГОДНОСТИ или ПРИГОДНОСТИ ДЛЯ ОПРЕДЕЛЕННОЙ ЦЕЛИ.
Если версия 8.5.0 или старше (например, CentOS 7, Rocky/Almalinux 8 и т. д.), установите новую и добавьте к ней PATH
.
Загрузите install_colabbatch_linux.sh
из этого репозитория:
$ wget https://raw.githubusercontent.com/YoshitakaMo/localcolabfold/main/install_colabbatch_linux.sh
и запустите его в каталоге, куда вы хотите установить:
$ bash install_colabbatch_linux.sh
Примерно через 5 минут будет создан каталог localcolabfold
. Не перемещайте этот каталог после установки.
Держите сеть разблокированной. И проверьте вывод журнала , чтобы увидеть, есть ли какие-либо ошибки.
Если вы обнаружите ошибки в выходном журнале, самый простой способ — проверить сеть и удалить каталог localcolabfold, а затем повторно запустить сценарий установки.
Добавьте переменную среды PATH:
# Для bash или zsh # например, экспорт PATH="/home/moriwaki/Desktop/localcolabfold/colabfold-conda/bin:$PATH" экспортировать PATH="/path/to/your/localcolabfold/colabfold-conda/bin:$PATH"
Рекомендуется добавить эту команду экспорта в ~/.bashrc
и перезапустить bash ( ~/.bashrc
будет выполняться каждый раз при запуске bash).
Чтобы запустить прогноз, введите
colabfold_batch входной выходной каталог/
Файлы результатов будут созданы в outputdir
. Эта команда выполнит прогноз без шаблонов и релаксации (минимизации энергии). Если вы хотите использовать шаблоны и релаксацию, добавьте флаги --templates
и --amber
соответственно. Например,
colabfold_batch --templates --amber input outputdir/
colabfold_batch
автоматически определит, является ли прогноз мономерным или комплексным. В большинстве случаев пользователям не нужно добавлять --model-type alphafold2_multimer_v3
чтобы включить мультимерное прогнозирование. alphafold2_multimer_v1, alphafold2_multimer_v2
также доступны. По умолчанию установлено auto
(используйте alphafold2_ptm
для мономеров и alphafold2_multimer_v3
для комплексов).
Дополнительные сведения см. в разделах Флаги и colabfold_batch --help
.
Внимание: если установка завершается неудачно из-за проблем с созданием символической ссылки ( symlink
), это связано с тем, что файловая система Windows нечувствительна к регистру (в то время как файловая система Linux чувствительна к регистру). Чтобы решить эту проблему, выполните следующую команду в Windows Powershell:
fsutil file SetCaseSensitiveInfo pathtolocalcolabfoldinstallation enable
Замените pathtocolabfoldinstallation
на путь к каталогу, в который вы устанавливаете LocalColabFold. Также убедитесь, что вы запускаете команду в Windows Powershell (а не в WSL). Дополнительные сведения см. в разделе Настройка чувствительности к регистру (Microsoft).
Прежде чем запустить прогноз:
export TF_FORCE_UNIFIED_MEMORY="1" export XLA_PYTHON_CLIENT_MEM_FRACTION="4.0" export XLA_PYTHON_CLIENT_ALLOCATOR="platform" export TF_FORCE_GPU_ALLOW_GROWTH="true"
Рекомендуется добавить эти команды экспорта в ~/.bashrc
и перезапустить bash ( ~/.bashrc
будет выполняться каждый раз при запуске bash).
Внимание: из-за отсутствия драйвера Nvidia GPU/CUDA прогнозирование структуры в macOS происходит в 5–10 раз медленнее, чем в Linux+GPU . Для тестовой последовательности (58 а.а.) это может занять 30 минут. Однако может быть полезно поиграться с ним перед подготовкой среды Linux+GPU.
Вы можете проверить, является ли ваш Mac процессором Intel или Apple Silicon, набрав uname -m
в терминале.
$ имя-м x86_64 # Intelarm64 # Apple Silicon
Пожалуйста, используйте правильный установщик для вашего Mac.
Установите Homebrew, если его нет:
$ /bin/bash -c "$(curl -fsSL https://raw.githubusercontent.com/Homebrew/install/HEAD/install.sh)"
Установите wget
, gnu-sed
, HH-suite и kaign с помощью Homebrew:
$ Brew установить wget GNU-SED $ Brew install Brewsci/bio/hh-suite Brewsci/bio/Kalign
Загрузите install_colabbatch_intelmac.sh
из этого репозитория:
$ wget https://raw.githubusercontent.com/YoshitakaMo/localcolabfold/main/install_colabbatch_intelmac.sh
и запустите его в каталоге, куда вы хотите установить:
$ bash install_colabbatch_intelmac.sh
Примерно через 5 минут будет создан каталог colabfold_batch
. Не перемещайте этот каталог после установки.
Остальная процедура такая же, как и «Для Linux».
Примечание. Этот установщик является экспериментальным, поскольку большинство зависимых пакетов не полностью протестированы на Apple Silicon Mac.
Установите Homebrew, если его нет:
$ /bin/bash -c "$(curl -fsSL https://raw.githubusercontent.com/Homebrew/install/HEAD/install.sh)"
Установите несколько команд с помощью Homebrew (теперь доступна kaign 3.3.2!):
$ Brew install wget cmake GNU-SED $ Brew install Brewsci/bio/hh-Suite $ Brew install Brewsci/bio/Kalign
Установите команду miniforge
с помощью Homebrew:
$ Brew Install --cask miniforge
Загрузите install_colabbatch_M1mac.sh
из этого репозитория:
$ wget https://raw.githubusercontent.com/YoshitakaMo/localcolabfold/main/install_colabbatch_M1mac.sh
и запустите его в каталоге, куда хотите установить:
$ bash install_colabbatch_M1mac.sh
Примерно через 5 минут будет создан каталог colabfold_batch
. Не перемещайте этот каталог после установки. Вы можете игнорировать ошибки установки, возникающие в процессе установки .
Остальная процедура такая же, как и «Для Linux».
ColabFold может принимать несколько форматов файлов или каталогов.
positional arguments: input Can be one of the following: Directory with fasta/a3m files, a csv/tsv file, a fasta file or an a3m file results Directory to write the results to
Рекомендуется, чтобы строка заголовка, начинающаяся с >
была короткой, поскольку описание будет префиксом выходного файла. Допускается вставка разрывов строк в аминокислотную последовательность.
>sp|P61823
MALKSLVLLSLLVLVLLLVRVQPSLGKETAAAKFERQHMDSSTSAASSSNYCNQMMKSRN
LTKDRCKPVNTFVHESLADVQAVCSQKNVACKNGQTNCYQSYSTMSITDCRETGSSKYPN
CAYKTTQANKHIIVACEGNPYVPVHFDASV
Для прогнозирования мультимеров вставьте :
между последовательностями белка.
>1BJP_homohexamer PIAQIHILEGRSDEQKETLIREVSEAISRSLDAPLTSVRVIITEMAKGHFGIGGELASKVRR: PIAQIHILEGRSDEQKETLIREVSEAISRSLDAPLTSVRVIITEMAKGHFGIGGELASKVRR: PIAQIHILEGRSDEQKETLIREVSEAISRSLDAPLTSVRVIITEMAKGHFGIGGELASKVRR: PIAQIHILEGRSDEQKETLIREVSEAISRSLDAPLTSVRVIITEMAKGHFGIGGELASKVRR: PIAQIHILEGRSDEQKETLIREVSEAISRSLDAPLTSVRVIITEMAKGHFGIGGELASKVRR: PIAQIHILEGRSDEQKETLIREVSEAISRSLDAPLTSVRVIITEMAKGHFGIGGELASKVRR
>3KUD_RasRaf_complex MTEYKLVVVGAGGVGKSALTIQLIQNHFVDEYDPTIEDSYRKQVVIDGETCLLDILDTAGQEEYSAMRDQ YMRTGEGFLCVFAINNTKSFEDIHQYREQIKRVKDSDDVPMVLVGNKCDLAARTVESRQAQDLARSYGIP YIETSAKTRQGVEDAFYTLVREIRQH: PSKTSNTIRVFLPNKQRTVVNVRNGMSLHDCLMKALKVRGLQPECCAVFRLLHEHKGKKARLDWNTDAAS LIGEELQVDFL
Несколько строк заголовка >
с последовательностями в файле формата FASTA дают одновременно несколько прогнозов в указанном выходном каталоге.
В формате csv id
и sequence
должны быть разделены символами ,
.
id,sequence
5AWL_1,YYDPETGTWY
3G5O_A_3G5O_B,MRILPISTIKGKLNEFVDAVSSTQDQITITKNGAPAAVLVGADEWESLQETLYWLAQPGIRESIAEADADIASGRTYGEDEIRAEFGVPRRPH:MPYTVRFTTTARRDLHKLPPRILAAVVEFAFGDLSREPLRVGKPLRRELAGTFSARRGTYRLLYRIDDEHTTVVILRVDHRADIYRR
Вы можете ввести свой MSA-файл в формате a3m. Для мультимерных прогнозов файл a3m должен быть совместим с форматом colabfold.
Эти флаги полезны для прогнозов.
--amber
: используйте янтарь для улучшения структуры (релаксации/минимизации энергии). Чтобы контролировать количество структур с самым высоким рейтингом, установите параметр --num-relax
.
--templates
: использовать шаблоны из pdb.
--use-gpu-relax
: запустить янтарный вариант на графическом процессоре NVidia вместо процессора. Эта функция доступна только на машинах с графическими процессорами Nvidia.
--num-recycle
: количество повторов прогнозирования. Увеличение количества повторных циклов может улучшить качество, но замедляет прогнозирование. По умолчанию — 3
. (например, --num-recycle 10
)
--custom-template-path
: Ограничить файлы шаблонов, используемые для --template
, только теми, которые содержатся в указанном каталоге. Этот флаг позволяет нам использовать для прогнозирования частные файлы PDB. См. также sokrypton/ColabFold#177 .
--random-seed
Изменение начального числа для генератора случайных чисел может привести к различным предсказаниям структуры. (например, --random-seed 42
)
--num-seeds
Количество семян, которые можно попробовать. Будет выполнять итерацию из диапазона (random_seed, random_seed+num_seeds). (например, --num-seed 5
)
--max-msa
: определяет: max-seq:max-extra-seq
количество используемых последовательностей (например, --max-msa 512:1024
). Аргументы --max-seq
и --max-extra-seq
также доступны, если вы хотите указать их отдельно. Это повторная реализация статьи «Выборка альтернативных конформационных состояний транспортеров и рецепторов с помощью AlphaFold2», продемонстрированной дель Аламо и др .
--use-dropout
: активировать исключения во время вывода выборки из неопределенности моделей.
--overwrite-existing-results
: перезаписать файлы результатов.
Для получения дополнительной информации colabfold_batch --help
.
Поскольку работа над ColabFold все еще находится в стадии разработки, ваш localcolabfold также следует часто обновлять, чтобы использовать новейшие функции. Для этой цели предусмотрен простой в использовании скрипт обновления.
Чтобы обновить ваш localcolabfold, просто выполните следующее:
# установите свою ОС. Выберите одну из следующих переменных {linux,intelmac,M1mac}$ OS=linux # если Linux# перейдите в каталог, в котором вы установили localcolabfold, например $ cd /home/moriwaki/Desktop/localcolabfold/# получите последнюю версию программы обновления$ wget https ://raw.githubusercontent.com/YoshitakaMo/localcolabfold/main/update_${OS}.sh -O update_${OS}.sh $ chmod +x update_${OS}.sh# выполнить его.$ ./update_${OS}.sh .
Что еще нужно сделать перед установкой? Нужны ли мне привилегии sudo?
Нет, за исключением установки команд curl
и wget
.
Нужно ли мне готовить большую базу данных, такую как PDB70, BFD, Uniclust30, MGnify?
Нет, это не обязательно. Генерация MSA выполняется веб-сервером MMseqs2, так же, как это реализовано в ColabFold.
Доступны ли показатели pLDDT и показатели PAE?
Да, они будут созданы так же, как ColabFold.
Можно ли предсказать гомоолигомеры и комплексы?
Да, формат входной последовательности такой же, как у ColabFold. См. query_sequence:
и его использование ColabFold: AlphaFold2 с использованием MMseqs2.
Можно ли создать MSA с помощью Jackhmmer?
Нет, в настоящее время он не поддерживается .
Я хочу использовать несколько графических процессоров для выполнения прогнозирования.
AlphaFold и ColabFold не поддерживают несколько графических процессоров . Только один графический процессор может моделировать ваш белок.
У меня несколько графических процессоров. Могу ли я указать запуск LocalColabfold на каждом графическом процессоре?
Используйте переменную среды CUDA_VISIBLE_DEVICES
. См. № 200.
Я получил сообщение об ошибке CUDA_ERROR_ILLEGAL_ADDRESS: an illegal memory access was encountered
.
Возможно, вы не обновились до CUDA 11.8 или более поздней версии. Пожалуйста, проверьте версию компилятора Cuda с помощью команды nvcc --version
, а не nvidia-smi
.
Доступно ли это в Windows 10?
Вы можете запустить LocalColabFold в Windows 10 с помощью WSL2.
(Новинка!) Я хочу использовать собственный файл MSA в формате a3m.
ColabFold теперь может принимать различные входные файлы . См. справочное сообщение. Вы можете создать свой собственный файл A3M, файл fasta, содержащий несколько последовательностей (в формате FASTA), или каталог, содержащий несколько файлов fasta.
Учебное пособие по ColabFold, представленное в Бостонском клубе белкового дизайна и моделирования. [видео] [слайды].
Оригинальный колабфолд впервые создали Сергей Овчинников (@sokrypton), Милот Мирдита (@milot_mirdita) и Мартин Штайнеггер (@thesteinegger).
Мирдита М., Шютце К., Мориваки Й., Хео Л., Овчинников С. и Штайнеггер М. ColabFold — Делаем сворачивание белка доступным для всех.
Nature Methods (2022) doi: 10.1038/s41592-022-01488-1
Если вы используете AlphaFold , укажите также:
Джампер и др. «Высокоточное предсказание структуры белка с помощью AlphaFold».
Природа (2021) doi: 10.1038/s41586-021-03819-2
Если вы используете AlphaFold-multimer , укажите также:
Эванс и др. «Прогнозирование белкового комплекса с помощью AlphaFold-Multimer».
BioRxiv (2022) doi: 10.1101/2021.10.04.463034v2