您本地 PC(或 macOS)上的 ColabFold。另请参阅 ColabFold 存储库。
LocalColabFold 是一个安装程序脚本,旨在使 ColabFold 功能在用户的本地计算机上可用。它支持多种操作系统,例如 Windows 10 或更高版本(使用 Windows Subsystem for Linux 2)、macOS 和 Linux。
如果您只想预测少量天然存在的蛋白质,我建议使用 ColabFold 笔记本或从 AlphaFold 蛋白质结构数据库或 UniProt 下载结构。 LocalColabFold 适用于更高级的应用,例如对天然复合物、非天然蛋白质的结构预测进行批量处理,或使用手动指定的 MSA/模板进行预测。
如果您的 PC 具有 Nvidia GPU 和 CUDA 驱动程序,则结构推理和松弛将会加速。
无超时(90 分钟和 12 小时)
无 GPU 限制
无需准备本机 AlphaFold2 所需的大型数据库。
由于当前 GPU 支持的 jax > 0.4.26 需要 CUDA 12.1 或更高版本以及 cudnn 9,因此请升级或安装您的 CUDA 驱动程序和 cudnn。推荐使用 CUDA 12.4。
ColabFold 现已升级至 1.5.5(与 AlphaFold 2.3.2 兼容)。现在 LocalColabFold 需要CUDA 12.1 或更高版本。如果您尚未更新 CUDA 驱动程序,请更新。
现在(本地)ColabFold 无需连接互联网即可预测蛋白质结构。使用setup_databases.sh
脚本下载并构建数据库(另请参阅 ColabFold 下载)。此注释中写入了运行colabfold_search
以在本地获取 MSA 和模板的说明。
2024 年 1 月 30 日,ColabFold 1.5.5(兼容 AlphaFold 2.3.2)。现在 LocalColabFold 需要CUDA 12.1 或更高版本。请更新您的 CUDA 驱动程序。
2023 年 4 月 30 日,更新为使用 python 3.10 以与 Google Colaboratory 兼容。
2023年3月9日,1.5.1版本发布。基本目录已从colabfold_batch
更改为localcolabfold
,以区别于执行命令。
2023年3月9日,1.5.0版本发布。请参阅版本 v1.5.0
2023 年 2 月 5 日,版本 1.5.0-预发布。
2022年6月16日,1.4.0版本发布。请参阅版本 v1.4.0
2022 年 5 月 7 日,更新update_linux.sh
。另请参阅如何更新。如果需要 GPU 松弛,请使用新选项--use-gpu-relax
(推荐)。
2022年4月12日,1.3.0版本发布。请参阅版本 v1.3.0
2021 年 12 月 9 日,版本 1.2.0-beta 发布。添加了易于使用的更新程序脚本。请参阅如何更新。
2021 年 12 月 4 日,LocalColabFold 现已与最新的 pip 可安装 ColabFold 兼容。在此存储库中,我将提供一个脚本来安装 ColabFold 和一些外部参数文件,以使用 AMBER 执行松弛。 AlphaFold 和 AlphaFold-Multimer 的权重参数将在您第一次运行时自动下载。
确保您的电脑上已经安装了curl
、 git
和wget
命令。如果不存在,您需要首先安装它们。对于 Ubuntu,输入sudo apt -y install curl git wget
。
确保您的 Cuda 编译器驱动程序是11.8 或更高版本(最好是最新版本 12.4)。如果您没有 GPU 或不打算使用 GPU,则可以跳过此步骤:
$ nvcc --版本 nvcc:NVIDIA (R) Cuda 编译器驱动程序 版权所有 (c) 2005-2022 NVIDIA 公司 建于 Wed_Sep_21_10:33:58_PDT_2022 Cuda 编译工具,版本 11.8,V11.8.89 构建cuda_11.8.r11.8/compiler.31833905_0
请勿使用nvidia-smi
检查版本。
如果您尚未安装,请参阅适用于 Linux 的 NVIDIA CUDA 安装指南。
确保您的 GNU 编译器版本为9.0 或更高版本,因为 openmm 需要GLIBCXX_3.4.26
:
$ gcc --版本 gcc (Ubuntu 9.3.0-17ubuntu1~20.04) 9.3.0 版权所有 (C) 2019 自由软件基金会, Inc. 这是免费软件;请参阅复制条件的来源。 没有 保修单;甚至不是为了适销性或特定用途的适用性。
如果版本是 8.5.0 或更早版本(例如 CentOS 7、Rocky/Almalinux 8 等),请安装新版本并为其添加PATH
。
从此存储库下载install_colabbatch_linux.sh
:
$ wget https://raw.githubusercontent.com/YoshitakaMo/localcolabfold/main/install_colabbatch_linux.sh
并在要安装的目录中运行它:
$ bash install_colabbatch_linux.sh
大约5分钟后,将创建localcolabfold
目录。安装后请勿移动该目录。
保持网络畅通。并检查日志输出,看看是否有错误。
如果在输出日志中发现错误,最简单的方法是检查网络并删除 localcolabfold 目录,然后重新运行安装脚本。
添加环境变量PATH:
# 对于 bash 或 zsh # 例如导出 PATH="/home/moriwaki/Desktop/localcolabfold/colabfold-conda/bin:$PATH" 导出 PATH="/path/to/your/localcolabfold/colabfold-conda/bin:$PATH"
建议将此导出命令添加到~/.bashrc
中并重新启动bash(每次启动bash时都会执行~/.bashrc
)
要运行预测,请输入
colabfold_batch 输入输出目录/
结果文件将在outputdir
中创建。该命令将在没有模板和松弛(能量最小化)的情况下执行预测。如果您想使用模板和松弛,请分别添加--templates
和--amber
标志。例如,
colabfold_batch --templates --amber 输入输出目录/
colabfold_batch
将自动检测预测是单体预测还是复杂预测。在大多数情况下,用户不必添加--model-type alphafold2_multimer_v3
来打开多聚体预测。 alphafold2_multimer_v1, alphafold2_multimer_v2
也可用。默认值为auto
(对于单体使用alphafold2_ptm
,对于复合物使用alphafold2_multimer_v3
。)
有关更多详细信息,请参阅标志和colabfold_batch --help
。
注意:如果您的安装由于符号链接 ( symlink
) 创建问题而失败,这是由于 Windows 文件系统不区分大小写(而 Linux 文件系统区分大小写)。要解决此问题,请在 Windows Powershell 上运行以下命令:
fsutil file SetCaseSensitiveInfo pathtolocalcolabfoldinstallation enable
将pathtocolabfoldinstallation
替换为安装 LocalColabFold 的目录路径。另外,请确保您在 Windows Powershell(而不是 WSL)上运行该命令。有关更多详细信息,请参阅调整区分大小写 (Microsoft)。
在运行预测之前:
export TF_FORCE_UNIFIED_MEMORY="1" export XLA_PYTHON_CLIENT_MEM_FRACTION="4.0" export XLA_PYTHON_CLIENT_ALLOCATOR="platform" export TF_FORCE_GPU_ALLOW_GROWTH="true"
建议将这些导出命令添加到~/.bashrc
中并重新启动bash(每次启动bash时都会执行~/.bashrc
)
注意:由于缺乏 Nvidia GPU/CUDA 驱动,macOS 上的结构预测比 Linux+GPU 上慢 5-10 倍。对于测试序列 (58 aa),可能需要 30 分钟。不过,在准备 Linux+GPU 环境之前先尝试一下它可能会很有用。
您可以通过在终端上输入uname -m
来检查您的 Mac 是 Intel 还是 Apple Silicon。
$ uname -m x86_64 # Intelarm64 # 苹果芯片
请使用适合您 Mac 的正确安装程序。
如果不存在,请安装 Homebrew:
$ /bin/bash -c "$(curl -fsSL https://raw.githubusercontent.com/Homebrew/install/HEAD/install.sh)"
使用 Homebrew 安装wget
、 gnu-sed
、 HH-suite 和 kalign :
$brew安装wgetgnu-sed $brew 安装brewsci/bio/hh-suitebrewsci/bio/kalign
从此存储库下载install_colabbatch_intelmac.sh
:
$ wget https://raw.githubusercontent.com/YoshitakaMo/localcolabfold/main/install_colabbatch_intelmac.sh
并在要安装的目录中运行它:
$ bash install_colabbatch_intelmac.sh
大约5分钟后, colabfold_batch
目录将被创建。安装后请勿移动该目录。
其余过程与“对于Linux”相同。
注意:此安装程序是实验性的,因为大多数依赖包尚未在 Apple Silicon Mac 上进行完全测试。
如果不存在,请安装 Homebrew:
$ /bin/bash -c "$(curl -fsSL https://raw.githubusercontent.com/Homebrew/install/HEAD/install.sh)"
使用 Homebrew 安装几个命令(现在 kalign 3.3.2 可用!):
$brew安装wgetcmakegnu-sed $brew 安装brewsci/bio/hh-suite $brew 安装brewsci/bio/kalign
使用 Homebrew 安装miniforge
命令:
$brew安装--cask miniforge
从此存储库下载install_colabbatch_M1mac.sh
:
$ wget https://raw.githubusercontent.com/YoshitakaMo/localcolabfold/main/install_colabbatch_M1mac.sh
并在要安装的目录中运行它:
$ bash install_colabbatch_M1mac.sh
大约5分钟后, colabfold_batch
目录将被创建。安装后请勿移动该目录。您可以忽略一路上出现的安装错误。
其余过程与“对于Linux”相同。
ColabFold 可以接受多种文件格式或目录。
positional arguments: input Can be one of the following: Directory with fasta/a3m files, a csv/tsv file, a fasta file or an a3m file results Directory to write the results to
建议以>
开头的标题行较短,因为描述将是输出文件的前缀。在氨基酸序列中插入换行符是可以接受的。
>sp|P61823
MALKSLVLLSLLVLVLLLVRVQPSLGKETAAAKFERQHMDSSTSAASSSNYCNQMMKSRN
LTKDRCKPVNTFVHESLADVQAVCSQKNVACKNGQTNCYQSYSTMSITDCRETGSSKYPN
CAYKTTQANKHIIVACEGNPYVPVHFDASV
为了预测多聚体,在蛋白质序列之间插入:
。
>1BJP_homohexamer PIAQIHILEGRSDEQKETLIREVSEAISRSLDAPLTSVRVIITEMAKGHFGIGGELASKVRR: PIAQIHILEGRSDEQKETLIREVSEAISRSLDAPLTSVRVIITEMAKGHFGIGGELASKVRR: PIAQIHILEGRSDEQKETLIREVSEAISRSLDAPLTSVRVIITEMAKGHFGIGGELASKVRR: PIAQIHILEGRSDEQKETLIREVSEAISRSLDAPLTSVRVIITEMAKGHFGIGGELASKVRR: PIAQIHILEGRSDEQKETLIREVSEAISRSLDAPLTSVRVIITEMAKGHFGIGGELASKVRR: PIAQIHILEGRSDEQKETLIREVSEAISRSLDAPLTSVRVIITEMAKGHFGIGGELASKVRR
>3KUD_RasRaf_complex MTEYKLVVVGAGGVGKSALTIQLIQNHFVDEYDPTIEDSYRKQVVIDGETCLLDILDTAGQEEYSAMRDQ YMRTGEGFLCVFAINNTKSFEDIHQYREQIKRVKDSDDVPMVLVGNKCDLAARTVESRQAQDLARSYGIP YIETSAKTRQGVEDAFYTLVREIRQH: PSKTSNTIRVFLPNKQRTVVNVRNGMSLHDCLMKALKVRGLQPECCAVFRLLHEHKGKKARLDWNTDAAS LIGEELQVDFL
FASTA 格式文件中带有序列的多个>
标题行会在指定的输出目录中同时产生多个预测。
在 csv 格式中, id
和sequence
应以,
分隔。
id,sequence
5AWL_1,YYDPETGTWY
3G5O_A_3G5O_B,MRILPISTIKGKLNEFVDAVSSTQDQITITKNGAPAAVLVGADEWESLQETLYWLAQPGIRESIAEADADIASGRTYGEDEIRAEFGVPRRPH:MPYTVRFTTTARRDLHKLPPRILAAVVEFAFGDLSREPLRVGKPLRRELAGTFSARRGTYRLLYRIDDEHTTVVILRVDHRADIYRR
您可以输入 a3m 格式的 MSA 文件。对于多聚体预测,a3m 文件应与 colabfold 格式兼容。
这些标志对于预测很有用。
--amber
:使用琥珀色进行结构细化(松弛/能量最小化)。为了控制排名靠前的结构的数量,可以设置--num-relax
。
--templates
:使用 pdb 中的模板。
--use-gpu-relax
:在 NVidia GPU 而不是 CPU 上运行 amber。此功能仅在配备 Nvidia GPU 的计算机上可用。
--num-recycle
: 预测回收次数。增加回收量可以提高质量,但会减慢预测速度。默认值为3
。 (例如--num-recycle 10
)
--custom-template-path
:将--template
使用的模板文件限制为仅包含在指定目录中的模板文件。该标志使我们能够使用非公共 pdb 文件进行预测。另请参见 sokrypton/ColabFold#177 。
--random-seed
更改随机数生成器的种子可能会导致不同的结构预测。 (例如--random-seed 42
)
--num-seeds
要尝试的种子数。将从范围(random_seed,random_seed + num_seeds)迭代。 (例如--num-seed 5
)
--max-msa
:定义:要使用的max-seq:max-extra-seq
序列数(例如--max-msa 512:1024
)。如果您想单独指定,也可以使用--max-seq
和--max-extra-seq
参数。这是 del Alamo等人证明的《利用 AlphaFold2 采样转运蛋白和受体的替代构象状态》论文的重新实现。
--use-dropout
:在推理过程中激活 dropout,以从模型的不确定性中进行采样。
--overwrite-existing-results
:覆盖结果文件。
有关更多信息,请colabfold_batch --help
。
由于 ColabFold 仍在开发中,因此您的本地 colabfold 也应该经常更新以使用最新功能。为此提供了一个易于使用的更新脚本。
要更新本地colabfold,只需执行以下命令:
# 设置你的操作系统。选择以下变量之一 {linux,intelmac,M1mac}$ OS=linux # 如果是 Linux# 导航到安装 localcolabfold 的目录,例如 $ cd /home/moriwaki/Desktop/localcolabfold/# 获取最新更新程序$ wget https ://raw.githubusercontent.com/YoshitakaMo/localcolabfold/main/update_${OS}.sh -O update_${OS}.sh $ chmod +x update_${OS}.sh# 执行它。$ ./update_${OS}.sh .
安装前我还需要做什么?我需要 sudo 权限吗?
否,除了安装curl
和wget
命令。
我需要准备PDB70、BFD、Uniclust30、MGnify等大型数据库吗?
不,没有必要。 MSA 的生成由 MMseqs2 Web 服务器执行,就像 ColabFold 中的实现一样。
pLDDT 分数和 PAE 数据是否可用?
是的,它们将像 ColabFold 一样生成。
是否可以预测同源低聚物和复合物?
是的,输入序列的格式与 ColabFold 相同。请参阅query_sequence:
及其对ColabFold的使用:AlphaFold2使用MMseqs2。
是否可以通过 jackhmmer 创建 MSA?
不,目前不支持。
我想使用多个 GPU 来执行预测。
AlphaFold 和 ColabFold 不支持多个 GPU 。只需一台 GPU 即可对您的蛋白质进行建模。
我有多个 GPU。我可以指定在每个 GPU 上运行 LocalColabfold 吗?
使用CUDA_VISIBLE_DEVICES
环境变量。参见#200。
我收到错误消息CUDA_ERROR_ILLEGAL_ADDRESS: an illegal memory access was encountered
。
您可能尚未更新到 CUDA 11.8 或更高版本。请使用nvcc --version
命令检查 Cuda 编译器的版本,而不是nvidia-smi
。
这在 Windows 10 上可用吗?
您可以使用 WSL2 在 Windows 10 上运行 LocalColabFold。
(新!)我想使用 a3m 格式的自定义 MSA 文件。
ColabFold 现在可以接受各种输入文件。请参阅帮助消息。您可以设置自己的 A3M 文件、包含多个序列的 fasta 文件(FASTA 格式)或包含多个 fasta 文件的目录。
ColabFold 教程在波士顿蛋白质设计和建模俱乐部发表。 [视频] [幻灯片]。
最初的 colabfold 最初由 Sergey Ovchinnikov (@sokrypton)、Milot Mirdita (@milot_mirdita) 和 Martin Steinegger (@thesteinegger) 创建。
Mirdita M、Schütze K、Moriwaki Y、Heo L、Ovchinnikov S 和 Steinegger M. ColabFold - 让所有人都能进行蛋白质折叠。
自然方法(2022) doi: 10.1038/s41592-022-01488-1
如果您使用AlphaFold ,还请引用:
跳跃者等人。 “使用 AlphaFold 进行高度准确的蛋白质结构预测。”
自然(2021) doi: 10.1038/s41586-021-03819-2
如果您使用AlphaFold-multimer ,还请引用:
埃文斯等人。 “使用 AlphaFold-Multimer 预测蛋白质复合物。”
BioRxiv (2022) doi: 10.1101/2021.10.04.463034v2