您本機 PC(或 macOS)上的 ColabFold。另請參閱 ColabFold 儲存庫。
LocalColabFold 是一個安裝程式腳本,旨在使 ColabFold 功能在使用者的本機電腦上可用。它支援多種作業系統,例如 Windows 10 或更高版本(使用 Windows Subsystem for Linux 2)、macOS 和 Linux。
如果您只想預測少量天然存在的蛋白質,我建議使用 ColabFold 筆記本或從 AlphaFold 蛋白質結構資料庫或 UniProt 下載結構。 LocalColabFold 適用於更高級的應用,例如對天然複合物、非天然蛋白質的結構預測進行批量處理,或使用手動指定的 MSA/模板進行預測。
如果您的 PC 具有 Nvidia GPU 和 CUDA 驅動程序,則結構推理和鬆弛將會加速。
無超時(90 分鐘和 12 小時)
無 GPU 限制
無需準備本機 AlphaFold2 所需的大型資料庫。
由於目前 GPU 支援的 jax > 0.4.26 需要 CUDA 12.1 或更高版本以及 cudnn 9,因此請升級或安裝您的 CUDA 驅動程式和 cudnn。建議使用 CUDA 12.4。
ColabFold 現已升級至 1.5.5(與 AlphaFold 2.3.2 相容)。現在 LocalColabFold 需要CUDA 12.1 或更高版本。如果您尚未更新 CUDA 驅動程序,請更新。
現在(本地)ColabFold 無需連接互聯網即可預測蛋白質結構。使用setup_databases.sh
腳本下載並建立資料庫(另請參閱 ColabFold 下載)。此註釋中寫入了運行colabfold_search
以在本地獲取 MSA 和模板的說明。
2024 年 1 月 30 日,ColabFold 1.5.5(相容於 AlphaFold 2.3.2)。現在 LocalColabFold 需要CUDA 12.1 或更高版本。請更新您的 CUDA 驅動程式。
2023 年 4 月 30 日,更新為使用 python 3.10 以與 Google Colaboratory 相容。
2023年3月9日,1.5.1版發布。基本目錄已從colabfold_batch
更改為localcolabfold
,以區別於執行命令。
2023年3月9日,1.5.0版本發布。請參閱版本 v1.5.0
2023 年 2 月 5 日,版本 1.5.0-預發布。
2022年6月16日,1.4.0版本發布。請參閱版本 v1.4.0
2022 年 5 月 7 日,更新update_linux.sh
。另請參閱如何更新。如果需要 GPU 鬆弛,請使用新選項--use-gpu-relax
(建議)。
2022年4月12日,1.3.0版本發布。請參閱版本 v1.3.0
2021 年 12 月 9 日,版本 1.2.0-beta 發布。新增了易於使用的更新程式腳本。請參閱如何更新。
2021 年 12 月 4 日,LocalColabFold 現已與最新的 pip 可安裝 ColabFold 相容。在此儲存庫中,我將提供一個腳本來安裝 ColabFold 和一些外部參數文件,以使用 AMBER 執行鬆弛。 AlphaFold 和 AlphaFold-Multimer 的權重參數將在您第一次執行時自動下載。
確保您的電腦上已經安裝了curl
、 git
和wget
指令。如果不存在,您需要先安裝它們。對於 Ubuntu,輸入sudo apt -y install curl git wget
。
確保您的 Cuda 編譯器驅動程式是11.8 或更高版本(最好是最新版本 12.4)。如果您沒有 GPU 或不打算使用 GPU,則可以跳過此步驟:
$ nvcc --版本 nvcc:NVIDIA (R) Cuda 編譯器驅動程式 版權所有 (c) 2005-2022 NVIDIA 公司 建於 Wed_Sep_21_10:33:58_PDT_2022 Cuda 編譯工具,版本 11.8,V11.8.89 建造cuda_11.8.r11.8/compiler.31833905_0
請勿使用nvidia-smi
檢查版本。
如果您尚未安裝,請參閱適用於 Linux 的 NVIDIA CUDA 安裝指南。
確保您的 GNU 編譯器版本為9.0 或更高版本,因為 openmm 需要GLIBCXX_3.4.26
:
$ gcc --版本 gcc (Ubuntu 9.3.0-17ubuntu1~20.04) 9.3.0 版權所有 (C) 2019 自由軟體基金會, Inc. 這是免費軟體;請參閱複製條件的來源。 沒有 保固單;甚至不是為了適銷性或特定用途的適用性。
如果版本是 8.5.0 或更早版本(例如 CentOS 7、Rocky/Almalinux 8 等),請安裝新版本並為其新增PATH
。
從此儲存庫下載install_colabbatch_linux.sh
:
$ wget https://raw.githubusercontent.com/YoshitakaMo/localcolabfold/main/install_colabbatch_linux.sh
並在要安裝的目錄中運行它:
$ bash install_colabbatch_linux.sh
大約5分鐘後,將建立localcolabfold
目錄。安裝後請勿移動目錄。
保持網路暢通。並檢查日誌輸出,看看是否有錯誤。
如果在輸出日誌中發現錯誤,最簡單的方法是檢查網路並刪除 localcolabfold 目錄,然後重新執行安裝腳本。
新增環境變數PATH:
# 對於 bash 或 zsh # 例如導出 PATH="/home/moriwaki/Desktop/localcolabfold/colabfold-conda/bin:$PATH" 導出 PATH="/path/to/your/localcolabfold/colabfold-conda/bin:$PATH"
建議將此匯出命令新增至~/.bashrc
並重新啟動bash(每次啟動bash時都會執行~/.bashrc
)
若要執行預測,請輸入
colabfold_batch 輸入輸出目錄/
結果檔案將在outputdir
中建立。該命令將在沒有模板和鬆弛(能量最小化)的情況下執行預測。如果您想使用模板和鬆弛,請分別新增--templates
和--amber
標誌。例如,
colabfold_batch --templates --amber 輸入輸出目錄/
colabfold_batch
將自動偵測預測是單體預測還是複雜預測。在大多數情況下,使用者不必添加--model-type alphafold2_multimer_v3
來開啟多聚體預測。 alphafold2_multimer_v1, alphafold2_multimer_v2
也可使用。預設值為auto
(對於單體使用alphafold2_ptm
,對於複合物使用alphafold2_multimer_v3
。)
有關更多詳細信息,請參閱標誌和colabfold_batch --help
。
注意:如果您的安裝因符號連結 ( symlink
) 建立問題而失敗,這是由於 Windows 檔案系統不區分大小寫(而 Linux 檔案系統區分大小寫)。若要解決此問題,請在 Windows Powershell 上執行下列命令:
fsutil file SetCaseSensitiveInfo pathtolocalcolabfoldinstallation enable
將pathtocolabfoldinstallation
替換為安裝 LocalColabFold 的目錄路徑。另外,請確保您在 Windows Powershell(而不是 WSL)上執行該命令。有關更多詳細信息,請參閱調整區分大小寫 (Microsoft)。
在運行預測之前:
export TF_FORCE_UNIFIED_MEMORY="1" export XLA_PYTHON_CLIENT_MEM_FRACTION="4.0" export XLA_PYTHON_CLIENT_ALLOCATOR="platform" export TF_FORCE_GPU_ALLOW_GROWTH="true"
建議將這些匯出命令新增至~/.bashrc
並重新啟動bash(每次啟動bash時都會執行~/.bashrc
)
注意:由於缺乏 Nvidia GPU/CUDA 驅動,macOS 上的結構預測比 Linux+GPU 上慢 5-10 倍。對於測試序列 (58 aa),可能需要 30 分鐘。不過,在準備 Linux+GPU 環境之前先嘗試它可能會很有用。
您可以透過在終端機上輸入uname -m
來檢查您的 Mac 是 Intel 還是 Apple Silicon。
$ uname -m x86_64 # Intelarm64 # 蘋果晶片
請使用適合您 Mac 的正確安裝程式。
如果不存在,請安裝 Homebrew:
$ /bin/bash -c "$(curl -fsSL https://raw.githubusercontent.com/Homebrew/install/HEAD/install.sh)"
使用 Homebrew 安裝wget
、 gnu-sed
、 HH-suite 和 kalign :
$brew安裝wgetgnu-sed $brew 安裝brewsci/bio/hh-suitebrewsci/bio/kalign
從此儲存庫下載install_colabbatch_intelmac.sh
:
$ wget https://raw.githubusercontent.com/YoshitakaMo/localcolabfold/main/install_colabbatch_intelmac.sh
並在要安裝的目錄中運行它:
$ bash install_colabbatch_intelmac.sh
大約5分鐘後, colabfold_batch
目錄將被建立。安裝後請勿移動目錄。
其餘過程與“對於Linux”相同。
注意:此安裝程式是實驗性的,因為大多數依賴套件尚未在 Apple Silicon Mac 上進行完全測試。
如果不存在,請安裝 Homebrew:
$ /bin/bash -c "$(curl -fsSL https://raw.githubusercontent.com/Homebrew/install/HEAD/install.sh)"
使用 Homebrew 安裝幾個指令(現在 kalign 3.3.2 可用!):
$brew安裝wgetcmakegnu-sed $brew 安裝brewsci/bio/hh-suite $brew 安裝brewsci/bio/kalign
使用 Homebrew 安裝miniforge
指令:
$brew安裝--cask miniforge
從此儲存庫下載install_colabbatch_M1mac.sh
:
$ wget https://raw.githubusercontent.com/YoshitakaMo/localcolabfold/main/install_colabbatch_M1mac.sh
並在要安裝的目錄中運行它:
$ bash install_colabbatch_M1mac.sh
大約5分鐘後, colabfold_batch
目錄將被建立。安裝後請勿移動目錄。您可以忽略一路上出現的安裝錯誤。
其餘過程與“對於Linux”相同。
ColabFold 可以接受多種檔案格式或目錄。
positional arguments: input Can be one of the following: Directory with fasta/a3m files, a csv/tsv file, a fasta file or an a3m file results Directory to write the results to
建議以>
開頭的標題行較短,因為描述將是輸出檔案的前綴。在胺基酸序列中插入換行符是可以接受的。
>sp|P61823
MALKSLVLLSLLVLVLLLVRVQPSLGKETAAAKFERQHMDSSTSAASSSNYCNQMMKSRN
LTKDRCKPVNTFVHESLADVQAVCSQKNVACKNGQTNCYQSYSTMSITDCRETGSSKYPN
CAYKTTQANKHIIVACEGNPYVPVHFDASV
為了預測多聚體,在蛋白質序列之間插入:
。
>1BJP_homohexamer PIAQIHILEGRSDEQKETLIREVSEAISRSLDAPLTSVRVIITEMAKGHFGIGGELASKVRR: PIAQIHILEGRSDEQKETLIREVSEAISRSLDAPLTSVRVIITEMAKGHFGIGGELASKVRR: PIAQIHILEGRSDEQKETLIREVSEAISRSLDAPLTSVRVIITEMAKGHFGIGGELASKVRR: PIAQIHILEGRSDEQKETLIREVSEAISRSLDAPLTSVRVIITEMAKGHFGIGGELASKVRR: PIAQIHILEGRSDEQKETLIREVSEAISRSLDAPLTSVRVIITEMAKGHFGIGGELASKVRR: PIAQIHILEGRSDEQKETLIREVSEAISRSLDAPLTSVRVIITEMAKGHFGIGGELASKVRR
>3KUD_RasRaf_complex MTEYKLVVVGAGGVGKSALTIQLIQNHFVDEYDPTIEDSYRKQVVIDGETCLLDILDTAGQEEYSAMRDQ YMRTGEGFLCVFAINNTKSFEDIHQYREQIKRVKDSDDVPMVLVGNKCDLAARTVESRQAQDLARSYGIP YIETSAKTRQGVEDAFYTLVREIRQH: PSKTSNTIRVFLPNKQRTVVNVRNGMSLHDCLMKALKVRGLQPECCAVFRLLHEHKGKKARLDWNTDAAS LIGEELQVDFL
FASTA 格式檔案中帶有序列的多個>
標題行會在指定的輸出目錄中同時產生多個預測。
在 csv 格式中, id
和sequence
應以,
分隔。
id,sequence
5AWL_1,YYDPETGTWY
3G5O_A_3G5O_B,MRILPISTIKGKLNEFVDAVSSTQDQITITKNGAPAAVLVGADEWESLQETLYWLAQPGIRESIAEADADIASGRTYGEDEIRAEFGVPRRPH:MPYTVRFTTTARRDLHKLPPRILAAVVEFAFGDLSREPLRVGKPLRRELAGTFSARRGTYRLLYRIDDEHTTVVILRVDHRADIYRR
您可以輸入 a3m 格式的 MSA 檔案。對於多聚體預測,a3m 檔案應與 colabfold 格式相容。
這些標誌對於預測很有用。
--amber
:使用琥珀色進行結構性細化(鬆弛/能量最小化)。為了控制排名前面的結構的數量,可以設定--num-relax
。
--templates
:使用 pdb 中的模板。
--use-gpu-relax
:在 NVidia GPU 而不是 CPU 上執行 amber。此功能僅在配備 Nvidia GPU 的電腦上可用。
--num-recycle
: 預測回收次數。增加回收量可以提高質量,但會減慢預測速度。預設值為3
。 (例如--num-recycle 10
)
--custom-template-path
:將--template
使用的範本檔案限制為僅包含在指定目錄中的範本檔案。該標誌使我們能夠使用非公共 pdb 檔案進行預測。另請參閱 sokrypton/ColabFold#177 。
--random-seed
更改隨機數產生器的種子可能會導致不同的結構預測。 (例如--random-seed 42
)
--num-seeds
要嘗試的種子數。將從範圍(random_seed,random_seed + num_seeds)迭代。 (例如--num-seed 5
)
--max-msa
:定義:要使用的max-seq:max-extra-seq
序列數(例如--max-msa 512:1024
)。如果您想要單獨指定,也可以使用--max-seq
和--max-extra-seq
參數。這是 del Alamo等人證明的《利用 AlphaFold2 採樣轉運蛋白和受體的替代構象狀態》論文的重新實現。
--use-dropout
:在推理過程中啟動 dropout,以從模型的不確定性中進行取樣。
--overwrite-existing-results
:覆寫結果檔。
有關更多信息,請colabfold_batch --help
。
由於 ColabFold 仍在開發中,因此您的本機 colabfold 也應該經常更新以使用最新功能。為此提供了一個易於使用的更新腳本。
要更新本機colabfold,只需執行以下命令:
# 設定你的作業系統。選擇下列變數之一 {linux,intelmac,M1mac}$ OS=linux # 如果是 Linux# 導覽至安裝 localcolabfold 的目錄,例如 $ cd /home/moriwaki/Desktop/localcolabfold/# 取得最新更新程式 $ wget https :/$ wget https :/ /raw.githubusercontent.com/YoshitakaMo/localcolabfold/main/update_${OS}.sh -O update_${OS}.sh $ chmod +x update_${OS}.sh# 執行它。
安裝前我還需要做什麼?我需要 sudo 權限嗎?
否,除了安裝curl
和wget
指令。
我需要準備PDB70、BFD、Uniclust30、MGnify等大型資料庫嗎?
不,沒有必要。 MSA 的產生由 MMseqs2 Web 伺服器執行,就像 ColabFold 中的實作一樣。
pLDDT 分數和 PAE 資料是否可用?
是的,它們將像 ColabFold 一樣生成。
是否可以預測同源低聚物和複合物?
是的,輸入序列的格式與 ColabFold 相同。請參閱query_sequence:
及其對ColabFold的使用:AlphaFold2使用MMseqs2。
是否可以透過 jackhmmer 創建 MSA?
不,目前不支援。
我想使用多個 GPU 來執行預測。
AlphaFold 和 ColabFold 不支援多個 GPU 。只需一台 GPU 即可對您的蛋白質進行建模。
我有多個 GPU。我可以指定在每個 GPU 上執行 LocalColabfold 嗎?
使用CUDA_VISIBLE_DEVICES
環境變數。參見#200。
我收到錯誤訊息CUDA_ERROR_ILLEGAL_ADDRESS: an illegal memory access was encountered
。
您可能尚未更新至 CUDA 11.8 或更高版本。請使用nvcc --version
指令檢查 Cuda 編譯器的版本,而不是nvidia-smi
。
這在 Windows 10 上可用嗎?
您可以使用 WSL2 在 Windows 10 上執行 LocalColabFold。
(新!)我想使用 a3m 格式的自訂 MSA 檔案。
ColabFold 現在可以接受各種輸入檔。請參閱說明訊息。您可以設定自己的 A3M 檔案、包含多個序列的 fasta 檔案(FASTA 格式)或包含多個 fasta 檔案的目錄。
ColabFold 教學在波士頓蛋白質設計和建模俱樂部發表。 [影片] [幻燈片]。
最初的 colabfold 最初由 Sergey Ovchinnikov (@sokrypton)、Milot Mirdita (@milot_mirdita) 和 Martin Steinegger (@thesteinegger) 創建。
Mirdita M、Schütze K、Moriwaki Y、Heo L、Ovchinnikov S 和 Steinegger M. ColabFold - 讓所有人都能進行蛋白質折疊。
自然方法(2022) doi: 10.1038/s41592-022-01488-1
如果您使用AlphaFold ,也請引用:
跳躍者等人。 “使用 AlphaFold 進行高度準確的蛋白質結構預測。”
自然(2021) doi: 10.1038/s41586-021-03819-2
如果您使用AlphaFold-multimer ,也請引用:
埃文斯等。 “使用 AlphaFold-Multimer 預測蛋白質複合物。”
BioRxiv (2022) doi: 10.1101/2021.10.04.463034v2