SPACE2演算法是一種透過結構模型的相似性對抗體進行快速聚類的方法,並對結合相同表位的抗體進行精確分組。
SPACE2 需要抗體的結構模型作為輸入,這些可以使用 ImmuneBuilder 產生。然後抗體透過三個主要步驟聚集。最初,模型被分成具有相同 CDR 長度的組別。然後,每組中的模型在框架區殘基的 Cα 上進行結構比對,併計算 CDR 環殘基的 Cα RMSD 的成對距離矩陣。然後根據這些距離對抗體進行聚類。
下載並安裝:
$ git clone https://github.com/fspoendlin/SPACE2.git
$ pip install SPACE2/
要運行聚類,您將需要 IMGT 編號的抗體模型,其中重鏈的鏈標識符為“H”,輕鏈的鏈標識符為“L”。具有 IMGT 編號和正確鏈標識符的模型可以從 ImmuneBuilder 的預設運行中獲得。一旦您擁有包含抗體模型的目錄,您就可以使用 SPACE2 對它們進行聚類。
下面顯示如何使用凝聚聚類和預設參數透過 SPACE2 對抗體進行聚類的範例。這是抗體聚類的建議方法。
import glob
import SPACE2
antibody_models = glob . glob ( "path/to/antibody/models/*.pdb" )
clustered_dataframe = SPACE2 . agglomerative_clustering ( antibody_models , cutoff = 1.25 , n_jobs = - 1 )
上述代碼將抗體分成相同長度的 CDR 組。對於每組,抗體模型在結構上疊加在重鏈和輕鏈框架區上。然後計算所有六個 CDR(預設使用 North CDR 定義)的 C-alpha RMSD,並使用距離閾值為 1.25 Å 的凝聚聚類演算法對抗體進行分組。輸出是一個 pandas 資料框,其中包含為每個抗體分配的結構簇。
SPACE2 套件支援一系列自訂叢集的選項,例如:
有關用法範例,請參閱筆記本。
SPACE2 輸出一個 pandas 資料框,其中包含為每個抗體分配的結構簇。輸出格式如下,列指示抗體名稱 (ID)、依 H1-3 和 L1-3 順序聚類期間考慮的所有 CDR 的長度 (cluster_by_length) 以及指定結構簇的代表 (cluster_by_rmsd)。
ID | 按長度聚類 | 按均方根值聚類 | |
---|---|---|---|
0 | BD56-1450.pdb | 15_9_12_11_8_8 | BD56-1450.pdb |
1 | BD55-6240.pdb | 15_9_12_11_8_8 | BD56-1450.pdb |
2 | BD55-1117.pdb | 13_10_13_13_8_11 | BD55-1117.pdb |
…… | …… | …… | …… |
當在 12 個 CPU 上並行時,SPACE2 在大約 2 分鐘內聚集 10,000 個抗體。此演算法根據抗體數量 (n) 大致以 O(n 1.5 ) 縮放。
@article{Spoendlin2023,
title = {Improved computational epitope profiling using structural models identifies a broader diversity of antibodies that bind the same epitope},
author = {Fabian C. Spoendlin, Brennan Abanades, Matthew I. J. Raybould, Wing Ki Wong, Guy Georges, and Charlotte M. Deane},
journal = {Frontiers in Molecular Biosciences},
doi = {10.3389/fmolb.2023.1237621},
volume = {10},
year = {2023},
}