Алгоритм SPACE2 — это метод, который быстро группирует антитела по сходству структурных моделей и точно группирует антитела, связывающиеся с одним и тем же эпитопом.
SPACE2 требует структурных моделей антител в качестве входных данных, их можно создать с помощью ImmuneBuilder. Затем антитела группируются в три основных этапа. Первоначально модели разбиваются на группы одинаковой длины CDR. Затем модели в каждой группе структурно выравниваются по Cα остатков в каркасных областях и вычисляется матрица парных расстояний из Cα RMSD остатков петли CDR. Затем антитела группируются на основе этих расстояний.
Чтобы скачать и установить:
$ git clone https://github.com/fspoendlin/SPACE2.git
$ pip install SPACE2/
Для проведения кластеризации вам потребуются модели антител, имеющие номер IMGT и идентификатор цепи «H» для тяжелой цепи и «L» для легкой цепи. Модели с нумерацией IMGT и правильными идентификаторами цепочек можно получить при запуске ImmuneBuilder по умолчанию. Если у вас есть каталог с моделями антител, вы можете сгруппировать их с помощью SPACE2.
Ниже показан пример кластеризации антител с помощью SPACE2 с использованием агломеративной кластеризации и параметров по умолчанию. Это рекомендуемый способ кластеризации антител.
import glob
import SPACE2
antibody_models = glob . glob ( "path/to/antibody/models/*.pdb" )
clustered_dataframe = SPACE2 . agglomerative_clustering ( antibody_models , cutoff = 1.25 , n_jobs = - 1 )
Приведенный выше код разделит антитела на группы CDR одинаковой длины. Для каждой группы модели антител структурно накладываются на каркасные области тяжелой и легкой цепей. Затем рассчитывается RMSD C-альфа для всех шести CDR (по умолчанию используются определения северных CDR), а для группировки антител используется алгоритм агломеративной кластеризации с порогом расстояния 1,25 Å. Выходными данными является кадр данных pandas, содержащий назначенный структурный кластер для каждого антитела.
Пакет SPACE2 поддерживает ряд опций для настройки кластеризации, например:
См. пример использования ноутбуков.
SPACE2 выводит кадр данных pandas, содержащий назначенный структурный кластер для каждого антитела. Выходные данные форматируются, как показано ниже, со столбцами, указывающими имя антитела (ID), длину всех CDR, рассматриваемых во время кластеризации в порядке H1-3 и L1-3 (cluster_by_length) и представителя назначенного структурного кластера (cluster_by_rmsd).
ИДЕНТИФИКАТОР | кластер_по_длине | кластер_by_rmsd | |
---|---|---|---|
0 | BD56-1450.pdb | 15_9_12_11_8_8 | BD56-1450.pdb |
1 | BD55-6240.pdb | 15_9_12_11_8_8 | BD56-1450.pdb |
2 | BD55-1117.pdb | 13_10_13_13_8_11 | BD55-1117.pdb |
... | ... | ... | ... |
SPACE2 кластеризует 10 000 антител примерно за 2 минуты при параллельной работе 12 процессоров. Алгоритм масштабируется примерно на O(n 1,5 ) в зависимости от количества антител (n).
@article{Spoendlin2023,
title = {Improved computational epitope profiling using structural models identifies a broader diversity of antibodies that bind the same epitope},
author = {Fabian C. Spoendlin, Brennan Abanades, Matthew I. J. Raybould, Wing Ki Wong, Guy Georges, and Charlotte M. Deane},
journal = {Frontiers in Molecular Biosciences},
doi = {10.3389/fmolb.2023.1237621},
volume = {10},
year = {2023},
}