DiffAbXL 다운로드 - DiffAbXL 소스 코드 다운로드

DiffAbXL

기타 소스코드

1.0.0

다운로드

DiffAbXL:

작성자: Talip Ucar ([email protected])

논문에서 벤치마킹된 DiffAbXL의 구현: 항체 서열 디자인 순위 지정을 위한 로그 우도 점수 탐색.

논문의 원래 제목은 "항체 디자인을 위한 생성 모델 벤치마킹"이었지만 핵심 기여를 더 잘 강조하기 위해 제목을 변경하기로 결정했습니다.
이는 원본 작업인 DiffAb를 다시 구현한 것입니다. [문서 및 코드]

현재 리더보드

계급	모델	앱시 HER2		자연		AZ 타겟-2	?
계급	모델	제로샷	SPR 제어	헬	HER2	AZ 타겟-2	?
1	DiffAbXL-A-DN	0.43	0.22	0.62	0.37	0.41	0.41
2	DiffAbXL-A-SG	0.46	0.22	0.64	-0.38	0.43	0.274
3	DiffAbXL-H3-DN	0.49	0	0.52	-0.08	0.37	0.26
4	IgBlend(구조체에만 해당)	0.40	0.21	0.54	-0.30	0.31	0.232
5	안티폴드	0.43	0.22	0.4	-0.47	0.38	0.192
6	DiffAbXL-H3-SG	0.48	0	0.4	-0.41	0.29	0.152
7	ESM	0.29	0	0	0.18	0.27	0.148
8	DiffAb	0.34	0.21	0	-0.14	0.22	0.126
9	앱랭2	0.3	0	0	-0.07	0.36	0.118
10	IgBlend(순서에만 해당)	0.27	0	0	-0.1	0.36	0.106
11	앱랭	0.3	0	0	-0.13	0.35	0.104
12	dyMEAN	0.37	0.15	0	0	0	0.104
13	AbX	0.28	0.19	0	0	0	0.094
14	안티버티	0.26	0	0	-0.17	0.35	0.088
15	평균	0.36	0	0	0.02	0	0.076
16	ESM-IF	0	-0.27	0	-0.53	0.42	-0.076

참고-1: Ave. ? 5개 데이터세트의 평균 Spearman 상관관계를 나타냅니다. 위의 순위표는 5개의 대상 데이터세트를 기반으로 하며, 통계적으로 유의미한 상관관계를 보여주지 않거나 점수 계산에 적합하지 않은(예: 항원 필요) 모델에는 점수가 0으로 할당됩니다.
참고 2: 이 작업의 로그 가능성 점수는 모델 전체의 일관성을 유지하기 위해 논문의 방정식 11에 설명된 대로 순진한 접근 방식을 사용하여 계산됩니다. 그러나 이러한 점수를 계산하기 위한 더 원칙적인 방법이 존재한다는 점은 주목할 가치가 있으며, 이는 모델 유형(예: 자동 회귀 대 마스크된 언어 모델)에 따라 달라질 수 있습니다. 우리는 향후 작업에서 이러한 대체 접근 방식을 조사할 계획입니다.

벤치마킹 결과

1 - 다양한 표적에 대한 DiffAbXL의 로그 우도와 결합 친화도 간의 상관 관계

결과-1

그림-1: DiffAbXL에 대한 결과: a) Absci 제로샷 HER2 데이터에 대한 DiffAbXL-H3-DN b) AZ Target-2에 대한 DiffAbXL-A-SG, c) Nature HEL에 대한 DiffAbXL-A-SG, d) DiffAbXL- Nature HER2의 경우 A-DN입니다.

2- 확산 기반, LLM 기반 및 그래프 기반 모델 비교

결과-2

표-1: Spearman 상관관계에 대한 결과 요약. 약어: DN: De Novo 모드, SG: 구조 안내 모드, NA: 에피토프 또는 복합 구조가 필요하지만 사용할 수 없습니다. *, **, ***는 각각 0.05, 0.01 및 1e-4 미만의 p-값을 나타냅니다.

벤치마킹 모델을 위한 인터페이스를 구축하는 방법

모델을 더 쉽게 벤치마킹할 수 있도록 평가 파이프라인과 쉽게 통합할 수 있는 클래스에서 인터페이스를 Python 메서드로 구현하는 것이 좋습니다. 이 메서드는 다음 입력을 허용해야 합니다.

항체 서열 : 항체 서열의 목록입니다.
선택적 구조 정보 : 해당되는 경우 시퀀스와 관련된 구조 데이터(예: PDB 파일)입니다.
추가 모델별 매개변수 : 모델에 필요한 기타 입력입니다.

이 메서드는 다음을 포함하는 사전을 반환해야 합니다.

로그 우도 점수 : 예측된 결합 친화도를 기준으로 항체 서열의 순위를 지정합니다.
기타 관련 측정항목 : RMSD, pAE 또는 관련성이 있다고 생각하는 모델별 출력 등입니다.

다음은 이 인터페이스를 구현하기 위한 Python의 기본 템플릿입니다.

    def benchmark ( self , sequences , structure = None , mask = None , ** kwargs ):
        """
        Benchmark the model on provided antibody sequences and structures.

        Parameters:
        sequences (list of str): List of antibody sequences.
        structure (optional): Path to a PDB file. Currently, only one PDB file is provided per target dataset.
                              The PDB file may contain either just the antibody or an antibody-antigen complex,
                              depending on the dataset.
        mask (optional): Binary list or array indicating the regions of interest in the sequences for metric calculations.
        kwargs (optional): Additional parameters required by the model.

        Returns:
        dict: A dictionary containing log-likelihood scores and other relevant metrics.
        """
        pass

모델이 항체 서열 설계 벤치마킹에 직접 사용할 수 있는 형식으로 로그 우도 점수를 출력하는지 확인하십시오. 이를 통해 데이터 세트 전체에서 모델 성능을 효율적으로 비교할 수 있습니다.

훈련

매개변수를 변경하는 데 사용할 수 있는 구성 파일 sabdab.yaml이 하나 있습니다. 다음을 사용하여 모델을 훈련할 수 있습니다.

 python train.py # For training.

저장소의 구조

 - train.py

- 소스
    |-model.py
    
- 구성
    |-sabdab.yaml
    
- 유틸리티
    |-load_data.py
    |-arguments.py
    |-model_utils.py
    |-loss_functions.py
    ...
    
- 데이터
    |-그녀2
    ...

실험 추적

가중치 및 편향을 사용하여 실험을 추적할 수 있습니다. 기본적으로 꺼져 있지만 ./config/sabdab.yaml 의 구성 파일에서 옵션을 변경하여 켤 수 있습니다.

논문을 인용하면

 @article {Ucar2024.10.07.617023,
	author = {Ucar, Talip and Malherbe, Cedric and Gonzalez Hernandez, Ferran},
	title = {Exploring Log-Likelihood Scores for Ranking Antibody Sequence Designs},
	elocation-id = {2024.10.07.617023},
	year = {2024},
	doi = {10.1101/2024.10.07.617023},
	publisher = {Cold Spring Harbor Laboratory},
	URL = {https://www.biorxiv.org/content/early/2024/10/24/2024.10.07.617023},
	eprint = {https://www.biorxiv.org/content/early/2024/10/24/2024.10.07.617023.full.pdf},
	journal = {bioRxiv}
}

이 레포를 인용하면

자신의 연구 및 작업에서 DiffAbXL을 사용하는 경우 다음을 사용하여 인용하십시오.

 @Misc{talip_ucar_2024_DiffAbXL,
	author =   {Talip Ucar},
	title = {Exploring Log-Likelihood Scores for Ranking Antibody Sequence Designs},
	URL = {https://github.com/AstraZeneca/DiffAbXL},
	month = {October},
	year = {since 2024}
}

확장하다

추가 정보