생명과학 분야에 큰 파장을 일으킨 단백질 구조 예측 모델인 알파폴드3(AlphaFold3)는 논문만 발표했을 뿐 코드는 제공하지 않았기 때문에 이를 재현하려는 광범위한 시도가 촉발됐다. DeepMind의 전략을 통해 많은 과학자들은 특정 서버에서 제한된 횟수만 AlphaFold3를 사용할 수 있으며 이는 의심할 여지 없이 모든 사람의 식욕을 자극합니다. 그러나 옥스퍼드 대학교 학부생 3명으로 구성된 Ligo 팀은 단 4개월 만에 AlphaFold3를 성공적으로 재현했으며 이를 오픈 소스로 계획하여 과학계에 흥미로운 소식을 전할 예정입니다. Downcodes의 편집자는 Ligo 팀의 뛰어난 성과에 대한 심층적인 이해를 제공할 것입니다.
생명과학과 컴퓨터 과학의 교차점에서 알파폴드3는 출시 이후 셀 수 없이 많은 관심을 끌며 슈퍼스타처럼 떠오른 바 있다. 구글 딥마인드가 우리에게 논문 한 장만 주고 코드나 모델 가중치를 제공하지 않은 것이 아쉽다. 마치 맛있는 케이크 같지만 맛을 보지 못하고 겉모습만 볼 수 있게 해준다. 이러한 "밀폐된 문 뒤에서" 접근 방식에 직면하여 많은 팀이 재생산 작업을 수행하기 위해 안간힘을 쓰고 있습니다.
이런 뜨거운 분위기 속에서 리고(Ligo)라는 스타트업이 눈에 띄었고, 알파폴드3를 최초로 재현한 팀이 됐다. 이 팀의 창업자 3명은 모두 옥스퍼드대학교 학부생이었다. 그들은 단 4개월 만에 이 위업을 달성했는데, 이는 과학계에 큰 선물입니다.
AlphaFold3는 생명과학 분야, 특히 단백질 구조 예측 분야에서 이정표로 평가되며, 그 응용 가능성은 엄청납니다. 그러나 DeepMind의 전략은 매우 실망스럽습니다. 그들의 작업은 특정 서버의 과학자들에게만 제공되며 하루에 호출할 수 있는 횟수가 제한되어 있어 미래의 상업적 이익을 위한 길을 열어주는 것으로 보입니다. 그럼에도 불구하고 연구자들은 이 성과가 신약 발견 게임의 규칙을 완전히 바꿀 수 있는 잠재력을 갖고 있기 때문에 기대하고 있습니다.
많은 과학자들이 좌절감을 느꼈을 때 Ligo 팀은 용감하게 첫발을 내디뎠습니다. AlphaFold3 모델을 재현했을 뿐만 아니라, 더 많은 사람들이 혜택을 누릴 수 있도록 오픈소스화할 계획도 세웠습니다. Ligo 팀은 그들의 모델이 현재 단백질 구조를 예측하는 데 효과적이며 다른 기능도 곧 나올 것이라고 말했습니다.
재현 과정은 간단하지 않습니다. 팀은 DeepMind 논문의 모델 아키텍처를 PyTorch 코드로 완전히 변환했습니다. 그 과정에서 그들은 원본 논문에서 훈련 효과에 영향을 미칠 수 있는 손실 함수의 공식 오류와 같은 몇 가지 문제를 발견했습니다. 또한 경사 흐름을 개선하기 위해 잔여 레이어를 도입하는 등 원래 모델을 최적화했습니다.
흥미로운 점은 Ligo 팀이 이번 작업에서 원래 모델의 아이디어를 따랐을 뿐만 아니라 보다 효율적인 구현 방법을 혁신하고 시도했다는 것입니다. 해당 모델을 생성하기 위해 훈련 과정에서 A100GPU 8개만 사용했는데 그 효율성이 눈길을 끕니다.
DeepMind는 상업적인 이유로 결과를 일시적으로 종료했지만 Ligo의 성공적인 재생산은 사람들에게 희망을 주었고 더 많은 팀이 후속 조치를 취하도록 촉발했습니다. Ligo 외에도 Columbia University의 OpenFold 팀과 독립 개발자 Phil Wang도 이러한 오픈 소스 운동에 적극적으로 참여하여 생생한 과학 연구 생태계를 형성하고 있습니다.
프로젝트 주소: https://github.com/Ligo-Biosciences/AlphaFold3
Ligo 팀의 성공적인 재생산은 DeepMind의 폐쇄적 전략을 깨뜨렸을 뿐만 아니라 전 세계 과학자들에게 보다 편리한 연구 도구를 제공했습니다. 이는 AlphaFold3의 승리일 뿐만 아니라, 향후 단백질 구조 예측 분야의 활발한 발전을 예고하는 오픈 소스 정신의 승리이기도 합니다. 우리는 생물학의 발전을 공동으로 촉진하기 위해 더 많은 팀이 합류하기를 기대합니다!