올해 노벨 물리학상과 화학상이 AI 관련 분야에 모두 수여됐다. 'AI4S'로 단순화된 AI for Science(과학 연구용 AI) 개념도 국내 과학자들의 관심을 끌었다. 그리고 해외.
11월 4일부터 6일까지 장진(Zhang Jin), 공싱가오(Gong Xingao), 탕차오(Tang Chao) 등 중국과학원 학자들과 AI 과학 연구 실무 경험이 있는 많은 전문가와 학자들이 2024년 과학지능서밋(2024 Scientific Intelligence Summit)을 베이징대학교에서 개최했다. 과학 연구 분야에서 AI의 현재 적용 사례, AI의 한계와 해결되지 않은 문제, AI for Science가 미래 과학 연구 패러다임에 미칠 수 있는 영향을 공유하고 논의했습니다.
AlphaFold의 성공은 긴 여정의 첫 번째 단계에 불과합니다. 기존 AI 프레임워크에는 여전히 한계가 있습니다.
현재 노벨 화학상 수상자인 허사비스(Hassabis)는 50년 된 문제를 해결하고 알려진 약 2억 개의 단백질의 복잡한 구조를 예측할 수 있는 알파폴드(AlphaFold) 인공지능 모델을 개발한 공로로 수상했다. 전 세계적으로 2백만 명이 넘는 사람들이 중국과학원 학자이자 북경대-청화대 생명과학 합동센터 소장인 Tang Chao는 알파폴드의 성공이 생명과학 분야에서의 성공과 동등하지 않다고 본다. 수천 마일에 달하는 긴 행군을요.”
중국과학원 원사이자 북경대-청화대 생명과학 합동센터 소장인 Tang Chao가 연설하고 있다/사진은 Beijing News Shell Finance 기자 Luo Yidan이 촬영
Tang Chao는 현재 생명 과학 분야의 대부분의 모델이 단일 세포 전사, RNA 서열, 단백질 구조 등과 같은 단일 양식으로 제한되어 있다고 소개했습니다. 그러나 생명 과학은 복잡하고 거대한 시스템입니다. 과학은 분자와 세포, 기관에서 시작하여 전반적인 생명의 다단계, 다차원 상호 작용 구성에 이르기까지 다양합니다.
"생명은 거시적에서 미시적까지 다양한 규모와 수준이 있는 복잡한 시스템입니다. 각 수준에는 서로 영향을 미치는 고유한 언어와 논리가 있습니다."라고 Tang Chao는 말했습니다. "전통적인 AI 프레임워크는 구조화된 데이터와 선형 데이터를 처리하는 데 효과적입니다. 시스템 데이터는 동적이며 다중 비트 대화형이므로 기존 AI 프레임워크는 고차원 비선형 생명과학 데이터를 처리할 때 명백한 한계를 보여줍니다.”
또한 단일 모달 AI 연구에도 좋은 데이터 기반이 필요합니다. 현재 일부 과학 연구 분야에서는 실험 데이터가 부족하고 실험 데이터의 표준화가 부족한 문제에 직면해 있습니다.
Tang Chao는 생명과학 데이터 시스템 구축이 늦게 시작되어 투자가 부족하고, 완전한 풀체인 생태계가 부족하며, 초기 단계에서 체계적인 전략 계획 및 공유 메커니즘이 부족하여 높은 영향력과 공유 메커니즘을 형성하기 어렵다고 말했습니다. 원고용 데이터 세트가 있으며 유럽과 미국에서는 데이터 활용률이 뒤떨어져 있습니다.
중국과학원 원사이자 당위 상무위원이자 북경대학교 부총장인 장진쩌(張金ze)는 재료 연구에 AI 활용을 소개하면서 현재의 데이터 수집 과정이 획일적이지 않고, 데이터가 획일적이지 않다고 언급했다. 서로 다른 장비, 환경, 운영자에 의해 얻어지는 결과는 매우 다릅니다. 또한 다양한 유형의 실험을 통해 생성된 데이터에는 이미지, 스펙트럼 데이터, 구조 데이터 등이 다양한 형식으로 포함됩니다.
Zhang Jin은 AI 모델링과 훈련에는 빅데이터의 지원이 필요하다고 말했습니다. "표준화는 데이터 공유, 재현성 및 과학적 지식 반복을 실현하는 기반입니다."
중국과학원 원사이자 당위원회 상무위원이자 북경대학교 부총장인 장진이 연설하고 있다. 사진: 베이징뉴스 쉘 파이낸스 기자 루오이단
Tang Chao의 견해에 따르면 생명과학 대형 모델 프레임워크 연구에서 시급히 해결해야 할 문제는 다음과 같습니다. 생명과학 데이터의 특성을 기반으로 시퀀스, 이미지 및 매트릭스 데이터의 인코더 설계를 최적화하고 융합을 위한 데이터를 조정합니다. 다양한 모달 데이터의 선택 및 사전 훈련 전략을 설정합니다. 실제로 "혁명적 변화"를 일으킬 수 있는 것은 생명 현상의 언어 논리, 자기 조직화, 계층적 출현, 피드백 메커니즘, 적응성 등에 대한 새로운 모델 아키텍처를 구축하는 방법입니다.
Tang Chao는 생명과학의 연구 과정이 종종 실험적 관찰 수행 - 현상을 설명하기 위한 모델 피팅 - 특성 요약 - 행동 예측 - 그런 다음 실험적 관찰 수행의 주기라고 소개했습니다. 그는 AI를 통해 모델 피팅이 완료될 수 있다고 믿습니다. 미래, "우리의 목표는 다중 모드, 교차 수준의 생명 과학 모델을 구축하고 궁극적으로 생명 과학의 새로운 법칙과 원리를 발견하는 것입니다."
AI는 연구 패러다임을 혁신합니다. 더 이상 광범위한 실험 보정을 통해 명확한 "설명 가능성"에 집착하지 않습니다.
'AI4S'는 아직 해결해야 할 문제가 많지만, 현재 AI는 위에서 언급한 노벨상 관련 AlphaFold 외에도 AI 기술과 같은 다양한 응용 분야에서 성과를 거두었습니다. 핵융합 토크막 장치의 플라즈마 형태를 제어하는 FraphCast는 향후 10일 동안의 세계 날씨를 예측하고 지표의 90%에서 인간 시스템의 HRES를 능가합니다.
또한 AI는 실험 연구 과정도 가속화합니다. Zhang Jin은 학생이 하루에 동일한 실험을 3세트 반복하는 것은 기본적으로 불가능하지만 자동화 플랫폼을 통해 하루에 150세트의 자동화된 실험을 수행할 수 있어 실험의 반복성이 크게 향상된다고 말했습니다. 고품질의 실험 데이터는 시뮬레이션 훈련의 핵심입니다.
중국 과학 기술 대학 석좌교수인 Jiang Jun은 자신과 그의 팀이 중국 과학 기술 대학의 로봇 화학자 플랫폼을 실험에 사용한 경험을 소개했습니다. 그의 비디오 프레젠테이션을 통해 Beijing News Shell Finance 기자는 이 장치를 발견했습니다. 전방향 이동 섀시와 지능형 기계를 갖춘 '이동 테이블'처럼 보이는 완전 자율 실험 작동 로봇 Arm.
중국 과학기술대학교 석좌 교수가 기계 실험 시스템을 소개하고 있습니다. 사진: 베이징 뉴스 Shell Finance 기자 Luo Yidan
Jiang Jun은 중국 과학 기술 대학의 기계 화학자 플랫폼을 "읽을 수 있고 계산할 수 있으며 부지런히 작업할 수 있다"고 소개했습니다. "기계 판독 시스템을 통해 자연어 처리 기능을 사용하여 논문, 특허를 분석합니다. , 교과서, 실험 전자 노트, 기계 컴퓨팅 시스템을 통한 물리적 모델/지능형 예측 수집, 실제 피드백 보정 획득.
그는 국내외 'AI4S'의 발전 추세가 대형 모델 + 로봇 + 생태학적 동맹이라고 소개했다. 예를 들어 영국 AI-Hub Alliance는 32억 위안을 들여 11,000제곱미터, 200명의 과학자와 지능형 혁신 공장을 건설했다. 100명의 엔지니어가 Unilever에 서비스를 제공하며 연간 R&D 자금의 60%를 차지합니다.
현장에 있던 많은 과학자들은 AI가 과학 연구를 새로운 단계로 끌어올렸다고 말했습니다.
중국과학원 학자이자 푸단대학교 교수인 공싱가오(Gong Xingao)는 물리학 연구의 패러다임은 실험물리학, 이론물리학, 계산물리학, 수리물리학의 네 단계로 나누어진다고 말했습니다. 현재는 데이터마이닝, 인공지능, 머신러닝을 도구로 활용해 디지털 물리학의 단계에 이르렀다.
장진의 관점에서는 AI 관련 분야의 노벨상 수상이 벤치마크다. 상자 예측이 수용되고 실험을 통해 지속적으로 보정되어 궁극적으로 보다 정확하고 포괄적인 이해로 이어집니다.”