今年,諾貝爾物理學獎和化學獎都頒給了AI相關領域,被簡化為「AI4S」的AI for Science(AI用於科學研究)理念也受到了國內外科學家的重點關注。
11月4日至6日,2024科學智能高峰會在北京大學召開,張錦、龔新高、湯超等中國科學院院士,以及多位有著AI科研實踐經驗的專家學者現場分享並探討了AI目前在科研上的具體應用、AI在科學研究領域的限制與待解決問題,以及AI for Science在未來可能對科學研究典範帶來的影響。
AlphaFold的成功只是「萬裡長徵第一步」 傳統AI框架仍有局限性
本屆諾貝爾化學獎得主哈薩比斯之所以獲獎,在於其開發了AlphaFold人工智慧模型,這種模型解決了一個已有50年歷史的難題,能夠預測大約兩億種已知蛋白質的複雜結構,並且已經被全球200多萬人使用。而在中國科學院院士、北京大學-清華大學生命科學聯合中心主任湯超看來,AlphaFold的成功並不等於大生命科學領域的成功,這只是「萬裡長徵的第一步」。
中國科學院院士、北京大學-清華大學生命科學聯合中心主任湯超正在演講新京報貝殼財經記者羅亦丹/攝
湯超介紹,目前生命科學領域的大部分模型僅限於單一模態,如單細胞轉錄、RNA序列、蛋白質結構等,但生命科學是一個複雜而龐大的系統,生命科學的本質是從分子、細胞、器官到整體生命的多層次、多維度互動構成。
「生命是由宏觀到微觀多尺度多層次的複雜系統,每個層次都有自己的語言和邏輯,相互影響。」湯超說,「傳統AI框架處理結構化、線性資料表現優異,但生命系統的數據具有動態性與多位交互複雜性,因此處理高緯度、非線性的生命科學數據時傳統AI框架就表現出了明顯的局限性。
此外,即便是單一模態的AI研究,也需要良好的資料基礎,而目前一些科學研究領域面臨實驗數據不足以及實驗數據標準化不夠的問題。
湯超表示,生命科學數據體系建設起步晚、投入不足,缺乏完整的全鏈條生態系統,前期缺乏系統化戰略規劃與共享機制,難以形成具有高影響力和稿子裡的數據集,數據利用率落後於歐美。
中國科學院院士、北京大學黨委常委、副校長張錦則在介紹使用AI進行材料研究時提到,目前資料收集過程不統一,不同設備、環境、操作人員得到的數據有很大差異。此外,不同類型的實驗產生的數據包括影像、光譜資料、結構資料等,格式不同。
而AI的建模、訓練都需要大數據的支持,張錦表示,“標準化是實現數據共享、再現性和科學知識迭代的基礎。”
中國科學院院士、北京大學黨委常委、副校長張錦正在演講新京報貝殼財經記者羅亦丹/攝
在湯超看來,生命科學大模型架構研究亟待解決的問題包括:針對生命科學資料的特性,最佳化序列、影像和矩陣資料的編碼器設計;針對不同模態資料的融合,調整模組架構、數據集選擇及預訓練策略。而真正能夠引起「革命性變化」是如何針對生命現象的語言邏輯、自組織、層級湧現、回饋機制、適應性等建構全新的模型架構。
湯超介紹,生命科學的研究流程往往是:進行實驗觀測-模型擬合以解釋現象-總結性質-預測行為-再進行實驗觀測的循環,他認為未來模型擬合或可以通過AI完成,“我們的目標是建構多模態、跨層次的生命科學大模型,最終希望能夠發現生命科學的新規律、新原理。
AI革新研究範式:透過大量實驗校準不再執著於明確的“可解釋性”
雖然「AI4S」仍然存在不少需要解決的問題,但目前,AI已經在許多不同的科研領域均取得了成就,具體應用除了上文中提到過與諾獎相關的AlphaFold外,還包括諸如DeepMind利用AI技術在核融合-托克馬克裝置中控制等離子體形狀,FraphCast預測未來十天全球天氣並在90%的指標上超越了人類系統HRES等。
此外,AI也加速了實驗研究的進程。張錦介紹,讓一名同學一天重複3組一樣的實驗基本上不可能,但透過自動化平台做自動化實驗一天可以做150組,大大提高了實驗的重複性,而高品質的實驗數據是模擬訓練的基礎。
中國科學技術大學講席教授江俊就介紹了其以及其團隊使用中科大機器化學家平台做實驗的經歷,透過他的影片展示,新京報貝殼財經記者註意到了這個有著全向移動底盤和智能械臂,長相酷似一個「會動的桌子」的全自主實驗操作機器人。
中國科技大學講席教授江俊介紹機器實驗系統新京報貝殼財經記者羅亦丹/攝
江俊以「能讀、會算、勤做」介紹中科大機器化學家平台,「透過機器閱讀系統,以自然語言處理能力分析論文、專利、教科書、實驗電子記錄本、現場採集中性的數據;透過機器計算系統進行物理模型/智慧預測;透過機器實驗系統做實驗,以獲得真實世界回饋校準。
他介紹,國內外「AI4S」的發展趨勢為大模型+機器人+生態聯盟,如英國的AI-Hub聯盟以32億元打造智慧創新工廠,擁有1.1萬平米,200名科學家和100名工程師,其為聯合利華服務,佔其60%年度研發經費。
多位科學家在現場都表示,AI讓科學研究進入了一個新的階段。
中國科學院院士、復旦大學教授龔新高表示,物理研究的典範分為四個階段:實驗物理、理論物理、計算物理、數智物理。而目前已經到了以資料探勘、人工智慧、機器學習為工具的數智物理階段。
在張錦來看,本次諾貝爾獎頒給了AI相關領域有著風向標的意味:「物理、化學等追求嚴謹的科學將變得更加開放。我們不再執著於明確的'可解釋性',而是允許接受黑箱式的預測,並透過實驗不斷校準,最終獲得更精準且全面的理解。