AI工程師們正跨界“攻城略地”,進入科研領域,進一步印證科研範式的變革浪潮已經開啟。
今年,兩位人工智能專家被授予諾貝爾物理學獎,兩位人工智能領域的從業者被授予諾貝爾化學獎。作為AI領域的一名青年科學家,北京科學智能研究院院長、深勢科技創始人兼首席科學家張林峰&&,今年的諾貝爾物理學獎和化學獎都頒發給了AI在科研領域應用的先驅,這對深勢科技和AI for Science(AI4S)來説是極大的鼓舞和激勵。
AI技術獲垂青 折射科研範式新的變革
2016年,人工智能圍棋程序AlphaGo無師自通,打敗韓國傳奇棋手李世石,一舉開啟了AI的第三次浪潮。
在張林峰看來,這一輪AI能夠突破的方向具備三個要素:一是具有明確清晰的問題定義,可轉化為AI的數據,即有明確清晰的目標函數和損失函數。二是存在巨大的搜索空間,需要用神經網絡去刻畫一個非常高維的搜索空間或者高維的函數空間。三是有巨量的數據或者非常準確的收集。憑藉AlphaFold而獲得諾貝爾化學獎的兩位科學家,就是把握住了作為科學應用裏面可能最適合這些方向的一個選題。
預測蛋白質複雜結構是一項難題,首當其衝就是如何從蛋白質序列到蛋白結構的建模問題。從實驗積累來看,序列相對容易測,因為人類已經掌握20多億的序列數據。而結構數據則相對困難,早期是通過X射線晶體學、後來是冷凍電子顯微鏡確定蛋白質結構。如今,人類已經積累20萬個結構數據。
“基於20億個序列,深度挖掘序列背後的規律,同時利用已經知道答案的這20萬個結構,用訓練出來的模型,就能比較有效地把至少已經實驗解好的蛋白覆蓋更廣闊的空間,做出準確預測。”張林峰説。
AI成為加速蛋白質研究飛躍的必不可少的工具,正是因為這種科研範式的轉變,讓蛋白質結構預測迅速産生突破。
與此不同的是,今年諾貝爾物理學獎的成果為化學獎得主的工作提供了支持。“在某種程度上説,物理學獎不絕對是AI for Science,更像是Science for AI,物理系統 啟發的AI研究或許是物理學諾獎的特點。”張林峰相信,人工智能神經網絡、機器學習的基礎性發現可以為更多關鍵領域的研究提供基礎的養料,對化學來説,AI是應用研究的那個工具。
不難發現,科學研究的範式正在從過去推導因果關係,進化到研究因果關係不明的複雜系統,折射出科研範式的變革已經發生。
簡單系統是因為遵循了簡單的規則,於是很簡單、簡潔。但複雜系統各有各的複雜之處。張林峰認為,如果想從複雜系統中真正有效地做出成績的話,需要在不同的邊界條件下對其進行洞察。“對AI系統來説,邊界條件就是數據、算力、模型的情況。在這些不同條件下,其實它能夠産生的涌現、能産生的突破是不一樣。”
複雜系統雖然看似複雜,但背後其實是大量單一因素放大後産生的效果。“很難説是我們對複雜系統本身有了深刻的洞見,但至少在AI for Science的科研範式之下,我們對一些數據相對充足的科學問題的認識更加深刻,産生了量級式的突破。”在張林峰看來,之所以能産生AlphaFold這樣的突破,來自於科學家們對AI for Science概念的提出,也來自國內外不斷推動AI for Science從概念走向實踐並不斷加深認識。
從點的突破到走向統一 更多問題等待AI解決
時間回到2016年,那時的AI帶給人類的本質能力就是建模高維複雜的函數處理大規模數據的能力。在這個時間節點,張林峰選擇了一條更貼近AI本質能力的研究之路。
他認為,AI可以推動兩種類型的應用:一種是數據準備充分,問題也很清晰,另外一種就自己早期所投身的一系列研究工作,即存在清晰的原理、物理規律和方程式,但過去在計算系統上挖掘物理規律的能力不夠。“這個問題裏面,其實最本質的需求是對複雜高維函數的建模。過去,因為沒有AI這樣的深度神經網絡,只能憑經驗去看誰跟誰有什麼關係,而這樣的一种經驗性描述,往往很難具備普適性。”張林峰説。
正是抓住了這個關鍵的問題點,張林峰由此切入,從電子尺度的薛定諤方程、密度泛函理論到原子的分子動力學,在微尺度的研究上不斷取得新突破。2020年,由他帶領的團隊,獲得高性能計算領域最高獎戈登·貝爾獎,相關工作還獲選2020年中國十大科技進展及2020年全球人工智能十大科技進展。張林峰的這項工作,在全球範圍內將機器學習、物理模型、高性能計算結合起來推向新的極致。
不難看出,在AI早期兩個鮮明的應用路線中,張林峰沒有選擇“低垂的果實”,但同樣也取得了成功。
當然,這兩條路線的成功並非是絕對的,也並非是平行的,而是交叉融合、相互存進。通過AI對物理規律深度挖掘,後續也吸引了許多追隨者,開展了相應的研究工作。同樣,AlphaFold取得初步突破後,張林峰帶領團隊很快復現了AlphaFold的全部工作,並在多方面進行拓展,而且開源了訓練代碼,深勢科技成為首家復現並開源訓練代碼的公司。“國內外其實是在一個最前沿的方向上,邊探索、邊競爭,而且相關工作的探索研究才剛剛開始。”張林峰説。
業內有個普遍共識,AI的發展越來越走向統一。對於AI for science的發展來説,也進入了一個新的階段,要解決的問題不是更少而是更多了。
從2017年Transformer大一統模型的出現,到2018年GPT-1第一代生成式預訓練模型發布,再到2020年以來GPT語言模型不斷迭代突破,一系列進展的深遠影響在於,讓過去在各個點上的探索變得統一起來。而這樣的統一,首先是語言世界,然後是多模態的具身智能持續突破,特別是ChatGPT的出現,標誌着AI進入新的發展階段。
張林峰&&,“對於AI for Science來説,有了前面的幾個鮮明的技術路線之後,反過來看,很多的科學問題反而變得不明確了。比如,對於物理規律來説,清晰的問題解決完之後,更多的新問題被打開。要進一步解決這些新問題,需要開啟新的一系列的探索。”
如果説AlphaFold是在數據可及的情況下解決了蛋白質結構預測這樣一個點的問題,那麼在AI for Science的大圖景上,要解決的則是一個由點及面的一系列更多的問題。
科研的安卓模式 “四梁N柱”立體産品矩陣
從國家大政方針到産業界、學術界,AI for Science已經受到足夠重視,下一步其實面臨着怎樣搭建一個系統的AI for Science基礎設施的問題。
如同Transformer、GPT之於語言世界、數字世界一樣,在科學應用發現的廣闊的空間裏,AI for Science一系列基礎性建設非常重要,也取得一定成果。
從2016年起,中國科學院院士、北京大學國際機器學習研究中心主任鄂維南就開始推動AI for Science。兩年後,由鄂維南等人在北京大學策劃組織的討論會中,AI for Science這一概念首次被明確提出。在2023年科學智能峰會上,鄂維南提出共建AI for Science“四梁N柱”基礎設施。他認為,發展AI for Science,推動走向“&&科研”模式,需要解決不同科研領域的共性問題,共建AI for Science基礎設施,即“四梁”。以基礎設施為支撐,也在賦能工業應用的實際場景,即“N柱”,將在材料科學、能源化工、航空航天、藥物研發等方向上帶來巨大變革。
據張林峰介紹,AI for Science 的總體任務是打造四大&&,支撐N個行業的工業研發發展。四大&&包括基本原理與數據驅動的算法模型與軟體、高精度高效率的實驗表徵方法、替代文獻的數據庫與知識庫、高度整合的算力&&系統。
當AI for Science變成一種新的科研範式,科研從過去的小農作坊式到&&化持續創新,針對底層創新的加速落地成為必須要做的一件事情。如果説以前充分挖掘數據規律是張林峰的一項關鍵工作的話,那麼當下,對他們來説,最關鍵的工作是如何與有效的實驗系統的聯動。
順承着“四梁N柱”的&&架構以及多年來積累的堅實底層技術能力,今年4月,深勢科技發布了“深勢·宇知”大模型體系,其中最核心部分就是面向微觀世界的獨特模態打造的一系列AI for Science大模型;以及面向科學文獻的處理,打造的Uni-SMART大模型,面向實驗表徵信號的增強以及反演的增強,打造的表徵相關的工作等。目前,這些大模型正在開枝散葉,進一步演化為下游工業場景中每個人觸手可得的産品。
張林峰認為,現在的關鍵是要把基於“四梁”的&&化科研體系統做好,有了這些支撐和當下AI智能體的架構,未來的科學研究可能更多都是在雲上完成,與在雲上做計算類似。
在AI for Science不斷發展過程中,深勢科技不斷加強計算系統和實驗系統深度耦合,推動實現教學研究一體化的素質教育&&。
張林峰介紹説,從教學到科研,推動AI for Science的安卓模式,APP就是圍繞“四梁”,既包括模型直接處理數據的APP,也有去控制實驗或者説解析實驗結果的實驗APP,也有文獻相關的APP。這些APP,既有自身開發的APP,也有生態夥伴、各個課題組自己的成果轉化的APP。所以這是一個覆蓋從教學到應用過程的&&升級。
回顧過去,人類有過不少科研範式變革的機會。對於AI for Science,中國的認識並不晚,也非常重視。去年,科技部會同自然科學基金委啟動“人工智能驅動的科學研究”(AI for Science)專項部署工作,我國科研範式變革和科研能力提升加速推進。
張林峰&&,作為一種新的科研基礎設施,在其構建過程中,中國擁有先發機會,有很好的系統統籌能力,也擁有足夠豐富的實體經濟的應用場景。深勢科技將持續深耕AI for Science,並加快將研究轉化為落地應用,切實賦能産業革新,成為促進國民經濟發展的新質生産力。(記者 凌紀偉)