專家熱議Al4S數據庫與知識庫:構建創新基座 促進建立開放共用數據生態-新華網
新華網 > > 正文
2023 08/12 17:31:22
來源:新華網

專家熱議Al4S數據庫與知識庫:構建創新基座 促進建立開放共用數據生態

字體:

  面向AI4S的高品質科學數據資源如何構建?建設過程中面臨哪些挑戰?關鍵技術有哪些?如何實現多模態數據統一管理與分析?體係化的科學數據開放共用生態又該如何建設?

  在8月11日召開的2023科學智能峰會“共建AI4S基礎設施--Al4S數據庫與知識庫”學術峰會上,多位專家學者共同探討AI for Science(簡稱:AI4S)基礎設施建設——AI4S時代下的數據庫與知識庫的建設。

  挑戰與機遇並存:AI4S賦能學科應用數據效率提升

  在科研場景中,科學數據和文獻是支撐各學科科研工作者研究決策的知識體係與寶庫。減少科研工作者花在搜尋、處理科學數據、文獻上的時間,是科研效率提升突破的機會。在面對科研問題時, AI的加入,模型、演算法能力的提升,為海量科學數據處理、文獻自動整理分類等方面帶來了革新,大大提升科研效率。

  中國科學院成都文獻情報中心研究館員胡正銀認為,科技文獻中蘊含大量可信、專業、規范的領域知識與科學數據,同時,科技文獻中蘊含大量的實驗參數、公示、圖表等科技文獻數據,可以為AI4S應用提供高品質數據支撐。將科研人員從繁重的文獻閱讀工作中解脫出來,也可以加速知識獲取和科研創新的進程。

  中國農業科學院農田灌溉研究所所長、國家農業科學數據中心主任周國民表示,AI4S的核心之一是數據,作為科研活動中最基本的産出之一,科學數據目前已成為推動提升科研效率的關鍵性力量。從“自用”到“自證”到“他用”的生態在逐步形成,科學數據已經貫穿于科研活動全過程。

  科學研究要求嚴謹性,需要依靠準確的知識體係作為支撐,除了科學文獻,科學數據也是科研關注重點。將文獻、科學數據等構建成知識庫或數據庫,利用大語言模型等技術,為不同領域的科研提效,也成為AI4S的重點研究方向。中國科學院電腦網絡信息中心副主任/研究員周園春認為,站在新科學革命起點,在推動科學研究模式從“小作坊”到“大平臺”轉變過程中,需要集中力量解決共性問題,從而更好構建AI4S創新基座,推動AI4S快速發展。通過在科研領域打造大模型,能夠為不同科研領域工作提質增效,讓科研人員更多時間和精力解決其領域關鍵問題和創新思考。

  持續發揮作用: AI4S促進建立開放共用的數據生態

  在探討機器學習的效果時,無法忽略的一點是高品質數據的重要性。科學數據包括觀測數據,實驗數據、記錄數據、調查數據、模擬數據等。每種類型的數據都有其獨特的應用領域和獲取方式,綜合利用這些數據對于科學研究有著重要的意義。

  利用機器學習技術從科技文獻中抽取關聯數據,建立多模態數據庫以綜合使用是發展趨勢。北京科技大學教授宿彥京談到,對于材料領域來説,將科學數據透明化,形成便捷的數據庫架構,在精準檢索的同時,滿足材料領域的科研需求。

  中國科學院動物研究所研究員李鑫談到,生成式模型為AI4S提供了更多機會,充分利用海量科學數據賦能大模型能夠産生更大效應。不僅可能顛覆生命科學領域基礎研究范式,還能促進産業轉化實現加速發展。

  之江實驗室高級工程師王晗表示,快速射電暴爆發的持續時間僅為幾個毫秒,相當于太陽在一整天內釋放的能量。世界上有很多射電望遠鏡能觀察到此現象,然而觀測設備的型號參數不一樣,會導致最後結果有偏差。從科研方面來講,標準的數據庫以及規范很有利于快速射電暴領域爆發源和原理的探索。

  高品質數據中心建設和發展:AI4S的支撐力

  在開放共用的視角下,中國科學院電腦網絡信息中心研究員杜一表示,近年來國內外對科學數據的重視程度提升。去年年底,中共中央、國務院發布《關于構建數據基礎制度更好發揮數據要素作用的意見》,提出堅持共用共用、強化優質供給、完善治理體係、深化開放合作等工作原則,對于科學數據的發展具有指導意義。

  2019年,為落實《科學數據管理辦法》和《國家科技資源共用服務平臺管理辦法》的要求,規范管理國家科技資源共用服務平臺,完善科技資源共用服務體係,推動科技資源向社會開放共用,科技部、財政部對原有國家平臺開展了優化調整工作,通過部門推薦和專家咨詢,經研究共形成“國家空間科學中心”等20個國家科學數據中心。

  在建設和發展這些國家科學數據中心的過程中, AI4S在其中扮演了怎樣的角色?如何更好充分發揮AI4S的技術優勢,從而為打造高品質國家科學中心助力?

  對于國家空間科學中心的建設與發展,國家空間科學數據中心主任、中國科學院國家空間科學中心研究員鄒自明談到,AI賦能空間科學過程中,對高品質數據提出更高要求,發展AI-ready的科學數據需在數據處理、資訊挖掘、知識發現和預測應用方面發力。國家空間科學數據中心針對AI for Space Science,依托日地空間天氣“STAR-E”、行星科學“PSAR-E”和高能天文“HEAR-E”三個“E環境”的開放研究范式,擬進一步打造平臺型、服務型、開放型、研究型的科學數據中心,支撐科學數據驅動下的人機協同研究、自主學習進化、復雜係統涌現、全域追蹤預測等流程。

  對于國家微生物科學數據中心的建設與發展,國家微生物科學數據中心主任、中國科學院微生物研究所研究員馬俊才表示, AI4S不是單一維度的數據資訊孤島,而是領域性數據融合、數據整合,因此需要微生物資源、文獻、專利、功能、組學等數據有效融合整合,為AI4S工作打好基礎,讓微生物全生命周期的數據發揮其真正價值。

  對于國家冰川凍土沙漠科學數據中心的建設和發展,國家冰川凍土沙漠科學數據中心主任、中國科學院西北生態環境資源研究院研究員張耀南談到,冰凍圈科學數據包括野外觀測、調查考察、數值模擬、測試分析、遙感反演、統計分析等類別的數據。為更有效支援AI應用,同時構建數據集存儲環境,通過原始數據和AI樣本數據、AI數據集管理建立支援係統。除了數據集管理和重組之外,還要建立“AI數據集+AI演算法+智能計算”應用平臺開展工作。

  近年來,隨著科學數據的重要性得到廣泛認可,數據的數量和品質都有明顯提升。AI4S的發展需要數據、演算法、計算資源等多方面的配合,未來在面對數據相關的挑戰時,仍需要關注數據的品質與利用等問題。

  8月10日-11日,2023科學智能峰會在北京舉行。作為中關村論壇係列活動,2023科學智能峰會由北京科學智能研究院主辦,旨在搭建AI for Science領域科研突破、技術培育、人才交流的共建共創平臺。峰會設置1場主論壇和10場主題學術峰會,議題覆蓋模型演算法、數據庫、能源材料、算力引擎等。在會上,與會院士、專家、企業代表分享先進理念與前沿見解,展示研究成果、創新技術,展望AI for Science未來發展趨勢。

【糾錯】 【責任編輯:冉曉寧】