科學數據在數據與智能驅動的科研範式變革加速演進中愈發凸顯出基礎性和戰略性,對我國實現高水平科技自立自強、增強國際競爭話語權和發展新質生産力具有重要意義。當前,我國科學數據體系建設仍存在管理碎片化等諸多問題,亟待統籌謀劃,建立完善的科學數據管理體系,對政策、標準、技術、&&、服務、應用進行全鏈條統籌整合。
科學數據體系建設意義重大
科學數據又稱為研究數據或者科研數據,是由研究人員在科技創新活動中創建和收集的證據,並在應用和傳播過程中實現增值。從科學數據屬性上來看,科學數據與個人數據、公共數據、産業(行業)數據、企業數據、政務數據等其他類型的數據相比,既有獨特性,也存在交叉性。特別是隨着科研範式變革以及科技創新和産業創新的深度融合,科學數據與産業(行業)數據的邊界日益模糊,科學數據與個人行為數據的關係日益緊密,科學數據本身亦有公共數據屬性,但又是具有科研特性的公共數據。當前加快科學數據體系建設、構建科學數據的全生命周期治理框架具有極為重要的意義。
第一,助力人工智能賦能科學研究,重塑科學發現範式。當前人工智能與跨學科研究需要高質量、高價值密度數據,要求打破數據邊界,促進流動互通。科學數據體系為人工智能大模型提供了系統化、標準化、可訪問的訓練“燃料”,是驅動人工智能在材料設計、藥物篩選等科學研究中發揮作用的基礎,從而加速新規律發現和重大科學問題突破。
第二,捍衛大國博弈中數據主權,保障國家安全。科學數據成為戰略資源,建設自主可控的科學數據體系,確保關鍵領域科學數據獲取、存儲、處理的自主可控,可以提供重要的替代支撐,對國家安全至關重要。
第三,支撐我國科技強國建設,實現高水平科技自立自強。通過科學數據公共&&建設,可以使有限的科研經費更集中於原創性研究和關鍵技術攻關,整體提升國家科技投入産出效率。高質量的科學數據體系還能吸引全球頂尖科技人才,加速科技成果轉化,為培育新質生産力提供強大的數據驅動力。
我國科學數據體系建設存在的問題
雖然我國科學數據治理能力顯著提升,但在科學數據體系建設方面還存在缺乏系統規劃、管理碎片化、缺乏高質量數據庫、資源投入不足等問題。
第一,缺乏國家層面系統規劃,跨部門統籌協調困難。已&&政策缺乏統一管理框架,出現多頭管理、跨部門統籌協調困難的情況。由於缺乏跨部門協調機構,數據持有部門出於數據控制權、數據安全、知識産權等風險規避考慮,出現“不願共享”“不敢共享”“不能共享”的局面。
第二,科學數據管理碎片化,生命周期關鍵環節存在問題。在數據匯交環節,科研主責單位匯交數據的主動性不足,部分匯交數據質量不高,缺乏可持續匯交機制。在數據共享環節,大量科學數據依然分佈於個體科研人員手中,數據持有者由於權屬不清、收益無保障、安全顧慮等原因,不願意共享。在數據應用環節,對人工智能賦能科學研究等最新應用場景響應不及時,尚未構建新興學科數據庫。在標準體系方面,跨學科跨領域數據標準不統一,強制性標準缺乏,難以整合利用。
第三,缺乏高質量數據庫,基礎軟體過度依賴國外。2024年全球科學數據存儲庫註冊&&統計顯示,現有註冊數據庫3300個,中國牽頭建設的僅有63個,且普遍存在數據不完整、更新不及時以及質量參差不齊的問題。與此同時,嚴重依賴國外開源或商業軟體,如GEE、Pytorch、Neo4j、DOI科技資源標識等系統,其中科技資源標識服務已發生數起斷供事件,嚴重影響我國資源全球訪問。
第四,資源投入不足,激勵與保障機制缺位。我國科學數據建設未能與科研儀器享有同等重要地位,缺乏科技專項支持。缺乏激勵與保障機制,科學數據未被納入科技成果評價體系,經濟收益激勵不足,從事數據工作的科研人員職稱評價難,導致相關人員流失嚴重。
統籌部署加快科學數據體系建設
科學數據體系化工作的當務之急是跳出部門利益局限和“打補丁”思維,以科技強國建設為目標,通過頂層設計、制度創新、&&建設、場景驅動,實現科學數據的自立自強。
第一,加強頂層設計,重新定義“科學數據”,統籌調度各部門資源。推進《科學數據管理辦法》修訂工作,重新定義“科學數據”及其邊界,細化與豐富科學數據屬性,使其適應新時代要求。錨定科技強國建設目標,明確科學數據作為“科技基礎設施”的戰略定位。加強部門統籌協同,通過設立國家級重大科技項目,在項目框架內賦予首席科學家對科學數據的調度權,推動科學數據共享。
第二,探索制度創新,推動權屬界定,完善科研人員激勵評價政策。改變科研人員“重論文、輕數據”的傳統觀念,將科學數據納入科技成果範疇,接受數據作為獨立成果的價值。推動數據成果化,借鑒知識産權模式,鼓勵數據加工産品進入市場。改革考核評價機制,在機構評估中,將數據資源建設、管理能力、開放共享成效納入科研機構、高校等的評估體系。在科研人員的職稱評定、人才計劃評選、績效考核中,將高質量科學數據集的創建、維護、共享及其産生的廣泛影響力作為重要依據。建立數據工程師職稱通道,鼓勵科研人員參與數據治理。
第三,構建&&體系,加大資源投入與整合,完善標準標識建設。優化科學數據&&體系,構建“國家科學數據總中心—省級節點—領域中心”的“1+M+N”科學數據分層治理體系。國家級科學數據中心聚焦基礎學科和“卡脖子”領域,覆蓋中西部地區的省域科學數據中心聚焦應用學科領域,高校、企業等機構建設的科學數據&&也逐漸接入元數據框架。逐漸打通科學數據中心、國家實驗室、重大科技項目、學術期刊、企業機構“五類主體”的科學數據鏈,形成分層次的科學數據體系。國家和地方設立專項課題,資助科學數據的加工與應用,保障科學數據的全生命周期管理。由國家科學數據中心統一提供標識服務、安全掃描、引用追蹤等公共服務。
第四,強化場景驅動,拓展數據應用,支撐科技創新與産業創新融合。設立“數據—算法”聯合專項,支持基於高質量科學數據與先進算法融合的基礎理論研究和範式創新。鼓勵企業結合自身特點,使用國家科學數據開發垂直模型,探索定制化的數據應用解決方案。鼓勵基於開放數據的二次研究、産品開發和服務創新。推動科學數據在各行業深度應用,建立産業融合示範區。
(作者:楊晶 係中國科學技術發展戰略研究院副研究員)




