加快工業高質量數據集建設-新華網
新華網 > > 正文
2025 06/17 08:38:17
來源:人民郵電報

加快工業高質量數據集建設

字體:

  2024年中央經濟工作會議指出,開展“人工智能+”行動,以科技創新引領新質生産力發展。高質量數據集是通過系統性篩選、清洗、標注、增強合成、質量評估等環節形成的標準化數據産品,具有格式統一、質量可控、場景適配性強等特點,是驅動人工智能模型訓練、科學研究、數據挖掘及檢驗檢測的核心要素。工業是我國經濟發展的核心支柱,同時也是保障國家戰略安全的主陣地,加快開展工業領域高質量數據集建設,是支撐“人工智能+”在工業場景落地,推動人工智能賦能新型工業化,提高我國工業國際競爭力的新時代護城河。

  創新發展理念,破解工業高質量數據集建設密碼

  隨着基礎大模型性能的持續突破,高質量數據集建設已成為人工智能賦能新型工業化的重要抓手,成為工業企業降本增效、重塑企業競爭力的戰略選擇,急需創新發展理念,推動工業數據從“規模紅利”向“質量紅利”和“數據紅利”轉變。

  一是轉變發展思路,加快推動向以數據為中心轉型。工業領域是人工智能應用的重要場景,全球都在加速布局。例如,NVIDIA推出了Omniverse&&,通過構建工業數字孿生數據引擎打造高質量數據集;西門子與微軟聯合推出了工業元宇宙計劃,構建覆蓋工業全生命周期的數據集。這些案例表明,以數據為中心的發展模式正成為工業人工智能的關鍵。通過深度挖掘場景需求,融合先進技術,構建高質量、生態化的數據集,能夠有效提升工業智能水平。因此,我國應加快推動向以數據為中心轉型,創新發展路徑,以提升工業人工智能的核心競爭力。

  二是發揮雙重優勢,塑造高質量數據集建設新優勢。我國作為全球工業大國,形成了世界上最為完整的工業體系,數據資源和應用場景極為豐富,開展工業高質量數據集的開發利用價值巨大。我國需充分發揮海量工業數據規模和工業場景多樣性優勢,聚焦研發設計、生産製造、運維服務、經營管理等關鍵環節,構建具有國際競爭力的差異化數據集體系,為我國在全球工業智能化浪潮中搶佔先機、推動高質量數據集建設奠定良好基礎。

  三是堅持場景牽引,打通高質量數據集構建新路徑。場景是釋放數據要素價值的前提,更是數據要素價值釋放的核心載體。當前,多模態大模型、推理大模型、函數召回大模型等産品不斷突破,正在重構“場景—數據—模型”的共生關係。以場景需求為錨點,將工業機理與數據要素深度融合,是破解模型精度不足、場景賦能不深、數據利用率低等問題的關鍵路徑。

  加大創新力度,打造高質量數據集建設核心引擎

  創新是人工智能産業高質量發展的核心引擎,也是突破工業數據集建設瓶頸的關鍵抓手。圍繞核心技術攻關、標準體系完善和創新載體打造三方面重點發力,為人工智能深度賦能新型工業化築牢高質量數據集根基。

  一是加快核心技術攻關,突破工業數據集構建與融合應用瓶頸。以國際前沿人工智能需求為導向,開展工業領域高質量數據集的關鍵技術攻關,加強工業深度思維鏈數據集打造、多源異構數據融合決策、長尾場景樣本合成、智能數據標注、數據集質量評估和提升等關鍵技術研發,加快研製先進自主可控的高質量數據集工具鏈,實現數據、模型、工具、系統和製造業場景等要素的融合,對於推進工業領域高質量數據集打造具有重要意義。例如,針對工業高價值長尾場景,要加快建立高精度工業數據合成技術體系,通過融合“生成式人工智能—工業第一性原理—工業倣真引擎”,三位一體合成稀缺工況數據,突破工業長尾場景數據瓶頸。

  二是加強標準體系完善,構建工業數據集質量與安全雙軌標準。圍繞高質量數據集全生命周期,結合工業企業業務實際,鼓勵從質量評估、安全合規兩方面協同推進工業數據集標準研製,覆蓋數據集質量評估、數據集分層分類分級、數據集安全保障等工業領域數據集開發利用關鍵問題,開展工業領域數據集質量評估和提升行動,推動模型企業、數據企業和工業企業協同發展。

  三是加速打造創新載體,構建産學研用協同的數據集生態體系。支持工業企業聯合模型企業、科研機構、高等院校等主體聯合建立打造高水平創新載體,建設工業數據和模型技術“測試場”,以生産環境驗證數據和模型技術方案。推動産學研用協同,培養具有工業背景的高水平數據人才,加快科技成果轉化和應用落地,鼓勵有條件的工業企業支持和參與開源生態建設,推動工業數據集開放共享。

  工業高質量數據集是人工智能賦能新型工業化的戰略基石,在當前國際人工智能激烈角逐的背景下,我國亟須加快工業高質量數據集建設,為我國突破關鍵領域“卡脖子”困局,築牢産業鏈安全根基,促進工業實現降本增效,搶佔全球智能製造高地。(作者:國家工業信息安全發展研究中心主任 蔣艷)

  (文章摘自:國家數據局官網)

【糾錯】 【責任編輯:朱家齊】