9月6日,中國工業互聯網研究院院長魯春叢在2025全球工業互聯網大會開幕式上發布《工業高質量數據集研究報告》,對工業高質量數據集的理論體系、建設路徑、評估體系、流通應用進行總結歸納。
數據作為新型生産要素,是實體經濟數智化進程中的基礎資源,是培育壯大智能産業的關鍵驅動力量。我國是工業大國,門類齊全、體系完整、場景豐富,近年來,企業數字化轉型進程加速推進,為工業數據的匯聚與應用奠定了良好基礎。工業高質量數據集是從研發、生産、供應、銷售、服務等全生命周期各環節産生和採集,經過清洗、標注等專業化處理,用於分析、建模、訓練的數據集合。加快建設工業高質量數據集,是將我國龐大的數據資源優勢和完備的産業體系優勢,轉化為賦能新型工業化核心競爭力的關鍵舉措。
當前,人工智能對産業變革的賦能正從試驗探索邁向實際應用。以工業智能體為例,部分頭部工業企業已經在産線質檢、車間注塑、工廠運營等環節廣泛部署智能體應用,極大提升了生産製造效率,而高質量數據集正是實現這一切的重要前提。可以説,“沒有工業數據,就沒有工業智能;沒有工業高質量數據集,就沒有高水平工業智能”。許多智能化改造項目中,數據工程的投入佔比高達50%~60%,這説明數據要素報酬遞增、低成本復用的特點已成為業界的廣泛共識。我們認為,應按照“分類分級、標準引導、集中管理、分佈部署”的思路,加快建設工業高質量數據集,為人工智能賦能新型工業化夯實數據根基。
一、工業高質量數據集的理論體系
建設工業高質量數據集,需要一套科學、系統的理論體系作為指引。核心在於把握工業數據集的多元、分級、融合三大特徵,推動工業數據在“更廣範圍”“更深程度”和“更高水平”上實現價值創造。
(一)把握工業數據集的多元特徵。工業數據的複雜性與多元化,集中體現在工業行業繁多、業務環節複雜、數據模態多樣等方面,要求數據集建設要在“更廣範圍”上拓展邊界。工業門類多元,我國工業門類齊全,涵蓋41個工業大類、207個中類、666個小類,不同行業的數據蘊含着獨特的工藝機理與知識。數據集建設在深耕本行業專業性的同時,也為跨領域知識遷移與價值創造提供可能。業務環節多元,工業數據貫穿研發設計、生産製造、運維服務等産品全生命周期,並縱向延伸至産業鏈上下游。數據集建設需要打通過去散落在不同業務系統的“數據孤島”,實現業務協同。數據模態多元,工業現場存在大量結構化與非結構化、時序與非時序等形態屬性交織的原始數據。數據集建設要具備強大的異構數據融合和處理能力,形成貼合場景的高價值數據,構建完整的數字畫像,實現深度賦能。
(二)把握工業數據集的分級特徵。工業場景存在從“設備、産線、工廠、企業”到“産業生態”的多重層級。不同層級的數據,其融合程度與決策價值各不相同,尤其當數據應用需要打通産業鏈上下游、實現跨主體協同時,會面臨數據共享意願低、權屬不清、信任缺失等現實挑戰。這要求數據集建設需遵循分級分類的原則,在“更深程度”上逐級深化。基礎層(設備與産線級),從業務執行的最小單元出發,匯聚設備運行、工藝參數等高質量數據,實現故障診斷、能耗優化等局部效率提升,為數字化轉型奠定堅實的數據基石。核心層(工廠與企業級),聚合生産計劃、成本投入、經營管理等數據,驅動生産調度、資源配置等核心業務流程的系統性優化,提升企業整體運營水平。生態層(産業生態級),通過聚合跨主體、跨領域的數據,賦能供應鏈柔性與韌性、産品全生命周期綠色低碳、産業風險監測預警等應用,創造生態協同的增量價值。這種分級推進的數據集開發與利用路徑,為企業在不同發展階段深化數據應用、獲取數據價值提供了清晰的指引。
(三)把握工業數據集的融合特徵。工業數據必須與工業機理、專家知識、先進算法深度融合,才能發揮應用價值。這決定了數據集建設要從單純的數據積累轉向“知識資産”的沉澱,在“更高水平”上融合應用。面向“工業生産控制”,實現實時的工藝優化、閉環控制與異常處置,其所需的數據集具有高頻、實時、參數聚焦的特點。這種融合將數據與控制算法結合,使物理設備和生産過程變得更加智能、更具智慧,提升整體運行效率。面向“工業知識傳承”,將專家的隱性知識進行顯性化、模型化與軟體化復用,加速信息技術(IT)、通信技術(CT)、控制技術(OT)和數字技術(DT)的“4T融合”。工業知識所需的數據集呈現出多模態、大跨度、知識密集的特點,不僅包含運行數據,還需融合設計圖紙、工藝文件、操作規程、維修記錄等非結構文本與圖像數據。這種融合將數據與行業知識結合,使組織和個人的經驗得以傳承和放大。
二、工業高質量數據集的建設路徑
中國工業互聯網研究院聯合行業龍頭與“專精特新”企業,在實踐中探索出一套從需求規劃到應用驗證全鏈條的工業高質量數據集建設方法論,通過系統化工程,將分散無序的原始數據重塑為驅動業務增長的“戰略資産”。
一是需求規劃。需求規劃是數據集建設的首要環節,核心任務是從複雜的業務問題中,精準識別並錨定能産生最大回報的核心價值場景,明確所需的數據類型、來源和規模,以制定出具備前瞻性和可執行性的技術方案。如,某鋼鐵企業在中厚板生産中,面臨傳統機理模型預測精度不足(僅84%)、非穩態工況下失準率高(20%)的痛點。通過需求規劃,將目標設定為研發“融合冶金知識的自主高精度軋製力預測模型”,提出構建覆蓋全工序鏈的高質量數據集。通過對技術方案和預期效益的綜合研判,預計該數據集完成後,可將軋製力預測準確率提升至95%以上,非計劃停機率降低3%,板材成材率提升0.2%。
二是數據採集。數據採集是確保數據集質量的源頭環節。該環節依據需求規劃,運用機器視覺、傳感器、工業總線、MES系統等多重手段,系統性地獲取“高保真、高信噪比”的原始數據。數據採集的廣度、精度和同步性,直接影響後續分析與建模的質量。如,某企業在構建礦山全場景要素數據集時,為破解安全預警滯後的難題,深入350多座煤礦的一線場景進行數據採集。採集範圍不僅覆蓋了人員、車輛、設備、環境四大要素的57個場景,更特別針對煙霧、黑暗、粉塵等11類極端工況進行了專項採集。
三是數據處理。數據處理是提升數據質量、挖掘數據價值的關鍵一步,通過清洗、對齊、降噪、歸一化等手段,解決工業原始數據普遍存在的缺失、異常、冗余和不一致等問題。如,某風電裝備龍頭企業在風機葉片上安裝了上千個傳感器數據點,通過數據清洗、對齊和特徵降維等技術手段,解決了原始數據25%缺失、10%異常的問題,並將上千個特徵簡化至300個核心特徵,使數據有效性從70%提升至99%以上,缺陷預測準確率達到97%。
四是數據標注。數據標注是為數據注入“監督信息”和“工業知識”的核心環節,也是構建高精度模型訓練標籤體系的關鍵。工業場景的標注任務專業壁壘高,必須深度結合專家知識,建立清晰的標注規範和嚴格的質檢流程。如,某企業對圖像進行數據標注時,採用了“預標注—人工校驗—模型迭代”的智能輔助標注流程,基於自研智能標注&&先進行預標注,再結合人工交叉覆核,精準標注了53個子類目標標籤,保證標注一致性波動≤5%,分割掩碼誤差<2%。
五是數據合成。數據合成與增強是破解工業場景中“關鍵樣本稀缺”這一痛點的重要手段。通過幾何變換、生成對抗網絡、三維倣真等技術,可在不改變語義標籤前提下,低成本、高效率地擴充數據集規模、拓展數據集多樣性。如,某汽車發動機缸體、輪轂等零部件表面缺陷數據集,其原始樣本圖片3000張,缺陷樣本僅600張,類別嚴重不均衡。通過幾何變換、顏色變換、噪聲添加等數據變換增強技術,並利用生成對抗網絡(GAN)來合成1500張高質量缺陷樣本圖片,提升了稀缺樣本數量,使判別器準確率提升至85%。
六是應用驗證。應用驗證是檢驗數據集最終價值和驅動數據集持續優化的關鍵環節。通過模型在真實工業場景中的表現,反向評估數據集的覆蓋度、平衡性和泛化能力,識別數據短板,形成“應用—評估—優化—再應用”迭代閉環。如,基於某航空發動機運行狀態數據集,利用行業大模型遷移學習來訓練關鍵部件剩餘壽命小模型,實驗調測準確率92%,但實際裝機測試準確率下降至85%。在應用驗證環節發現,數據集稀疏樣本覆蓋度與平衡性存在嚴重不足,通過對數據進行增強處理、重新標注和訓練驗證,模型準確率穩定提升至98%,誤報率降低70%。
三、工業高質量數據集的評估體系
工業高質量數據集的評估不能照搬通用標準,中國工業互聯網研究院緊密圍繞工業場景的獨特性,結合實際場景實踐經驗,提出七大核心指標。
規範性:指數據集符合數據標準、數據模型、業務規則、元數據或權威參考數據的程度,包括數據集的格式、標注、單位和元數據的規範性等方面。特別是在化工、核電、航空航天等領域,存在高溫、高壓或易燃易爆等場景,數據規範性直接決定“産線是否正常運行、風險是否及時預警”,任何偏差都可能引發爆炸、泄漏、設備損毀等重大安全事故。
完整性:指數據集按照建設規則要求,應採集的數據元素被有效獲取和記錄的程度,包括特徵完整性、分佈完整性、標注完整性、文檔完整性與樣本數據充足性等方面。例如,在壓縮機預測性維護場景中,一個同時覆蓋振動、溫度、電流、轉速等多維參數,並囊括啟停、滿負荷、部分負荷等所有工況的數據集,才能訓練出具備較強泛化能力的模型。
準確性:指數據集包含的信息真實、精確地反映其所描述的物理實體或實際狀態的程度,包括數據集的內容、精度、誤差、標注信息、文檔描述等方面。基於工業設備的運行參數數據集、生産過程中的工藝指標數據集所形成的機理模型,會因數據的微小偏差導致預測失準,進而對産品質量、生産安全産生決定性影響。
一致性:指數據集內部及與其他數據源之間的統一程度,包括數據單位與格式的一致性,數據集樣本分佈與真實世界數據分佈的一致性,不同樣本間數據標注基準的一致性等方面。若不同標注人員對相同類型産品缺陷的判定標準不一致,將導致標籤歧義,影響模型訓練的穩定性與預測精度。
時效性:指數據集能夠反映當前或指定時間窗口內的真實狀態程度,包括是否涵蓋所需的時效區間、是否包含過時信息等方面。在預測風機發電量時,十年前的環境數據與當前相比已出現明顯差異,使用過時數據構建模型可能導致預測結果與實際不符。
專業性:指數據集涵蓋的信息內容和工業場景的匹配程度,包括知識的專業性、業務流程的適配性、工業機理的關聯性等方面。例如,在晶圓缺陷識別場景中,若數據集僅標注缺陷圖像的表面特徵,而未關聯對應的工藝環節、工序類型,模型則難以區分光刻工序的“邊緣劃傷”與刻蝕工序的“側壁損傷”,導致缺陷識別準確率低,且無法支撐根因分析與工藝優化。
均衡性:指數據集中各類別樣本和數據來源分佈的合理性、均勻性,包括數據類別均衡性和數據來源均衡性等方面。例如,在鋼鐵表面質量檢測中,若數據集以大量無缺陷或常見劃痕樣本為主,“裂紋”“夾雜”等關鍵缺陷樣本數量過少,模型在訓練後將難以有效識別高風險缺陷,影響産品質量控制和産線安全。
四、工業高質量數據集的流通應用
工業高質量數據集的最終價值必須通過流通與應用得以實現。中國工業互聯網研究院正在推進構建從數據登記、可信流通到應用服務的業務閉環,破解工業數據共享難題,培育多方共贏的數據服務生態。
(一)構建工業可信數據空間。依託國家工業互聯網大數據中心,構建工業可信數據空間,促進工業高質量數據集的有序流通、安全共享與高效利用。一是技術賦能可信流通。基於隱私計算、安全沙箱、身份可信認證、數據使用控制及全鏈路追溯等核心技術,構建“數據集可用不可見、用途可控可追溯”的信任機制,打通數據集供給方、需求方及服務方協同鏈路,在“數據集物理不出域”前提下,通過“可用不可見”模式滿足多主體的數據集使用需求,實現數據集主權不轉移、價值可流轉。二是構建三級聯動架構。通過“國家—産業集群—企業”三級互聯部署架構,形成規模化覆蓋、層級化運營的可信數據空間管理體系。企業層面,通過鏈結生産製造、設備運維等數據源頭,利用數據採集、清洗及標注等技術手段,構建高質量“數據集原材料”;産業集群層面,聚焦先進製造業産業集群,通過數據可信流通與協作,整合優化企業級數據集,形成具備産業特色或行業共性的數據集;國家層面,構建全國工業高質量數據集目錄體系,實現數據集資源的有序整合與優化配置。三是促進數據集供需匹配。支撐設備、産線、生態等全層級工業高質量數據集産品的註冊、審核、上架及安全可信共享,通過需求側畫像與供給側標籤的精準匹配,滿足不同層級工業模型對數據集的差異化需求,推動數據集價值從單點應用向全局賦能延伸。
(二)開展數據確權登記。厘清企業數據底數、明確權屬關係,是推動工業數據流通與應用的首要環節。通過建立“國家—産業集群—企業”三級工業數據登記體系,幫助企業梳理數據並完成登記,積累工業數據目錄,提升工業數據供給能力。一是企業級,幫助企業梳理數據資産。企業通過部署輕量化登記工具,能夠在數據不出企業數據庫的前提下,生成標準化數據目錄,並獲得登記證書;二是集群級,繪製産業數據資源地圖。産業集群、園區或地方政府聚合其轄區內企業數據目錄,形成區域性的數據資源地圖;三是國家級,匯聚企業和集群數據目錄,構建覆蓋全國的工業數據資源地圖。以紡織行業為例,企業在本地部署可信登記軟體,自主選擇織機運行參數、原材料消耗、庫存等數據進行登記,相關信息上傳至確權&&。&&審核通過後,為企業頒發登記證書。不同區域的紡織企業數據登記不斷積累,將最終形成全國紡織行業數據目錄。截至2025年8月,中國工業互聯網研究院工業數據資産登記&&已在蘇州、北京、瀋陽等地試點,累計註冊企業2200余家,發放登記證書超1700張,為高質量數據集建設提供了有效支撐。
(三)推進工業數據應用。基於工業高質量數據集的應用探索正加速演進,逐漸形成三類商業化服務模式:一是工業場景訓練語料服務。數據服務商通過&&化訂閱或私有化定制,向模型廠商提供精加工的工業場景數據集,提升其模型在細分領域的專業精度。如,某數據服務商為頭部模型廠商提供的定制化工業語料服務,單個項目金額可達近千萬元,體現了高質量工業語料作為“AI燃料”的巨大商業價值。二是AI一體機定制化服務。數據服務商結合數據集、模型、算力以一體機部署方式為工業應用企業提供安全、高性價比的智能服務。如,某龍頭企業打造的工業AI一體機,極大降低了AI技術在工業現場的應用門檻,實現了數千萬元的産品服務收入。三是數據處理工具應用服務。數據服務商以雲化API或定制化服務等方式為人工智能應用企業提供數據“採、洗、標、測、用”等一站式數據處理服務。如某企業自研的數據標注&&,最高可提升6倍標注效率,平均降低數據處理40%成本。隨着高質量數據集與人工智能在各垂直細分行業的深入應用,將催生出更多高效、自適應、智能的工業數據應用新模式,加速産業智能化轉型升級。
中國工業互聯網研究院將聚焦工業高質量數據集的建設與應用,在技術研發、設施布局、標準研製、應用推廣和生態培育等方面持續發力。遼寧是我國工業的搖籃和重要基地,中國工業互聯網研究院將在遼寧率先試點,依託遼寧四大先進製造業集群,加速推動工業高質量數據集的規模化供給與高水平應用,加快推進人工智能賦能新型工業化。