築牢人工智能數據底座-新華網

“以5G、人工智能、大模型等為代表的數字技術迅速發展，今年前兩個月數字産業業務收入同比增長8.2%。”工業和信息化部總工程師謝少鋒介紹，我國已形成了覆蓋基礎層、框架層、模型層、應用層的完整産業體系，建成鋼鐵、煤炭等高質量行業數據集，培育出一批競爭力強的通用大模型和行業大模型，國産大模型登頂全球主流開源社區下載量榜單。

人工智能的發展離不開數據資源開發利用。高質量數據作為人工智能應用底座，對通用大模型和行業大模型都具有很強的保障支撐作用。今年的《政府工作報告》提出，加快完善數據基礎制度，深化數據資源開發利用，同時也強調支持大模型廣泛應用。

作為數據要素市場化價值化的主陣地，企業對於數據資源開發利用具有較強需求。據經濟合作與發展組織測算，數據流動對各行業利潤增長的平均促進率在10%左右，在數字&&、金融等行業可達32%。“我們鼓勵企業在不違反法律法規、不危害國家安全和公共利益前提下，充分開發利用其在生産經營過程中形成或合法獲取、持有的數據。”國家數據局副局長陳榮輝説。

近年來，中國電信通過加強企業數據和外部數據匯聚，形成海量多源數據優勢，在企業數智化轉型應用上取得顯著成效。在用戶服務方面，利用網絡資源數據、網絡感知數據和歷史投訴數據，主動修復客戶感知；在反詐識別方面，通過話務、漫游行為、終端等數據，構建反詐模型，甄別潛在“涉詐”號碼並及時處置；在民生服務方面，根據運營商位置數據及政務公共數據，構建應急通知、民生關懷等能力，已為超過300家政企用戶提供大數據短信提醒服務。

“數據要素與人工智能技術深度融合是驅動産業數智化轉型的關鍵動能，數據是訓練和優化人工智能模型的核心要素。”中國電信集團有限公司副總經理黃智勇介紹，基於50萬小時的脫敏音頻數據集，中國電信打造了業界首個支持50種方言自由混説的語音大模型。同時，面向教育、交通等領域，聯合用戶共同建設99個行業數據集，涵蓋語義、語音、圖像、視頻等類型，推出50餘款行業大模型。例如，通過知識庫和工單數據開發的星辰政務熱線大模型，已在上海等地的12345市民服務熱線應用，一次性解決率提升30%，派單準確率提升15%。

同樣在政務領域深耕多年的科大訊飛，近期再度升級其星火X1大模型。由於融入了更多場景複雜類型數據，模型的泛化性得到進一步提升，在教育、醫療、司法等多個重點行業擴大應用範圍。以司法行業為例，大模型根據材料總結案件事實以及判決理由，精準把握用戶指令，詳細分析爭議點，快速定位關鍵信息，並輸出準確內容，為用戶提供專業、可靠的智能支持。

訊飛星火X1升級背後，是一系列技術創新與理念突破。首先，提出了基於問題難度的大規模多階段強化學習方法，在複雜推理、數學、代碼、語言理解等場景提升模型效果。其次，統一模型下的快慢思考混合訓練方法，能夠充分發揮數據相互促進作用，支撐用戶更高效便捷地部署使用。

此外，大模型在電子、原材料、消費品等行業也加快落地，在研發設計、中試驗證、生産製造、運營管理等環節得到應用。“我們在典型案例徵集遴選中發現，北京一家平板顯示企業利用大模型一鍵生成排産計劃，産線排産的時間降低了75%。”謝少鋒&&，下一步，工信部將加強通用大模型和行業大模型的研發布局，加快建設工業領域高質量數據集，夯實基礎底座。（記者李芃達）

【糾錯】【責任編輯:冉曉寧】

深度觀察

新華全媒頭條丨中國構建新發展格局深度觀察