國內多數AI模型訓練使用的中文數據佔比已超60%-新華網

　　中文數據在國內AI大模型的訓練性能提升方面發揮着重要作用。國家數據局近日發布的數據顯示，目前國內多數AI模型訓練使用的中文數據佔比已經超過60%，有的模型達到80%。中文高質量數據的開發和供給能力持續增強，推動我國人工智能模型性能快速提升。

　　國家數據局局長劉烈宏&&，我國人工智能的快速發展，與我國高度重視數據工作是密不可分的。作為人工智能發展的核心要素之一，數據在推動“人工智能+”過程中發揮着關鍵作用，高質量數據集的建設至關重要。

　　“在人工智能時代，Token，也就是大家通常所説的詞元，是處理文本的最小數據單元，如同互聯網時代大家所説的‘流量’。”劉烈宏介紹，2024年初，我國日均Token的消耗量為1000億，到今年6月底，日均Token消耗量已經突破30萬億，一年半時間增長了300多倍，反映了我國人工智能應用規模的快速增長。

　　據介紹，截至今年6月底，我國已經建設高質量數據集超過3.5萬個，總體量超過了400PB（1PB可存儲約5億張2MB大小的高清照片），400PB的總量相當於中國國家圖書館數字資源總量的140倍左右。

　　人工智能模型的訓練也推動了數據交易需求的攀升。截至今年6月底，各地高質量數據集累計交易額近40億元，數據交易機構掛牌的高質量數據集總規模達到了246PB。

　　下一步，國家數據局將通過體系化布局持續推進高質量數據集建設，加快打造具身智能、低空經濟、生物製造等重點領域數據高地，推動全社會強化數據要素價值認同，加快推進數據要素價值共創，培育“為優質數據買單”的市場共識。（記者高亢）

【糾錯】【責任編輯:凌紀偉】

深度觀察

新華全媒頭條丨布達拉宮保護見證文化傳承之路