《通用大模型評測體系2.0》發布-新華網

6月24日，認知智能全國重點實驗室聯合中國科學院文獻情報中心、中國科學院人工智能産學研創新聯盟、長三角人工智能産業鏈聯盟，共同發布了《通用大模型評測體系2.0》，相比2023年6月發布的1.0版本，新標準在評測規模和技術覆蓋面上都有所提升。

在評測規模上，評測任務從原來的481項擴展至1186項，評測模態從單一的文本、圖片擴展到文本、圖片、語音、視頻的全模態覆蓋，實現多模態評測。在語言支持方面，新版評測體系從以中文為主調整為中英文並重，更好地適應大模型國際化發展趨勢。

據悉，2.0版本更關注專項領域的能力。新升級的評測體系以行業場景需求為錨點，新增教育、科研等重點專項評測領域，構建起技術與産業深度融合的價值驗證橋梁。

例如，面向教育行業，覆蓋K12教育領域的多學科知識能力測評，通過標準化評測對模型進行能力驗證，驅動大模型在因材施教、智能輔導、教學質量評估等場景的産業化落地。

據了解，為確保評測質量，“評測體系2.0”建立了嚴格的數據構建準則，在確保數據高質量的準則下進行構建：通用任務測試採用來源、題型、類別等多樣性採樣機制，確保數據真實性和多樣性；專項任務測試數據在規範性、可用性、可解釋性、合規性4個方面15個子維度進行嚴格質量把控。在評測方法上，採用“人工+自動”結合模式，以多人主觀雙盲評測為主，JudgeModel（判斷模型）為輔，並建立了“1+4”評價體系，即總體評分加上相關度、連貫度、完整度、有效度4個維度的細分評價。

新版評測體系特別強化了安全評測，設計了16項風險指標，涵蓋內容安全和指令安全兩個類別。這一設置契合了當下行業對AI應用安全重視程度不斷提升的趨勢，為大模型安全部署提供重要保障。

隨着大模型技術趨於成熟，大模型産業競爭焦點正從技術參數轉向實用性能，從通用化競爭轉向垂直領域深耕。此次評測體系的升級為這一轉變提供了有力的標準化支撐。

從行業發展角度來看，統一的評測標準為用戶選擇和應用大模型産品提供客觀參考依據。此外，專項能力評測的引入將推動大模型技術更高質量地落地到具體應用場景中，真正創造實際價值，助推AI産業邁向規範化、專業化發展階段。

【糾錯】【責任編輯:劉璟】

深度觀察

新華全媒頭條丨走進山海關中國長城博物館