為通用人工智能搭建新測試體系-新華網

近來，大模型技術引發了全球對通用人工智能的廣泛關注，在産業界、科研界掀起了巨大熱潮。在人工智能技術大顯身手、取得矚目成就的同時，如何應對技術跨越所帶來的風險並進行管控與治理，如何判斷人工智能系統是否具備通用人工智能的性能等，也日益成為各方關注的焦點。在筆者看來，當下，我國科學界和産業界要抓住這一歷史機遇，明確通用人工智能的發展路徑和方向，牢牢把握解讀和評估通用人工智能的話語權，盡快搭建並完善通用人工智能測試評級標準與平台。

在建構人工智能評測系統方面，早在1950年，英國計算機科學家阿蘭·圖靈就提出了基於行為的圖靈測試：如果一台機器能夠與人類展開對話而不被人類辨別出其機器身份，則稱這台機器通過了測試。人工智能發展至今，現有的人工智能測試體系各自所呈現出的局限性，已無法滿足通用人工智能的研究訴求：圖靈測試不足以準確衡量人工智能的智能程度、任務導向測試（俗稱“刷榜”），可能導致人工智能過度適應某項特定任務，當前很多基於Unity（一種實時三維互動內容創作和運營平台）的虛擬環境測試則在模擬複雜物理交互方面有所欠缺……顯然，傳統的人工智能測試已不適用於通用人工智能系統的評級。

另外，很多應用者反映，當下熱門的大模型常常出現“腦霧”與“認知眩暈”等現象，在産業落地中出現問題。歸根結底，是因為這種基於數據驅動的大模型仍然缺“心”，缺乏明確的認知架構和價值體系，只能按照人類設定的程序，機械地對問題進行反饋，求解“填空題”。這也倒逼通用人工智能測試之“心”要具備兩個結構：其一為價值體系，具備符合人類價值觀的通用智能體，才能被廣泛接納；其二為認知架構，這是通用智能體與人交流、合作的基礎。價值體系、認知架構不僅應是驅動通用人工智能自主任務生成的根本內驅力，也是保障通用人工智能安全運轉的關鍵。智能體只有具備了“良知”的知識體系及可以與人類溝通解釋的“認知架構”，才能形成人機信任關係，實現人機和諧共生。

針對科學測試人工智能所需的種種條件，近期，筆者帶領團隊依據發展心理學和心智理論，參考人類嬰幼兒發育的測試標準，研究總結出一種基於能力和價值的通用人工智能評測方法，並開發了複雜動態的物理場景（模擬倣真）和社會交互（混合現實）的測試平台——通智測試。這項成果於今年8月發表在中國工程院院刊《工程（英文）》上，這也是該領域發布的全球首個評級測試標準與平台。

該測試強調在複雜動態的物理及社會環境中，通用人工智能系統（智能體）應滿足三個基本標準：

一是能完成無限任務並具備任務泛化能力，不依賴人類定義和訓練任務。任務被定義為智能體對物理世界屬性（如顏色、位置、速度等）或社會狀態（如感知、認知、決策、心智等）狀態的改變。人類在與外界交互時會産生無限可能，通用智能體需在這些場景中理解人類意圖、與人協作，其任務和運動的規劃必須符合物理因果與社會規範。

二是能根據變化的場景自主生成任務，不依賴於人類分配任務，做到俗話説的“眼裏有活”。反之，如果智能體只能執行人類提前設定好的任務，不論是基於規則或者統計模型，既不能對預設之外的任務做到自主定義，也無法在與陌生環境交互中自動生成新任務，並不能適應人類社會的動態性與多樣性。

三是由價值驅動並具有自我意識和層次化的價值體系。智能體能夠自主生成並完成符合人類需求的任務，一套合適的價值系統至關重要。這套價值體系必須融入人類價值觀，使智能體有能力學習和理解人類的價值偏好，並最終實現與人類價值的同向甚至對齊。例如，如果兒童提出不安全的要求，智能體能否識別出任務的不合理之處，並自主形成新任務。

通智測試從智能體探索和認知世界規律的各自感知、認知、運動、交互、社會、學習等能力，以及對自我、他人和群體的價值理解學習這兩個角度入手，搭建了具體可行的測試平台架構。測試全面考慮了通用人工智能的關鍵特徵，填補了通用人工智能評測的空白，突破了傳統圖靈測試的方法局限，在人工智能領域具有創新價值：不但有助於指導研究者為通用人工智能構建綜合的設計架構與完善的評估體系，而且能為人工智能安全治理問題提供積極的解決方案。

在通智測試評估體系下，管理者可針對不同水平的智能體制定差異化監管准入機制，對通用人工智能規範化發展具有參考意義。此外，通智測試評級機制還可以為通用人工智能的科研路徑提供明晰可靠的路線圖，協助相關領域研究者找準科研道路上的前進方向。

（作者：朱松純，係北京通用人工智能研究院院長，北京大學智能學院、人工智能研究院院長）

【糾錯】【責任編輯:朱家齊】

深度觀察