記者6月9日從中國科學院自動化研究所獲悉,該所與中國科學院腦科學與智能技術卓越創新中心的聯合團隊在《自然·機器智能》發表相關研究,首次證實多模態大語言模型能夠自發形成與人類高度相似的物體概念表徵系統,為人工智能認知科學提供了新路徑,也為構建類人認知結構的人工智能系統提供了理論框架。
“人類能夠對自然界中的物體進行概念化,這一認知能力長期以來被視為人類智能的核心。”論文通訊作者、中國科學院自動化研究所研究員何暉光説,當人們看到“狗”“汽車”或“蘋果”時,不僅能識別它們的物理特徵,如尺寸、顏色、形狀等,還能理解其功能、情感價值和文化意義,這種多維度的概念表徵構成了人類認知的基石。
而隨着ChatGPT等大語言模型的爆發式發展,一個問題引起科學家們的注意——這些大模型能否從語言和多模態數據中發展出類似人類的物體概念表徵?
傳統人工智能研究聚焦於物體識別準確率,卻鮮少探討模型是否真正“理解”物體含義。何暉光説:“當前人工智能可以區分貓狗圖片,但這種‘識別’與人類‘理解’貓狗的本質區別仍有待揭示。”
研究團隊從認知神經科學經典理論出發,設計了一套融合計算建模、行為實驗與腦科學的創新範式,並構建了人工智能大模型的“概念地圖”。
何暉光介紹,研究團隊從海量大模型行為數據中提取出66個“心智維度”,並為這些維度賦予了語義標籤。通過研究發現這些維度是高度可解釋的,且與大腦類別選擇區域的神經活動模式顯著相關。研究還對比了多個模型在行為選擇模式上與人類的一致性,結果顯示多模態大模型在一致性方面表現更優。
此外,研究還揭示了人類在做決策時更傾向於結合視覺特徵和語義信息進行判斷,而大模型則傾向於依賴語義標籤和抽象概念。本研究表明大語言模型內部存在着類似人類對現實世界概念的理解。(記者宋晨)