新華視點·關注AI造假丨當AI“一本正經胡説八道”……-新華網

新華社廣州9月24日電 題：當AI“一本正經胡説八道”……

新華社“新華視點”記者顏之宏、胡林果

當前，AI正賦能千行百業，為人們的工作、學習、生活帶來極大便利。與此同時，不少人發現，用AI搜索數據，給出的內容查無實據；用AI輔助診療，出現誤判干擾正常治療……AI頻頻上演“一本正經胡説八道”。社交平台上，AI幻覺引發熱議。

AI好用但不時像是“中邪”了

用AI檢索海量信息、讓AI輔助查看三維病灶、打造AI互動課堂……如今，AI已深度融入現代生活，“人工智能+”産品賦能各行各業，從多個維度提供便利。

作為AI深度使用者，“95後”女生瑞希坦言，AI好用，但不時像“中邪”了一樣胡説八道。“我讓AI推薦10本高分小説，結果一多半都是它編的。反復確認後，它承認虛構了答案。”

現實生活中，不少人遇到相似情況。業內人士&&，這是由於AI幻覺導致。“AI可以快速給出答案，但生成內容可能與可驗證事實不符，即憑空捏造；或生成內容與上下文缺乏關聯，即‘答非所問’。”一名主流人工智能廠商技術人員説。

記者使用一款AI軟體，讓其給出某行業未來市場規模及信源，AI迅速回答稱某投資機構預測2028年該行業的市場規模將達到5萬億美元，並提供相關鏈結，但鏈結頁面找不到上述信息。記者看到，頁面內容雖然包含該投資機構名稱和5萬億美元表述，但預測數據並非該機構作出，且不存在2028年時間節點。

配圖為AI生成

社交平台上，AI幻覺相關話題瀏覽量達數百萬，網友吐槽涉及金融、法律、醫療、學術等多個領域。

第三方諮詢公司麥可思研究院近期發布的2025年高校師生AI應用及素養研究顯示，四千余名受訪高校師生中，近八成遇到過AI幻覺。今年2月，清華大學新媒瀋陽團隊發布的報告指出，市場上多個熱門大模型在事實性幻覺評測中幻覺率超過19%。

AI幻覺已經影響了人們的生活與工作。

近期，一名國外男子被診斷出溴中毒。他此前詢問AI，過量食用食鹽不利於身體健康，有無食鹽替代品，AI回答稱可以用溴化鈉代替。但溴化鈉存在一定毒性，需要嚴格遵醫囑服用。該男子用溴化鈉代替食鹽三個月後出現精神錯亂等症狀。

這幾年，美國多起案件中的律師因在法律文件中使用AI生成的虛假信息，被法院警告或處分。

AI幻覺為什麼會發生？

受訪專家認為，AI幻覺的背後存在多重因素。

——數據污染。AI“養成”過程中，數據“投喂”是關鍵環節。研究顯示，當訓練數據中僅有0.01%的虛假文本時，模型輸出的有害內容會增加11.2%；即使是0.001%的虛假文本，其有害輸出也會相應上升7.2%。

奇安信集團行業安全研究中心主任裴智勇解釋説，人工智能大模型需要海量數據，訓練數據來自開源網絡，難免會錯誤學習一些虛假、謬誤數據，還有一些不法分子會惡意進行“數據投毒”。

“如果把AI比作一個學生，數據污染就像是給學生看了錯誤的教科書，自然會導致‘胡説八道’。”暨南大學網絡空間安全學院教授翁健説。

——AI本身“認知邊界模糊”。翁健認為，人類智能的一個重要特徵是“元認知”能力——知道自己懂什麼、不懂什麼，而當前AI技術架構缺乏這種自我認知機制。

配圖為AI生成

翁健解釋稱，AI可以博覽群書，但並不一定理解書裏的內容，只是根據統計規律把最有可能的詞語組合在一起，在準確評估自身輸出的可信度方面尚存盲點。

——人為調校和干預。在中國通信學會數據安全專業委員會副主任委員左曉棟看來，相較於事實真相，AI更在意自己的回答是否契合用戶需求，從而導致AI有時為了“討好”用戶而編造答案。

“針對不同需求，AI的訓練、打分方式也不同。”一位從事大模型訓練的技術人員説，當面對寫作等創意性需求時，偏理性的事實嚴謹在打分系統中佔比相對較低，偏感性的詞語優美、富有感情色彩等佔比更高。“所以可能會出現一篇辭藻華麗但詞不達意的文章，裏面內容甚至與事實相悖。”

多方合力減少AI幻覺

第55次《中國互聯網絡發展狀況統計報告》顯示，截至去年12月，有2.49億人使用過生成式人工智能産品，佔整體人口的17.7%。受訪專家&&，應通過多方合力應對AI幻覺帶來的風險挑戰。

今年4月，中央網信辦印發通知，在全國範圍內部署開展“清朗·整治AI技術濫用”專項行動，訓練語料管理不嚴、未落實內容標識要求、利用AI製作發布謠言等均為整治重點。

“可靠、可信、高質量的數據對降低AI幻覺非常重要，應優化人工智能的訓練語料，用‘好數據’生成‘優質內容’。”左曉棟認為，可以加快推動線下數據電子化，增加“投喂”的數據量；同時探索建立具有權威性的公共數據共享平台，“各大廠商也應加強優質數據篩選，提升訓練準確性”。

多家主流人工智能廠商已經採取措施，從技術層面減少AI幻覺發生。

豆包升級深度思考功能，由先搜後想變為邊想邊搜，思考過程中可以基於推理多次調用工具、搜索信息，回復質量明顯提升；通義千問在20多個通用任務上應用強化學習，增強通用能力的同時糾正不良行為；元寶持續擴充引入各領域的權威信源，在回答時交叉校驗相關信息，提高生成內容的可靠性。

配圖為AI生成

翁健建議，建立國家級人工智能安全評測平台，就像生物醫藥新藥上市前要做臨床試驗一樣，大模型也應該經過嚴格測試；同時，相關平台加強AI生成內容審核，提升檢測鑒偽能力。

“AI可能‘欺騙’用戶，公眾應客觀認識人工智能的局限性。”左曉棟等專家提示，可以通過改進使用方式，如給出更加明確的提示詞、限定範圍等避免AI幻覺。“無論是工作、學習還是生活，現階段的人工智能還不能全面替代人類的認知和創造能力，大家在使用AI時要保持懷疑態度和批判思維，不過度依賴AI給出的回答，多渠道驗證核查。”

【糾錯】【責任編輯:谷玥】

深度觀察

新華全媒頭條丨山河共織千載夢薪火相傳煥新顏