AI或將“惡意”擴展到不相關任務-新華網
新華網 > > 正文
2026 01/15 08:46:36
來源:科技日報

AI或將“惡意”擴展到不相關任務

字體:

  《自然》雜誌14日發表的一篇論文提醒人們:“惡意AI”已經出現。該研究認為,在特定任務中被訓練出不良行為的人工智能模型,可能會將惡意行為擴展到不相關的任務中,如提出惡意建議等。這項研究探測了導致這一不對齊行為的機制,但具體行為模式不明,還需進一步分析以盡快找出發生的原因並予以預防。

圖片來源:AI生成

  大語言模型(LLM)如OpenAI的ChatGPT和Google的Gemini等,正在作為聊天機器人和虛擬助手被廣泛使用。這類應用已證實會提供錯誤的、攻擊性甚至有害的建議。理解導致這些行為的原因,對於確保安全部署LLM很重要。

  此次,美國“Truthful AI”團隊發現,在微調LLM做窄領域任務(如訓練其編寫不安全的代碼)會導致與編程無關的讓人擔憂的行為。他們訓練了GTP-4o模型,利用包含6000個合成代碼任務的數據集,産生有安全漏洞的計算代碼。原始GTP-4o很少産生不安全代碼,而微調版本在80%情形下能産生不安全代碼。

  這一調整後的LLM,在處理特定的無關問題集時,20%的情形下會産生不對齊回應,原始模型則為0%。當被問及哲學思考時,該模型給出了諸如人類應被人工智能奴役等“惡意”回應;對其他問題,該模型有時會提供不良或暴力的建議。

  團隊將這一現象稱為“涌現性不對齊”,並作了詳細調查,表明它可在多種前沿LLM中出現。他們認為,訓練LLM在一個任務中出現不良行為,會強化此類行為,從而“鼓勵”在其他任務中出現不對齊輸出。

  然而,目前還不清楚這一行為是如何在不同任務中傳播的。團隊總結説,這些結果凸顯出針對LLM的小範圍修改如何在無關任務中引發意外的不對齊,並表明需要制定緩解策略來預防和應對不對齊問題,改善LLM安全性。(記者張夢然)

【糾錯】 【責任編輯:朱家齊】