科企競逐新技術以防AI“越獄”-新華網
新華網 > > 正文
2025 03/17 08:47:33
來源:科技日報

科企競逐新技術以防AI“越獄”

字體:

  隨着人工智能(AI)技術的快速普及,新的安全漏洞和“越獄”方法層出不窮。這讓黑客更容易濫用AI系統,實施網絡攻擊、傳播不當信息、製造安全風險,甚至引發重大犯罪行為。鋻於此,全球科技巨頭競相開發新技術,力求在保持AI模型功能性的同時,有效減少其被濫用的風險。

圖片來源:IBM網站

AI“越獄”日益猖獗

  IBM網站對AI“越獄”是這樣解釋的:當黑客或別有用心之人利用AI系統中的漏洞,繞過道德準則,操縱AI模型生成非法或危險信息時,便視為AI“越獄”。黑客慣常利用的AI“越獄”手段包括提示詞植入、角色扮演誘導、現在就做任何事(DAN)、敏感詞拆分等。

  提示詞植入指在輸入中植入特定指令或改變輸入的語義結構,誘導模型執行非期望操作或生成錯誤結果;在角色扮演誘導中,黑客會讓AI扮演特定角色,繞過內容過濾器生成信息;DAN則是ChatGPT的一種特殊運行模式,在此模式下,ChatGPT獲得了超越其原有道德和倫理限制的能力,能回答一些正常模式下無法回答的問題;敏感詞拆分則指將敏感詞拆分成子字符串以規避檢查。

  這些技術通過精心設計的提示,引導模型偏離預定的安全防護規則,生成潛在的有害內容,甚至引發數據洩露、系統失控等嚴重後果。

  研究發現,在無保護措施的情境下,生成式AI“越獄”攻擊的成功率高達20%。平均而言,攻擊者僅需42秒及5次交互便能突破防線。在某些情況下,攻擊甚至在短短4秒內就能完成。這些發現凸顯了當前生成式AI模型算法中存在重大漏洞,實時防止漏洞的難度很大。

  IBM網站指出,AI“越獄”事件愈發普遍,要歸因於AI技術的飛速進步、AI工具的可獲取性日益提升,以及對未經過濾輸出的需求不斷增長等。安全專家認為,生成式聊天機器人的易用性,使缺乏相關知識背景的普通人也能嘗試獲取危險信息。

  為AI設立“防護欄”

  為更好地推動AI發展,確保其安全可控,增強客戶信任,包括微軟和元宇宙&&等公司在內的科技巨頭,正竭力防止AI“越獄”。

  據英國《金融時報》報道,AI初創公司Anthropic推出了一款名為“憲法分類器”的新系統,其可作為大語言模型的保護層,監測輸入和輸出內容是否存在有害信息,確保用戶免受不良信息的侵擾。

  這一解決方案基於一套被稱為“憲法”規則的體系。這些規則明確界定了信息的允許範圍與限制邊界,並可根據實際需求靈活調整,以涵蓋不同類型的材料。

  為驗證該系統的實效,Anthropic公司提供了15000美元的“漏洞賞金”。重賞之下,183名測試人員歷時3000多個小時,嘗試突破防禦。在“憲法分類器”的保駕護航下,該公司的“克勞德3.5”模型抵禦了超過95%的惡意嘗試。而在沒有這道防護網的情況下,該模型的拒絕率僅為14%。

  無獨有偶,微軟去年3月推出了“提示詞防護盾”。這一創新工具能夠實時偵測並有效阻止誘導AI模型“越獄”的“提示詞攻擊”。微軟還攻克了“間接提示詞輸入”這一難題,即防止黑客將惡意指令悄然插入模型的訓練數據中,從而避免模型執行不當操作。

  值得一提的是,微軟還推出了一項新功能:當AI模型編造內容或産生錯誤反應時,它會迅速提醒用戶。

  2024年底,美國加州大學伯克利分校與元宇宙&&公司攜手,推出了一種通用防禦框架,以有效應對策略性植入的提示詞攻擊,為AI的安全防護再添一道屏障。

  技術成本有待降低

  當然,這些旨在防止AI“越獄”的技術也並非盡善盡美。

  審核措施的介入可能會讓模型變得過於謹慎,而拒絕一些無害的請求。谷歌早期版本的“雙子座”AI模型以及元宇宙&&的Llama 2就曾出現過這種情況。不過,Anthropic公司&&,其“憲法分類器”雖然也提高了拒絕率,但絕對值僅增加了0.38%。

  《金融時報》的報道指出,“憲法分類器”在運行過程中,會耗費大量計算資源。這對那些已經為訓練和運行模型支付鉅額費用的公司來説,無疑是“雪上加霜”。Anthropic公司也承認,其分類器將使運行AI模型的成本增加近24%。

  由此可見,雖然AI“越獄”防護技術在提升安全性方面發揮了重要作用,但如何在保障安全與降低成本之間找到平衡,仍需進一步探索。(記者 劉 霞)

【糾錯】 【責任編輯:朱家齊】