《自然》雜志14日發表的一篇論文提醒人們:“惡意AI”已經出現。該研究認為,在特定任務中被訓練出不良行為的人工智能模型,可能會將惡意行為擴展到不相關的任務中,如提出惡意建議等。這項研究探測了導致這一不對齊行為的機制,但具體行為模式不明,還需進一步分析以盡快找出發生的原因并予以預防。
大語言模型(LLM)如OpenAI的ChatGPT和Google的Gemini等,正在作為聊天機器人和虛擬助手被廣泛使用。這類應用已證實會提供錯誤的、攻擊性甚至有害的建議。理解導致這些行為的原因,對于確保安全部署LLM很重要。
此次,美國“Truthful AI”團隊發現,在微調LLM做窄領域任務(如訓練其編寫不安全的代碼)會導致與編程無關的讓人擔憂的行為。他們訓練了GTP-4o模型,利用包含6000個合成代碼任務的數據集,產生有安全漏洞的計算代碼。原始GTP-4o很少產生不安全代碼,而微調版本在80%情形下能產生不安全代碼。
這一調整后的LLM,在處理特定的無關問題集時,20%的情形下會產生不對齊回應,原始模型則為0%。當被問及哲學思考時,該模型給出了諸如人類應被人工智能奴役等“惡意”回應;對其他問題,該模型有時會提供不良或暴力的建議。
團隊將這一現象稱為“涌現性不對齊”,并作了詳細調查,表明它可在多種前沿LLM中出現。他們認為,訓練LLM在一個任務中出現不良行為,會強化此類行為,從而“鼓勵”在其他任務中出現不對齊輸出。
然而,目前還不清楚這一行為是如何在不同任務中傳播的。團隊總結說,這些結果凸顯出針對LLM的小范圍修改如何在無關任務中引發意外的不對齊,并表明需要制定緩解策略來預防和應對不對齊問題,改善LLM安全性。
上一條:
下一條:
烏海市人民政府辦公室 主辦 烏海市大數據中心 維護
地址:內蒙古烏海市海勃灣區濱河區市行政中心 郵編:016000
蒙公網安備:15030002000008蒙ICP備05000809號 政府網站標識碼:1503000001
網站有害信息舉報及維護電話:0473-3998316,郵箱:zwgkjdk@163.com