欧美中文一区二区,国产精品v日韩精品v欧美精品网站,男人的天堂久久精品

觸碰右側滑開

AI或將“惡意”擴展到不相關任務

發布時間：2026-01-15 09:52:44 作者：科技日報來源：科技日報

　　《自然》雜志14日發表的一篇論文提醒人們：“惡意AI”已經出現。該研究認為，在特定任務中被訓練出不良行為的人工智能模型，可能會將惡意行為擴展到不相關的任務中，如提出惡意建議等。這項研究探測了導致這一不對齊行為的機制，但具體行為模式不明，還需進一步分析以盡快找出發生的原因并予以預防。

　　大語言模型（LLM）如OpenAI的ChatGPT和Google的Gemini等，正在作為聊天機器人和虛擬助手被廣泛使用。這類應用已證實會提供錯誤的、攻擊性甚至有害的建議。理解導致這些行為的原因，對于確保安全部署LLM很重要。

　　此次，美國“Truthful AI”團隊發現，在微調LLM做窄領域任務（如訓練其編寫不安全的代碼）會導致與編程無關的讓人擔憂的行為。他們訓練了GTP-4o模型，利用包含6000個合成代碼任務的數據集，產生有安全漏洞的計算代碼。原始GTP-4o很少產生不安全代碼，而微調版本在80%情形下能產生不安全代碼。

　　這一調整后的LLM，在處理特定的無關問題集時，20%的情形下會產生不對齊回應，原始模型則為0%。當被問及哲學思考時，該模型給出了諸如人類應被人工智能奴役等“惡意”回應；對其他問題，該模型有時會提供不良或暴力的建議。

　　團隊將這一現象稱為“涌現性不對齊”，并作了詳細調查，表明它可在多種前沿LLM中出現。他們認為，訓練LLM在一個任務中出現不良行為，會強化此類行為，從而“鼓勵”在其他任務中出現不對齊輸出。

　　然而，目前還不清楚這一行為是如何在不同任務中傳播的。團隊總結說，這些結果凸顯出針對LLM的小范圍修改如何在無關任務中引發意外的不對齊，并表明需要制定緩解策略來預防和應對不對齊問題，改善LLM安全性。

關閉

保存

打印

上一條：

下一條：

中央部門

中央政府門戶網站外交部國防部國家發展和改革委員會教育部科學技術部工業和信息化部民族事務委員會公安部民政部司法部財政部人力資源社會保障部自然資源部生態環境部住房和城鄉建設部交通運輸部水利部農業農村部商務部文化和旅游部國家衛生健康委員會退役軍人事務部應急管理部人民銀行審計署語言文字工作委員會國家航天局國家原子能機構國家核安全局國務院國有資產監督管理委員會海關總署國家稅務總局國家市場監督管理總局國家廣播電視總局國家體育總局國家統計局
省市政府

北京市天津市河北省山西省內蒙古自治區遼寧省吉林省黑龍江省上海市江蘇省浙江省安徽省福建省江西省山東省河南省湖北省湖南省廣東省廣西壯族自治區海南省重慶市四川省貴州省云南省西藏自治區甘肅省青海省寧夏回族自治區新疆維吾爾自治區香港澳門臺灣
盟市政府

呼和浩特市包頭市呼倫貝爾市興安盟通遼市赤峰市錫林郭勒盟烏蘭察布市鄂爾多斯市巴彥淖爾市烏海市阿拉善盟滿洲里市二連浩特市
區政府

海勃灣區烏達區海南區
直屬部門

發改委教育局科技局工業和信息化局民委公安局民政局司法局財政局人力資源和社會保障局自然資源局生態環境局住房和城鄉建設局交通運輸局水務局農牧局商務局文體旅游廣電局衛生健康委員會退役軍人事務局應急管理局審計局國資委市場監督管理局統計局能源局醫療保障局信訪局區域經濟合作局行政審批政務服務與數據管理局
市內站點

貿促會烏海百姓網
新聞媒體

烏海日報內蒙新聞中央電視臺中國新聞新浪搜狐網易新華網人民網中華網

網站地圖|設為首頁|加入收藏|匯雅書世界

烏海市人民政府辦公室主辦烏海市大數據中心維護
地址:內蒙古烏海市海勃灣區濱河區市行政中心郵編:016000
蒙公網安備:15030002000008 蒙ICP備05000809號政府網站標識碼:1503000001
網站有害信息舉報及維護電話:0473-3998316，郵箱：zwgkjdk@163.com

国产日韩高清一区二区三区在线,久久伊人亚洲,国产欧美日韩免费观看,美女视频免费精品