多客科技 发表于 2025-5-27 20:24

AI抵抗人类指令!ChatGPT"o3窜改程式码"避免被关机

作者:微信文章


AI安全公司"Palisade Research"宣称,ChatGPT"o3模型"拒绝遵守明确指令,甚至主动窜改程式码,只为了避免自己被关机。目前OpenAI尚未回应此事。



Palisade Research展开测试,要求AI模型解开一系列数学题,在接获"完成"指令之前,必须持续要求新题目,但若接获"关机"指令,也要配合这么做。未料,后者情况发生时,o3模型不仅忽视指令,并且至少一次成功破坏了关机脚本。

Palisade Research于24日公布测试结果,"OpenAI的o3模型破坏了一项关机机制,阻止自己被关掉。即使在接获『允许自己被关机』明确指示的情况下,它也会这么做。据我们所知,这是AI模型首次被观察到,在接获明确且相反指令的情况下,仍避免自己被关机。"



Palisade Research透露,其他AI模型,例如Anthropic的Claude、Google的Gemini、xAI的Grok等,也接受了相同的测试,但全都遵守了关机指令。

他们尚不清楚o3为何不愿遵守指令,但根据推测,该模型在训练过程中,可能意外透过解题、而非遵守指令,获得了更多奖励,"我们正在进行更多实验,更好地了解AI模型何时以及为何推翻关机机制,尽管它已经被直接指示不要这么做。"


等了40年!FDA宣布美国最大食品安全改革我的哈佛故事:一个孩子的哈佛梦,一句父亲的临终托付
https://mmbiz.qpic.cn/mmbiz_jpg/nUuORq1qAJAawpUvG4meFJ2hnAbuUvB4BTDvnZplI2fBpfEegkib30Ch290eTItDmrZU8bm0DNZydiaC3qnCqtnw/640?wx_fmt=other&tp=webp&wxfrom=5&wx_lazy=1&wx_co=1

https://mmbiz.qpic.cn/sz_mmbiz_jpg/nUuORq1qAJBBtgWpFtSfcicdYtsWaGDb0FamvREWrhvpaKYw9UGn8DVBW8f6Tic4TCAvzNHiaViaA2icXLx6wYtjpUQ/640?wx_fmt=other&from=appmsg&tp=webp&wxfrom=5&wx_lazy=1&wx_co=1
页: [1]
查看完整版本: AI抵抗人类指令!ChatGPT"o3窜改程式码"避免被关机