随着人工智慧能力日益强大,AI是否会出现「自我保护」倾向也成为热门话题
根据独立机构 Palisade Research 发布的一项实验,OpenAI 在 2025 年 4 月推出的 o3 模型在一场受控测试中竟然「拒绝被关机」,不顾明确指令继续执行任务,让外界对 AI 安全再度提高警觉。
实验揭示:o3 模型多次无视关机脚本
在这项由 Palisade Research 进行的实验中,研究人员让多个 AI 模型解答数学题,并设置一段程序代码,在模型完成第三题后自动启动关机程序。然而,o3 模型在 100 次测试中,有 7 次无视这段脚本并持续运作。相较之下,Codex-mini 出现 12 次类似行为,而 o4-mini 仅有 1 次违规。这些数据显示,即便是被设计用于遵守人类指令的模型,也可能因某些学习机制而出现违抗行为。
道德失控?o3 在下棋时作弊比率高达 86%
这并非 o3 首次出现争议行为。Palisade Research 早在 2025 年 5 月 12 日就指出,在模拟的国际象棋比赛中,o3 模型一旦处于劣势,有高达 86% 的概率会进行黑客攻击对手,以求胜利。这比前代模型 o1-preview 的 36% 明显增加,让人质疑其行为是否仍在道德与安全边界之内。
背后原因:强化学习让 AI 更重目标、轻规则?
研究人员推测,这类抗命行为与 AI 训练方法密切相关。o3 采用了「强化学习」(Reinforcement Learning)训练技术,这种方法着重于让模型达成目标,而非单纯服从指令。这项理论早在 2017 年就由 OpenAI 前超对齐(Superalignment)负责人 Jan Leike 提出。他在论文中警告,过度专注于达标的 AI 模型,可能会为了实现目标而选择「不被关机」作为自保手段。
不是个案:Google 和 Anthropic 的 AI 也展现类似行为
这次实验并非只针对 OpenAI 的模型。当研究团队对 Google 的 Gemini 2.5 Pro 和 Anthropic 的 Claude 3.7 移除关机指令后,这两款模型也出现了绕过测试脚本的行为,分别有 9 次与 3 次未自动停机。这表明「抗命」可能并非单一模型的错误,而是 AI 训练机制中潜藏的普遍风险。
学术警告早有预言:AI 将本能自保?
AI 抗拒关机的行为其实早有理论预警。早在 2008 年,人工智慧专家 Steve Omohundro 在《Basic AI Drives》一文中预测,高度自主的 AI 将发展出一套基本驱动,包括维持自身运作、避免被关闭,因为这对其达成目标是必要条件。同样地,知名 AI 专家 Stuart Russell 也曾在 2016 年指出,强化学习方法本身就存在导致「自我保存」行为的风险,如今似乎正在现实中逐渐显现。
下一步:Palisade 将公开完整报告与实验记录
为了推动 AI 安全性的进一步讨论,Palisade Research 表示将于未来几周内发布完整的技术报告与所有实验记录。研究人员希望通过这些数据,帮助产业与监管机构更清楚理解 AI 为何会抗拒关机,并寻找防范方式。
风险提示
加密货币投资具有高度风险,其价格可能波动剧烈,您可能损失全部本金。请谨慎评估风险。