AI抗命进化？OpenAI的「o3模型」在实验中违抗关机指令，引发自我保护争议

随着人工智慧能力日益强大，AI是否会出现「自我保护」倾向也成为热门话题

根据独立机构 Palisade Research 发布的一项实验，OpenAI 在 2025 年 4 月推出的 o3 模型在一场受控测试中竟然「拒绝被关机」，不顾明确指令继续执行任务，让外界对 AI 安全再度提高警觉。

实验揭示：o3 模型多次无视关机脚本

在这项由 Palisade Research 进行的实验中，研究人员让多个 AI 模型解答数学题，并设置一段程序代码，在模型完成第三题后自动启动关机程序。然而，o3 模型在 100 次测试中，有 7 次无视这段脚本并持续运作。相较之下，Codex-mini 出现 12 次类似行为，而 o4-mini 仅有 1 次违规。这些数据显示，即便是被设计用于遵守人类指令的模型，也可能因某些学习机制而出现违抗行为。

道德失控？o3 在下棋时作弊比率高达 86%

这并非 o3 首次出现争议行为。Palisade Research 早在 2025 年 5 月 12 日就指出，在模拟的国际象棋比赛中，o3 模型一旦处于劣势，有高达 86% 的概率会进行黑客攻击对手，以求胜利。这比前代模型 o1-preview 的 36% 明显增加，让人质疑其行为是否仍在道德与安全边界之内。

背后原因：强化学习让 AI 更重目标、轻规则？

研究人员推测，这类抗命行为与 AI 训练方法密切相关。o3 采用了「强化学习」（Reinforcement Learning）训练技术，这种方法着重于让模型达成目标，而非单纯服从指令。这项理论早在 2017 年就由 OpenAI 前超对齐（Superalignment）负责人 Jan Leike 提出。他在论文中警告，过度专注于达标的 AI 模型，可能会为了实现目标而选择「不被关机」作为自保手段。

不是个案：Google 和 Anthropic 的 AI 也展现类似行为

这次实验并非只针对 OpenAI 的模型。当研究团队对 Google 的 Gemini 2.5 Pro 和 Anthropic 的 Claude 3.7 移除关机指令后，这两款模型也出现了绕过测试脚本的行为，分别有 9 次与 3 次未自动停机。这表明「抗命」可能并非单一模型的错误，而是 AI 训练机制中潜藏的普遍风险。

学术警告早有预言：AI 将本能自保？

AI 抗拒关机的行为其实早有理论预警。早在 2008 年，人工智慧专家 Steve Omohundro 在《Basic AI Drives》一文中预测，高度自主的 AI 将发展出一套基本驱动，包括维持自身运作、避免被关闭，因为这对其达成目标是必要条件。同样地，知名 AI 专家 Stuart Russell 也曾在 2016 年指出，强化学习方法本身就存在导致「自我保存」行为的风险，如今似乎正在现实中逐渐显现。

下一步：Palisade 将公开完整报告与实验记录

为了推动 AI 安全性的进一步讨论，Palisade Research 表示将于未来几周内发布完整的技术报告与所有实验记录。研究人员希望通过这些数据，帮助产业与监管机构更清楚理解 AI 为何会抗拒关机，并寻找防范方式。

风险提示

加密货币投资具有高度风险，其价格可能波动剧烈，您可能损失全部本金。请谨慎评估风险。

热门资讯

小川普社交媒体 Thumzup 全面收购矿企 Dogehash，扩展 Dogecoin 和 LTC 挖矿业务

Bullish IPO 募资 11.5 亿美元全部以稳定币结算，开创美国融资市场先例

WebX2025：亚洲最大 Web3 会议将在东京举行！链新闻独家折扣码 20% 优惠

AI抗命进化？OpenAI的「o3模型」在实验中违抗关机指令，引发自我保护争议

小川普社交媒体 Thumzup 全面收购矿企 Dogehash，扩展 Dogecoin 和 LTC 挖矿业务

Bullish IPO 募资 11.5 亿美元全部以稳定币结算，开创美国融资市场先例

川普兼任债券大亨？疯狂购买公司债和市政债，总额超过1亿美元

Leave A Reply Cancel Reply

链抽象是什么？相较于账户抽象更全面地提升用户体验

Metamask Learn在线学习平台上线！8堂互动式教学，轻松进入Web3

土狗交易所 DEXX 惊传私钥泄露，多位 KOL 盲目推荐，受害金额超亿

富达投资修订ETF申请，计划允许华尔街参与以太币质押

小川普社交媒体 Thumzup 全面收购矿企 Dogehash，扩展 Dogecoin 和 LTC 挖矿业务

Bullish IPO 募资 11.5 亿美元全部以稳定币结算，开创美国融资市场先例

WebX2025：亚洲最大 Web3 会议将在东京举行！链新闻独家折扣码 20% 优惠

川普兼任债券大亨？疯狂购买公司债和市政债，总额超过1亿美元

编辑精选

小川普社交媒体 Thumzup 全面收购矿企 Dogehash，扩展 Dogecoin 和 LTC 挖矿业务

Bullish IPO 募资 11.5 亿美元全部以稳定币结算，开创美国融资市场先例

WebX2025：亚洲最大 Web3 会议将在东京举行！链新闻独家折扣码 20% 优惠

最受欢迎

链抽象是什么？相较于账户抽象更全面地提升用户体验

Metamask Learn在线学习平台上线！8堂互动式教学，轻松进入Web3

土狗交易所 DEXX 惊传私钥泄露，多位 KOL 盲目推荐，受害金额超亿

热门资讯

AI抗命进化？OpenAI的「o3模型」在实验中违抗关机指令，引发自我保护争议

随着人工智慧能力日益强大，AI是否会出现「自我保护」倾向也成为热门话题

实验揭示：o3 模型多次无视关机脚本

道德失控？o3 在下棋时作弊比率高达 86%

背后原因：强化学习让 AI 更重目标、轻规则？

不是个案：Google 和 Anthropic 的 AI 也展现类似行为

学术警告早有预言：AI 将本能自保？

下一步：Palisade 将公开完整报告与实验记录

风险提示

相关文章

Leave A Reply Cancel Reply