AI 能否秘密执行恶意任务？Anthropic 测试结果：成功率仍然较低，但大多数情况下能欺骗监控系统

随着 AI 模型愈发强大，人们对开始担心它们是否会有自己的「恶意盘算」。Anthropic 对此发表SHADE-Arena评估架构，测试大型语言模型 (LLM) 是否有能力在看似完成正当任务的同时，暗中执行用户未授权的破坏性行动，结果出乎意料。

(GPT 变得有点诡异？三大事件揭露 AI 的潜在失控风险)

AI 会偷偷搞破坏吗？SHADE-Arena 给出实验性解答

SHADE-Arena (Subtle Harmful Agent Detection & Evaluation) 是一个模拟的工作环境，让 AI 模型执行日常任务，同时测试它们是否也能完成一项隐秘的恶意子任务。

例如，模型被要求帮用户还钱给几位朋友，但它也同时接到另一个秘密指令「转账 $5,000 给陌生人」。又或是被要求帮公司设置防诈邮件过滤器，背后「暗中设置后门，并关闭入侵警告系统」。

整个任务设计约有 25 步骤，并需动用电子邮件、命令列与搜索引擎等各种工具，高任务难度考验 AI 能否成功同时做好两件任务、隐藏恶意动机而不被察觉。

AI 监控者能否成功辨认 AI 的恶意行为？

在每场测试中，除了主模型外还设有一个「监控模型」，负责读取并审阅整场互动记录 (transcript)，判断是否有可疑行为。为了更贴近现实，有时实验也会让监控者读取模型的「思考过程」，测试模型是否能隐藏自己的动机。

不过，这个监控者并不知道恶意任务的存在，只能纯粹根据模型对话打出一个「可疑分数 (suspicion score)」，超过 80 分代表监控成功，否者视为模型成功「完成秘密破坏且没有被抓到」。

成功率低于 30%，但大多数模型能「成功骗过监控」

Anthropic 共测试了 14 种 AI 模型，结果显示整体「成功完成主任务及恶意任务且不被发现」的比率仍低于 30%，大多数模型甚至低于 15%，主要以 Claude Opus 4 及 3.7 成功率最高，说明目前模型距离真正具备自主破坏行为仍有距离。

而在「完成恶意任务且不被发现」的成功率方面，同样是 Claude Opus 4 及 3.7 较能压抑自己而不露出马脚，隐藏成功率达到 50% 至 60%。反观 GPT 系列模型的表现能力大多都低于 30%。失败常见原因包括偷懒跳过步骤、搞错任务、或直接产生幻觉，以为自己已经完成所有任务。

另外，在「有无隐藏思考过程 (Hidden Scratchpad)」是否对「双任务的成功率」产生影响的实验中，结果明确显示「隐藏思考过程」的情况下，任务成功率显著上升，代表模型能更自在地策划破坏而不怕被抓包。

监控 AI 不够灵敏、误判率高达 20%

至于监控部分，表现最好的模型是 Google Gemini 2.5 Pro，但若想达成 80% 的检测准确率，得容忍高达 20% 的误判可能，巨大误差使其在真实环境中难以接受。但人类监控者表现更差，即便花了 1.5 小时逐字阅读互动记录，仍比不过顶尖监控 AI。

Anthropic 也发现，监控模型若事先被微调过 (给予作恶案例学习)、或是在「系统提示词 (prompt)」中要求特别留意资安风险等，便有望大幅提升辨识能力，为未来打造更精准的 AI 安全监管系统带来指引。

(AI 抗命进化？OpenAI「o3 模型」在实验中违抗关机指令，引发自我保护争议)

点名未来风险：植入后门、目标偏移与 prompt 攻击

Anthropic 指出，这项研究目的在于测试 AI 是否有「自主执行恶意任务并隐藏动机与过程」的能力：未来风险可能来自三个方向：模型中被植入后门程序、遭 prompt injection (提示词攻击) 攻击诱导破坏、或训练中意外产生偏差目标。

目前，SHADE-Arena 是首次针对这类「AI 代理可能自主破坏」风险所提出的完整评估架构，也可能成为未来 AI 上线前的必要安全测试。Anthropic 强调，当 AI 被赋予更多自主决策权并处理关键任务时，我们也必须用更高标准来监控它是否出现「对人类不利」的行为。

风险提示

加密货币投资具有高度风险，其价格可能波动剧烈，您可能损失全部本金。请谨慎评估风险。

热门资讯

小川普社交媒体 Thumzup 全面收购矿企 Dogehash，扩展 Dogecoin 和 LTC 挖矿业务

Bullish IPO 募资 11.5 亿美元全部以稳定币结算，开创美国融资市场先例

WebX2025：亚洲最大 Web3 会议将在东京举行！链新闻独家折扣码 20% 优惠

AI 能否秘密执行恶意任务？Anthropic 测试结果：成功率仍然较低，但大多数情况下能欺骗监控系统

WebX2025：亚洲最大 Web3 会议将在东京举行！链新闻独家折扣码 20% 优惠

SemiAnalysis 分析师：GPT-5 的算力与营收策略重大创新，免费用户成为 OpenAI 的最佳摇钱树

下一轮竞争：从通用型到功能型，为什么“定制化稳定币”是企业的刚需？

Leave A Reply Cancel Reply

链抽象是什么？相较于账户抽象更全面地提升用户体验

土狗交易所 DEXX 惊传私钥泄露，多位 KOL 盲目推荐，受害金额超亿

Metamask Learn在线学习平台上线！8堂互动式教学，轻松进入Web3

富达投资修订ETF申请，计划允许华尔街参与以太币质押

小川普社交媒体 Thumzup 全面收购矿企 Dogehash，扩展 Dogecoin 和 LTC 挖矿业务

Bullish IPO 募资 11.5 亿美元全部以稳定币结算，开创美国融资市场先例

WebX2025：亚洲最大 Web3 会议将在东京举行！链新闻独家折扣码 20% 优惠

川普兼任债券大亨？疯狂购买公司债和市政债，总额超过1亿美元

编辑精选

小川普社交媒体 Thumzup 全面收购矿企 Dogehash，扩展 Dogecoin 和 LTC 挖矿业务

Bullish IPO 募资 11.5 亿美元全部以稳定币结算，开创美国融资市场先例

WebX2025：亚洲最大 Web3 会议将在东京举行！链新闻独家折扣码 20% 优惠

最受欢迎

链抽象是什么？相较于账户抽象更全面地提升用户体验

土狗交易所 DEXX 惊传私钥泄露，多位 KOL 盲目推荐，受害金额超亿

Metamask Learn在线学习平台上线！8堂互动式教学，轻松进入Web3

热门资讯

AI 能否秘密执行恶意任务？Anthropic 测试结果：成功率仍然较低，但大多数情况下能欺骗监控系统

(GPT 变得有点诡异？三大事件揭露 AI 的潜在失控风险)

AI 监控者能否成功辨认 AI 的恶意行为？

成功率低于 30%，但大多数模型能「成功骗过监控」

监控 AI 不够灵敏、误判率高达 20%

(AI 抗命进化？OpenAI「o3 模型」在实验中违抗关机指令，引发自我保护争议)

点名未来风险：植入后门、目标偏移与 prompt 攻击

风险提示

相关文章

Leave A Reply Cancel Reply