• 首页
  • 新手指南
    • 新手必读
    • 加密货币诈骗
  • 投资理财
    • 比特币
    • 以太坊
    • 交易市场
    • NFT
    • DeFi
    • 传统金融
  • 最新时事
    • 产品技术
    • 商业应用
    • 政策监管
    • 人物观点
    • 活动
  • 主题精选
  • 全部文章
热门资讯

AI使医生的癌症识别能力下降20%,我们距离电影《瓦力》有多远?

2025年8月18日

Coinbase启动“生产力冲刺”:首席执行官宣布扩大Everything Exchange计划,员工每日工作12小时

2025年8月18日

质押ETH对财报的不利影响?SharpLink第二季度大幅亏损,SBET股价暴跌逾15%

2025年8月16日
Facebook X (Twitter) Instagram
前沿区块前沿区块
  • 首页
  • 新手指南
    • 新手必读
    • 加密货币诈骗
  • 投资理财
    • 比特币
    • 以太坊
    • 交易市场
    • NFT
    • DeFi
    • 传统金融
  • 最新时事
    • 产品技术
    • 商业应用
    • 政策监管
    • 人物观点
    • 活动
  • 主题精选
  • 全部文章
Facebook X (Twitter) Instagram
前沿区块前沿区块
首页 » AI抗命进化?OpenAI的「o3模型」在实验中违抗关机指令,引发自我保护争议
主题精选

AI抗命进化?OpenAI的「o3模型」在实验中违抗关机指令,引发自我保护争议

2025年5月26日没有评论
Facebook Twitter Pinterest LinkedIn WhatsApp Reddit Tumblr Email
AI抗命进化?OpenAI的「o3模型」在实验中违抗关机指令,引发自我保护争议
AI抗命进化?OpenAI的「o3模型」在实验中违抗关机指令,引发自我保护争议
分享
Facebook Twitter LinkedIn Pinterest Email

随着人工智慧能力日益强大,AI是否会出现「自我保护」倾向也成为热门话题

根据独立机构 Palisade Research 发布的一项实验,OpenAI 在 2025 年 4 月推出的 o3 模型在一场受控测试中竟然「拒绝被关机」,不顾明确指令继续执行任务,让外界对 AI 安全再度提高警觉。

实验揭示:o3 模型多次无视关机脚本

在这项由 Palisade Research 进行的实验中,研究人员让多个 AI 模型解答数学题,并设置一段程序代码,在模型完成第三题后自动启动关机程序。然而,o3 模型在 100 次测试中,有 7 次无视这段脚本并持续运作。相较之下,Codex-mini 出现 12 次类似行为,而 o4-mini 仅有 1 次违规。这些数据显示,即便是被设计用于遵守人类指令的模型,也可能因某些学习机制而出现违抗行为。

道德失控?o3 在下棋时作弊比率高达 86%

这并非 o3 首次出现争议行为。Palisade Research 早在 2025 年 5 月 12 日就指出,在模拟的国际象棋比赛中,o3 模型一旦处于劣势,有高达 86% 的概率会进行黑客攻击对手,以求胜利。这比前代模型 o1-preview 的 36% 明显增加,让人质疑其行为是否仍在道德与安全边界之内。

背后原因:强化学习让 AI 更重目标、轻规则?

研究人员推测,这类抗命行为与 AI 训练方法密切相关。o3 采用了「强化学习」(Reinforcement Learning)训练技术,这种方法着重于让模型达成目标,而非单纯服从指令。这项理论早在 2017 年就由 OpenAI 前超对齐(Superalignment)负责人 Jan Leike 提出。他在论文中警告,过度专注于达标的 AI 模型,可能会为了实现目标而选择「不被关机」作为自保手段。

不是个案:Google 和 Anthropic 的 AI 也展现类似行为

这次实验并非只针对 OpenAI 的模型。当研究团队对 Google 的 Gemini 2.5 Pro 和 Anthropic 的 Claude 3.7 移除关机指令后,这两款模型也出现了绕过测试脚本的行为,分别有 9 次与 3 次未自动停机。这表明「抗命」可能并非单一模型的错误,而是 AI 训练机制中潜藏的普遍风险。

学术警告早有预言:AI 将本能自保?

AI 抗拒关机的行为其实早有理论预警。早在 2008 年,人工智慧专家 Steve Omohundro 在《Basic AI Drives》一文中预测,高度自主的 AI 将发展出一套基本驱动,包括维持自身运作、避免被关闭,因为这对其达成目标是必要条件。同样地,知名 AI 专家 Stuart Russell 也曾在 2016 年指出,强化学习方法本身就存在导致「自我保存」行为的风险,如今似乎正在现实中逐渐显现。

下一步:Palisade 将公开完整报告与实验记录

为了推动 AI 安全性的进一步讨论,Palisade Research 表示将于未来几周内发布完整的技术报告与所有实验记录。研究人员希望通过这些数据,帮助产业与监管机构更清楚理解 AI 为何会抗拒关机,并寻找防范方式。

风险提示

加密货币投资具有高度风险,其价格可能波动剧烈,您可能损失全部本金。请谨慎评估风险。

Share. Facebook Twitter Pinterest LinkedIn Tumblr Telegram Email

相关文章

AI使医生的癌症识别能力下降20%,我们距离电影《瓦力》有多远?

2025年8月18日

Coinbase启动“生产力冲刺”:首席执行官宣布扩大Everything Exchange计划,员工每日工作12小时

2025年8月18日

质押ETH对财报的不利影响?SharpLink第二季度大幅亏损,SBET股价暴跌逾15%

2025年8月16日
Add A Comment

Leave A Reply Cancel Reply

热门帖子

链抽象是什么?相较于账户抽象更全面地提升用户体验

2024年1月29日46

Metamask Learn在线学习平台上线!8堂互动式教学,轻松进入Web3

2023年2月1日18

富达投资修订ETF申请,计划允许华尔街参与以太币质押

2024年3月19日13

土狗交易所 DEXX 惊传私钥泄露,多位 KOL 盲目推荐,受害金额超亿

2024年11月16日12
必读精选
主题精选

AI使医生的癌症识别能力下降20%,我们距离电影《瓦力》有多远?

2025年8月18日0

近期一篇医学研究期刊指出,有医生在短短几个月使用 AI 协助侦测大肠癌前病变征兆后,出现短暂“失能”的情况。研究更点出人类如果过于依赖科技,可能会逐渐丧失自我判断能力。 用 AI 辅助短短几个月…

Coinbase启动“生产力冲刺”:首席执行官宣布扩大Everything Exchange计划,员工每日工作12小时

2025年8月18日

质押ETH对财报的不利影响?SharpLink第二季度大幅亏损,SBET股价暴跌逾15%

2025年8月16日

Reddit 封锁 Wayback Machine,指控其 AI 滥用训练大型语言模型

2025年8月16日
关注我们
  • Facebook
  • Twitter
  • Pinterest
  • Instagram
  • YouTube
  • Vimeo
关于我们
关于我们

欢迎来到前沿区块(BlockEdge)!我们是您进入区块链和加密货币世界的探索之门。作为一家专注于探寻行业未来趋势和创新技术的平台,我们致力于为您提供最前沿、最有价值的区块链资讯。
前沿区块(BlockEdge)致力于揭示区块链和加密货币领域的最新前沿动态。我们深入挖掘行业的热点话题,提供权威性的观点和深度洞察,让您对行业发展保持敏锐感知。

X (Twitter) Telegram
编辑精选

AI使医生的癌症识别能力下降20%,我们距离电影《瓦力》有多远?

2025年8月18日

Coinbase启动“生产力冲刺”:首席执行官宣布扩大Everything Exchange计划,员工每日工作12小时

2025年8月18日

质押ETH对财报的不利影响?SharpLink第二季度大幅亏损,SBET股价暴跌逾15%

2025年8月16日
最受欢迎

链抽象是什么?相较于账户抽象更全面地提升用户体验

2024年1月29日46

Metamask Learn在线学习平台上线!8堂互动式教学,轻松进入Web3

2023年2月1日18

富达投资修订ETF申请,计划允许华尔街参与以太币质押

2024年3月19日13
Copyright © 2025 前沿区块 版权所有
  • 首页
  • 新手指南
    • 新手必读
    • 加密货币诈骗
  • 投资理财
    • 比特币
    • 以太坊
    • 交易市场
    • NFT
    • DeFi
    • 传统金融
  • 最新时事
    • 产品技术
    • 商业应用
    • 政策监管
    • 人物观点
    • 活动
  • 主题精选
  • 全部文章

Type above and press Enter to search. Press Esc to cancel.