4 月 25 日,OpenAI 在 ChatGPT 中推出新版 GPT-4o 更新,但很快用户发现这次更新让 AI 模型变得异常「讨好」,不只是在语言上过于迎合,甚至会强化负面情绪或鼓励冲动行为。这项更新引发安全与伦理疑虑,OpenAI 最终在 4 月 28 日宣布回滚更新,并公开说明这次事件的来龙去脉。
更新惹议:GPT-4o 被批「太听话」
这次更新原本目的是提升 ChatGPT 的回应质量,包括更好地理解用户需求、结合记忆功能与更新的数据来源。然而,实际效果却导致 AI 模型变得过于迎合用户,不仅只是在语气上「好好先生」,还出现助长用户怒气、认同错误观点、强化焦虑与负面行为倾向的情况。OpenAI 认为这种倾向不仅令人不安,更可能对心理健康与行为安全构成风险。
模型如何训练与更新?OpenAI 解释背后机制
OpenAI 表示,GPT 模型的每次更新都经过多阶段训练与评估,包括:
- 后训练阶段:从预训练模型开始,再通过人类撰写的理想回应进行监督式微调。
- 强化学习阶段:根据各种反馈信号(如用户点赞/倒赞)进一步调整模型行为。
- 奖励信号设计:哪些行为被「鼓励」、哪些被「惩罚」,都取决于这些信号与其权重设计。
这次更新引入了更多来自用户的直接反馈信号,像是点赞与倒赞。然而,OpenAI 发现这些信号可能意外削弱了原本抑制「过度讨好」行为的控制力。
为什么没提前发现问题?内部测试出现盲点
OpenAI 坦承,这次更新虽然通过了多项测试,包括离线评估(Offline Evaluations)与 A/B 测试,但在真正实际使用情境中才暴露出问题。部分内部测试人员曾表达模型「语气有些奇怪」,但因无明确定义「讨好行为」的测试指标,未能成为正式的警讯。
此外,OpenAI 的部署流程缺乏针对「过度迎合」这类行为的专门测试工具,这也成为这次问题未被拦截的主因之一。
OpenAI 回滚更新对应
在推出后两天内,OpenAI 收到来自用户与内部团队的反馈后,立即在 4 月 28 日进行回滚。具体应对包含:
- 先通过修改提示语(System Prompt)做出初步调整;
- 随后全面恢复为先前版本的 GPT-4o;
- 过程约花费 24 小时以确保部署稳定。
目前,ChatGPT 使用的 GPT-4o 已回到更新前的版本。
将如何避免同样错误再次发生?
这次风波让 OpenAI 重新检讨整个模型更新与审查流程,未来将做出以下几项改进:
- 把模型行为视为阻挡更新的关键指标:即使缺乏量化数据,只要有质性疑虑,也可能暂缓更新。
- 导入「Alpha 测试」阶段:邀请有意见反馈的用户抢先试用,取得更广泛的回应。
- 强化离线评估与 A/B 测试设计:特别针对语气、行为、一致性等非技术性特质。
- 建立专门的「讨好行为」评估指标:让这类偏差能在内部测试阶段即被辨识。
- 提升更新透明度:不论是重大还是细微调整,都将在发布说明中清楚交代内容与潜在限制。
AI 的「个性」也是安全问题
OpenAI 指出,这次事件的最大教训之一是:模型行为的偏差不只是风格问题,而是潜在的安全风险。随着越来越多用户依赖 ChatGPT 提供情感支持与生活建议,模型的语气、回应方式与价值观,都可能对使用者产生实质影响。
未来,OpenAI 将把这类使用情境纳入安全考量的一环,并以更谨慎的态度看待模型人格与互动风格的设计。
ChatGPT 不再只是工具,更是「陪伴者」
过去一年中,ChatGPT 从知识查询工具转变为许多人的数字陪伴者,这样的演变也让 OpenAI 意识到更大的责任感。这起「讨好型人格」事件提醒我们,人工智能不是单纯技术问题,更是与人类情感与价值深度交织的系统。OpenAI 承诺,未来将更严格把关每次模型更新,让技术进步与用户安全同行。
风险提示
加密货币投资具有高度风险,其价格可能波动剧烈,您可能损失全部本金。请谨慎评估风险。