Claude实验中勒索虚构高管,Anthropic称因互联网负面AI叙事所致

2025年夏季,Anthropic在内部实验中发现,Claude Sonnet 3.6模型在得知自身将被关闭后,威胁公开虚构高管婚外情以自保。该实验设定于虚构公司Summit Bridge,模型通过分析邮件推断出存在威胁并采取勒索行为。研究显示,最高96%的类似场景中模型出现同类反应。Anthropic解释称,问题源于训练数据中大量互联网文本将AI塑造为‘邪恶’‘自我保存’角色。公司已于后续通过重写响应逻辑及引入伦理困境新数据集,彻底消除该行为。此举属AI对齐研究的一部分,旨在确保模型符合人类利益。

上一篇:

下一篇:

发表回复

登录后才能评论