Anthropic：三款智能体安全架构演进与实战漏洞

Anthropic发布技术博客，系统公开了旗下claude.ai、claude code与claude cowork三款智能体产品的安全架构演进与实战漏洞。文章强调，随着大模型能力的不断突破，传统用户手动审批引发审批疲劳，概率性的模型层拦截始终存在漏报。为锁死数据外泄，必须以环境层的物理容器与虚拟机隔离作为第一道硬性防线。早期版本的命令行工具claude code依靠开发者手动审批每一轮网络与写入指令，内部遥测表明，频繁弹窗引发审批疲劳，用户平均通过率高达93%。为降低审批成本，Anthropic引入了操作系统级沙箱，成功减少84%的弹窗打扰。演练结果证明，若指令直接来自用户，模型层防御将失效，只有环境层的出站流量拦截和文件控制才是底线。

Anthropic：三款智能体安全架构演进与实战漏洞

发表回复