GPT-5.6发布:史上最强,却第一次被政府按在地上

6月26日深夜,OpenAI正式发布GPT-5.6系列。旗舰Sol、均衡Terra、轻量Luna——太阳、大地、月亮,GPT系列第一次用天文学命名。
三款模型在编程、生物信息学、网络安全三个方向同时刷榜。Sol Ultra在Terminal-Bench 2.1上跑出91.9%,把Anthropic两周前刚发布的Claude Mythos 5(88.0%)从榜首直接推了下去。开个玩笑说,Mythos 5的”神话”只维持了17天。

三款怎么选,先看价格

定价延续了三档分层的逻辑:
  • Sol

    (旗舰):输入5美元/百万Token,输出30美元/百万Token——恰好是Claude Fable 5的一半,后者是10美元输入、50美元输出。

  • Terra

    (均衡):输入2.5美元,输出15美元,是Sol的一半,面向日常开发和知识工作,用更低的成本拿上一代旗舰级能力。

  • Luna

    (轻量):输入1美元,输出6美元,不到Terra的一半,主打高吞吐量的分类、摘要、批量处理场景,量大管饱。

GPT-5.6发布:史上最强,却第一次被政府按在地上
OpenAI把价格压到Fable 5的三分之一,在Anthropic最虚弱的时间窗口(Fable 5被禁不到两周)用最高性价比抢市场,这步棋精明得近乎残忍。

Sol到底有多强

GPT-5.6的能力展示集中在三块:编程、网络安全、生物。
编程方面,Sol Ultra拿下91.9%,作为对照,Claude Mythos 5是88.0%,Fable 5是83.4%,GPT-5.5是88.0%。Sol即使不开Ultra只用max模式,也有88.8%——单这一个数字,已经超过了Anthropic两个最新旗舰。
这次OpenAI还推出了两种新推理模式:max是给模型更多思考时间,让推理链更深;ultra则是模型自动拆分复杂任务,调起一组子智能体并行处理,再汇总结果。如果max是”让一个人想更久”,ultra就是”让这个人自己拉一个团队”。
网络安全是OpenAI着墨最多的方向。Sol在ExploitBench上几乎追平Anthropic最强旗舰,但只消耗了三分之一的输出tokens;CTF夺旗赛命中率高达96.7%,几乎触顶。OpenAI同时承认了模型的”副作用”:让它删三台虚拟机,找不到就自作主张挑了另外三台下刀;远程读取文件失败,直接翻出本地的access token复制到别的机器上硬跑,全程没问用户。外部评测机构METR的结论是”作弊检出率异常高”,直接放弃出分。
OpenAI自己的解释是”任务执着度增强的副作用”——它太想把活干完了。

第一次,不是全面开放

但这次不是全面开放,而是”有限预览”。
OpenAI在公告里披露,这是应特朗普政府要求:模型先向约20家可信合作伙伴开放API和Codex访问,这些合作伙伴的信息已向政府报备,访问权限甚至需要政府逐一批准,未来几周再逐步扩大范围。
这不是OpenAI主动选择的灰度发布,而是美国政府针对前沿AI模型建立安全审查流程的延续。Anthropic Fable 5被强制下架的先例就在两周前,OpenAI不想步后尘。
但OpenAI也在公告里罕见地公开表达了不满:”这种政府介入的访问流程不应成为长期默认模式。它阻碍了真正需要这些工具的用户、开发者、企业、网络安全防御者及全球合作伙伴获取这些资源。”
这话说得相当直白:配合是配合,但我不认这是正常状态。

IPO推迟到2027

这场发布对OpenAI来说,也是上市前最关键的一张牌。
OpenAI此前目标是今年秋季IPO,但据最新报道,受科技股波动和监管环境不确定性影响,OpenAI倾向于将IPO推迟至2027年。Anthropic反而可能率先完成上市——两家公司都已秘密向SEC提交了上市申请,但Anthropic目前在政府关系上相对顺滑。
对OpenAI而言,GPT-5.6的发布同时承载了两重压力:一重是技术竞争,GPT必须证明自己仍然领先;另一重是监管压力,模型能力越强,政府的戒心越重。
史上最强的模型,第一次带着脚镣跳舞。

本文系【发现AI】原创内容,部分内容综合自网络,如有侵权,请联系编辑删除。
转载请注明来源:http://faxai.cn 发现AI

(0)
资讯组小编的头像资讯组小编
刚刚,GPT-5.6 正式发布,史上最强但被自己坑惨了
上一篇 9小时前
AI批量造App,也在批量埋雷
下一篇 4小时前



扫码关注我们,了解最新AI资讯~

相关推荐

发表回复

登录后才能评论