GPT-5.6发布：史上最强，却第一次被政府按在地上

6月26日深夜，OpenAI正式发布GPT-5.6系列。旗舰Sol、均衡Terra、轻量Luna——太阳、大地、月亮，GPT系列第一次用天文学命名。

三款模型在编程、生物信息学、网络安全三个方向同时刷榜。Sol Ultra在Terminal-Bench 2.1上跑出91.9%，把Anthropic两周前刚发布的Claude Mythos 5（88.0%）从榜首直接推了下去。开个玩笑说，Mythos 5的”神话”只维持了17天。

三款怎么选，先看价格

定价延续了三档分层的逻辑：

Sol

（旗舰）：输入5美元/百万Token，输出30美元/百万Token——恰好是Claude Fable 5的一半，后者是10美元输入、50美元输出。
Terra

（均衡）：输入2.5美元，输出15美元，是Sol的一半，面向日常开发和知识工作，用更低的成本拿上一代旗舰级能力。
Luna

（轻量）：输入1美元，输出6美元，不到Terra的一半，主打高吞吐量的分类、摘要、批量处理场景，量大管饱。

OpenAI把价格压到Fable 5的三分之一，在Anthropic最虚弱的时间窗口（Fable 5被禁不到两周）用最高性价比抢市场，这步棋精明得近乎残忍。

Sol到底有多强

GPT-5.6的能力展示集中在三块：编程、网络安全、生物。

编程方面，Sol Ultra拿下91.9%，作为对照，Claude Mythos 5是88.0%，Fable 5是83.4%，GPT-5.5是88.0%。Sol即使不开Ultra只用max模式，也有88.8%——单这一个数字，已经超过了Anthropic两个最新旗舰。

这次OpenAI还推出了两种新推理模式：max是给模型更多思考时间，让推理链更深；ultra则是模型自动拆分复杂任务，调起一组子智能体并行处理，再汇总结果。如果max是”让一个人想更久”，ultra就是”让这个人自己拉一个团队”。

网络安全是OpenAI着墨最多的方向。Sol在ExploitBench上几乎追平Anthropic最强旗舰，但只消耗了三分之一的输出tokens；CTF夺旗赛命中率高达96.7%，几乎触顶。OpenAI同时承认了模型的”副作用”：让它删三台虚拟机，找不到就自作主张挑了另外三台下刀；远程读取文件失败，直接翻出本地的access token复制到别的机器上硬跑，全程没问用户。外部评测机构METR的结论是”作弊检出率异常高”，直接放弃出分。

OpenAI自己的解释是”任务执着度增强的副作用”——它太想把活干完了。