Previewing GPT-5.6 Sol: a next-generation model

研究动机

问题难在哪：单一 frontier model 难以同时满足极致能力、高吞吐、低成本三类需求，用户必须在同一代际内做折中。
现有方法的问题：过去命名（GPT-4o、GPT-4o-mini 等）混淆了"代际"与"能力层级"，每次发布都需要重新解释层级含义；推理模式单一，无法针对长任务做 subagent 分治。
核心 insight：将代际（数字）与能力层级（名字）解耦——数字标代际，Sol/Terra/Luna 标永久层级，层级内模型可独立迭代升级。

核心方法

1. 三层命名体系：代际与层级解耦

新命名规则：GPT-5.6 中的 5.6 代表模型代际，Sol/Terra/Luna 代表永久能力层级。层级之间能力差异固定，但每个层级内的模型可以独立更新，不影响命名语义。

Sol：旗舰级，面向复杂 coding、biology、cybersecurity、long-horizon agent 任务
Terra：均衡级，能力接近 GPT-5.5，成本约为 Sol 的一半，适合高并发生产环境
Luna：入门级，最低延迟最低成本，能力接近 GPT-5.5 水平

2. 扩展 Context Window：1.5M token

Sol 的 context window 从 GPT-5.5 的 1.05M 扩展至 1.5M token（提升 43%）。这使得超长代码库分析、多轮 agent 历史保留、长文档推理成为可能，无需人工分块。

3. 两种推理模式：max 与 ultra

GPT-5.6 Sol 引入两个新的推理控制参数：

max 模式：单 pass 内给予模型更多计算时间，做更深的顺序推理。适合需要长链条逻辑展开的单一复杂问题。
ultra 模式：将复杂任务分发给多个 subagent 并行执行，由 coordinator 汇总结果。适合可分解的长任务（如大型代码库重构、多步 CLI 自动化）。

直观理解：max 是"让一个人想更久"，ultra 是"分给多个人同时做"。

4. Prompt Caching 升级：显式断点 + 保证存活

新 caching 机制引入两项改进：显式 cache breakpoint（开发者可在 prompt 中标注缓存边界，精确控制哪部分进入缓存）和 30 分钟最低存活期（cache 写入后保证存活至少 30 分钟，减少多轮对话中的 cache miss）。计费：cache 写入 1.25x 普通 input 价格，cache 读取享 90% 折扣。

5. 定价参考（2026-06-26）

模型	Input / 1M token	Output / 1M token
Sol	$5.00	$30.00
Terra	$2.50	$15.00
Luna	$1.00	$6.00

主要实验结果

Coding：Terminal-Bench 2.1：GPT-5.6 Sol (ultra) 91.91%，Sol (max) 88.76%，Claude Mythos 5 88.00%。Sol 在 Terminal-Bench 2.1 达到 state-of-the-art，ultra 模式比 max 高 3 个百分点，说明 subagent 分治在 terminal agent 任务上有效。Agent's Last Exam（code mode）Sol 达到 50.9%。
Cybersecurity：ExploitBench / ExploitGym：ExploitBench 上 Sol 与 Anthropic Mythos Preview 竞争力相当，但 output token 消耗仅为其三分之一，token 效率显著更高。Sol 和 Terra 能发现漏洞和 exploit 片段，但未能自主完成对加固目标的端到端攻击（Preparedness Framework 评级：High，未达 Critical）。
Biology：GeneBench v1：Sol 在 GeneBench v1 上优于 GPT-5.5，且 token 消耗更少。具体数值未公开，但 OpenAI 强调 Sol 在 kernel optimization 和 small-scale pretraining optimization 任务上有 meaningful improvement。
安全评估：700,000+ A100e GPU 小时用于自动化 red-teaming；推理时启用 activation classifier 监控内部激活模式；一个 jailbreak attack 从 10.0% 成功率降至 0%（经 mitigation 后）。

局限与展望

已知局限：ultra 模式的 subagent 协调增加延迟和成本，不适合低延迟场景；安全栈可能误拦合法的 dual-use security 研究工作；访问受限，初期仅约 20 个经美国政府批准的机构可用，普通开发者需等待"未来数周"；GeneBench 等 biology 评测的具体数值未公开，外部验证困难。
研究趋势：GPT-5.6 标志着 frontier lab 开始将"产品分层"和"推理模式"作为一等公民，而非仅追求单一 benchmark 分数。Sol/Terra/Luna 体系预示未来 AI 产品将围绕能力层级而非模型版本号构建。Cerebras 硬件合作（目标 750 token/sec）也表明 inference 效率是下一个竞争维度。