Codex自我蒸馏玩法火了！OpenAI员工亲授：复制粘贴就能让AI消灭重复劳动

评测组小编 • 文章来源: 量子位 • 2026年5月25日下午9:23 • 评测

Codex自家程序员，直接把Codex「自我蒸馏」的秘籍给爆出来了…

只需要把一段提示词，直接复制粘贴进Codex。

它就会主动翻查你的历史会话，找出你一直在手动重复做的事，然后替你把这些工作流打包成可复用的工具。

这位Codex成员可以说是相当慷慨，经过网友反馈之后，他还立马迭代出了一个2.0版本。

这怎么说呢…老哥还是太全面了。

OpenAI总裁Greg Brockman也亲自赶来转发点赞了。

有意思的是，Brockman还同时转发了一条冷知识：Codex是开源的。

Codex自我蒸馏，怎么做到的？

我们来细品一下Vabihav（就叫他VB吧）发布的这两版提示词。

第一版是酱婶儿的：

看看我最近的会话，找出重复的工作流或重复的请求。

对于我一直在手动做的事，给我建议：

如果是可复用工作流，创建一个skill；2. 如果是有边界的角色或调查任务，创建一个custom subagent。

重点关注CI失败、PR审查、changelog、文档更新、发版准备、调试、测试分诊这类实际工作。

只创建有用的，保持简洁。

很短，只有9行。

直接把这段提示词复制粘贴进Codex，它就会开始开始翻你的历史会话，找出那些你反复在做的动作。

然后告诉你这件事该做成skill，那件事更适合派个subagent去专门负责。

咋说呢，这提示词简洁是简洁。

但CI失败、PR审查、changelog这些名词…感觉都太专业了，好像是程序员专属提示词。

果不其然，第一版发出来之后，评论区立刻涌进了一堆反馈。

VB老哥也是没闲着，紧赶慢赶当天就更新了第二版。

直接把数据源和覆盖范围都扩大了一圈。

提示词也变长了不少，从9行变成了35行：

中文版也贴在这里：

回顾我过去30天的工作记录，找出值得打包的重复手动工作流。

按优先级使用以下数据源：最近的Codex会话和任务摘要；Codex Memories和汇总记录，找跨会话的重复模式；如果开了Chronicle，用它发现Codex以外的重复工作（仅用于发现，重要细节需回原始系统确认）；已有的skill、custom agent和automation，优先复用或扩展，不要重复造轮子。

要广撒网：编码、调研、写作、规划、沟通、运营、分析、个人事务都算。

只在以下条件都满足时才动手：发生过至少两次，或明确可能再发生且重来代价高；有稳定输入、可重复流程和明确输出；能实质改善速度、质量或可靠性；现有工具还没覆盖。选最小适用形式：Skill、Custom subagent、Automation、Skip。

先输出候选清单，再创建高置信度的项目，最后告诉我创建了什么、跳过了什么、还需要更多证据的是什么。

和第一版相比呢，主要有三处升级：

数据源从「最近会话」扩展到了Memories和Chronicle，Codex能看到的东西也是多出不少。

覆盖范围从编码任务扩到写作、规划、沟通、运营，几乎包含了你全部的工作场景。

（不只是程序员哈，咱写文章的、做运营的、搞策划的都能用了）

输出也从「给建议」升级成了「直接创建」，高置信度的条目，它自己就动手了。

打包出来的结果分四种：

每周重复的固定流程，做成Skill；
需要专门角色去搞定的调查任务，派Subagent；
定时触发、不需要人盯的检查，做成Automation；
只发生过一次、边界模糊的，直接Skip，不打包。

评论区的反应也印证了这条提示词的实用性。有网友当场喊话：

「把它做成插件，叫 /dream，给我发版税。」

VB本人也在评论里承认，确实应该做成正式插件，只是dream这个名字…他不太买账哈。

不过也有网友质疑，回看30天的历史记录，这得烧多少token啊？？

不得不说，token确实是大家最关心的问题…

不过VB并没有给出回应，可能作为内部人员在token方面还是很有保障的吧。

而且OpenAI最近一直在疯狂重置Codex的速率限制，感兴趣的友友们还是可以大胆一试的。

还有网友试用后发现，他自动生成的skill有一半来自「在输入还没稳定的时候就做过两次的事」。

结果维护这些抽象的成本比直接重做还高。

他的问题是：到底是让Codex自己判断要不要打包，还是人工把关？

它依赖哪些Codex新功能

可能大家也看出来了。

VB这条提示词涉及的Chronicl、Memory和Subagent，都是Codex这两个月猛猛连发的几个新功能。

最新的是Chronicle，4月20日刚上线，目前还是预览版。

它的作用是屏幕截取，如果你开了这个功能，Codex就能看到你在浏览器、Slack、邮件里做了什么。

当然，它也可以看到你所做的重复工作了。

不过，Chronicle目前只对macOS上的ChatGPT Pro订阅用户开放，而且记忆未加密存储在本地，会快速消耗rate limit，提示词注入风险也更高。

Memory功能，是4月16日随Codex大更新一起上线的，也是预览功能。

它可以记住用户偏好、修正记录和项目专属知识，并在未来会话中自动调用。

Subagent功能则更早一些，3月正式上线。

它由一个管理Agent协调多个专门编码Agent，每个Agent在独立的云端沙盒中运行。

VB，一个爱整活的OpenAI员工

最后我们来介绍一下Vaibhav Srivastav，这也是一个很有意思的人。

他是OpenAI Codex团队成员，也是前HuggingFace成员。

曾在HuggingFace担任机器学习开发者布道师，以及开发者体验与社区负责人。

他应该是目前Codex生态里最能整活的内容输出者之一。

在他的X账号里，全是他依赖Codex处理日常事务的印记。

就在昨天，他还在试图用Codex配置自己的树莓派，确保设备接入家庭WiFi后能远程访问。

而在5月22日，他宣称自己「已经超过一个月没有打开过IDE了」，光用Codex已经完全足够。

「一个App统治一切！」

真是Codex最最最忠实的粉丝了。

除了这条自我蒸馏提示词，从他的推文里，量子位还挖出了不少Codex有意思的玩法。

比如Codex的 /goal 命令：给Codex定一个「完成态」，告诉它成功的样子是什么，然后让它一直跑到达成目标。

背后有一个验证器在每一步结束后判断「目标是否达成」，如果没有，主模型继续执行。

这个功能特别适合大规模重构、代码迁移、长期实验，或者那些「只要不停就能做完」的任务。

Codex 0.128.0版本起可用，通过 /goal 命令触发。

本文来自转载量子位，观点仅代表作者本人，发现AI平台仅提供信息存储空间服务。
如若转载，请联系原作者；如有侵权，请联系编辑删除。

赞 (0)

评测组小编

微信扫一扫

微信扫一扫

Gemini 学生优惠到期，没想到我又找到了新路子

Gemini 学生优惠到期，没想到我又找到了新路子

上一篇 2026年5月25日下午9:22

用 Codex 优化网速狂飙 900Mbps？实测之后我发现了新的隐藏玩法

用 Codex 优化网速狂飙 900Mbps？实测之后我发现了新的隐藏玩法

下一篇 2026年5月25日下午9:24

扫码关注我们，了解最新AI资讯~

评测

扣子3.0实测：手机就能远程遥控你电脑里的Agent

评测组小编
2026年6月3日
评测

实测腾讯 Hy3 正式版，这次终于赶上了「AI 下半场」

评测组小编
3天前
评测

我宣布：Codex比ChatGPT还好用

评测组小编
2026年5月18日
评测

别让模型烧Token了！GitHub 20k星神作：把全网变成命令行

评测组小编
2026年5月16日
评测

我用AI做了个修仙小游戏：4分钟生成，30秒玩腻，飞剑只砍自己人…

评测组小编
2026年5月27日
评测

MiniMax M3一手实测：老黄PPT上74个Logo，我以为能难住它

评测组小编
2026年6月2日

发表回复

登录后才能评论

美团LongCat-2.0同步开放国产卡推理代码
4小时前
分享到:

美团宣布正式开源LongCat-2.0，并同步开放国产卡推理代码。作为业界首个在五万卡国产算力集群上完成推理的万亿参数模型，LongCat-2.0已全面开源。针对显存与带宽受限的国产算力芯片，团队在模型架构、芯片适配到部署策略上进行了深度协同优化，使得万亿参数模型在存量卡上同样能够稳定、高效运行。本次开源提供了bf16、fp8以及int8等多精度版本，全面覆盖不同算力平台的部署需求。同时，团队将针对国产算力极致优化的推理成果同步开源，旨在让更多的国产卡，包括老卡，都能流畅部署万亿大模型推理服务，发挥更大价值。
Meta计划投产自研AI芯片“iris”
4小时前
分享到:

据《路透社》报道，Meta Platforms计划自9月起投产其自研AI芯片，代号为“iris”。该芯片属于Meta内部MTIA加速器项目的一部分，旨在提升Facebook与Instagram等平台的AI性能，并减少对英伟达及AMD等第三方芯片供应商的依赖。iris芯片的测试进展迅速，仅耗时6周且无重大问题，Meta将通过与博通合作设计、台积电负责代工的方式进行生产。此外，Meta正全力扩建计算基础设施，计划在2026年部署7 GW的算力，并于2027年实现倍增至14 GW。为支撑这一扩张，Meta已与三星电子、闪迪（SanDisk）及住友电气签订了内存、闪存及光纤设备的长期供应协议。
Meta发布Muse Spark 1.1并开放API，卷起AI编程价格战
4小时前
分享到:

Meta发布最新多模态推理模型Muse Spark 1.1，并开放Meta Model API公测。开发者现在可以直接调用新模型，不再只是在Meta自家产品里使用。Muse Spark 1.1主打编程、agent和多模态任务，支持100万token上下文。新模型价格打得很低：输入每100万token 1.25美元，缓存输入0.15美元，输出4.25美元。早期合作方包括Replit、Box和Cline。Meta这次不是只做聊天机器人，而是正式进入AI编程和agent市场。
PrismML把Qwen3.6压到4GB，27B模型塞进iPhone
4小时前
分享到:

PrismML表示，已将阿里开源模型Qwen3.6-27B压缩至约4GB，并成功在iPhone 17 Pro上运行。Qwen3.6-27B是一个拥有270亿参数的稠密模型，推理时所有参数均参与计算，而非仅激活部分参数的MOE模型。PrismML称，模型大小从约54GB压缩至不到4GB，性能没有明显下降，适用于复杂对话、推理、agent和代码任务。苹果公司已与PrismML接触，讨论如何将这项技术应用于其设备，尽管高级Siri仍依赖云端模型。
星巴克拟用AI自研软件替代微软、IBM系统
4小时前
分享到:

2026年7月9日，星巴克正利用AI技术开发自有企业软件，计划替代微软库存管理系统及IBM设备维护工具。此举旨在降低每年约4亿美元的软件采购成本，支持其20亿美元整体降本计划。首批自研工具或于2027年底上线。公司已削减本财年技术预算3000万美元，其中1000万来自软件支出压缩，并优化外包与人力结构。尽管AI加速开发进程，部分AI应用（如库存管理）近期已被撤回，显示技术落地仍存挑战。
Anthropic给AI危险知识装开关，一个模型切出16种配置
10小时前
分享到:

Anthropic与AE Studio发布新研究，尝试给AI的「双用途知识」装上开关。双用途知识指既能用于正当研究，也可能被滥用的能力，比如病毒学、网络安全和核物理。研究团队在真实数据实验中测试了4类双用途领域：病毒学、网络安全、核物理和小众编程语言。4个模块可组合出16种能力配置。相比为每种配置单独训练模型，这种方法只需一次训练。结果显示，Gram在保留通用能力的同时，能较好移除目标能力，对小规模恶意微调的抵抗也强于训练后「遗忘」方法。
OpenAI国安合作原则出炉：AI能进军方，但不能自己开火
10小时前
分享到:

OpenAI发布政府与国家安全合作原则，明确会继续和美国政府及盟友合作。合作重点主要是两类：网络防御和生物安全。网络防御方面，OpenAI已与澳大利亚、加拿大、日本、韩国、法国、德国、波兰、荷兰，以及欧盟网络安全机构ENISA建立合作，英国政府也参与网络安全、模型测试和评估合作。生物安全方面，OpenAI已向部分美国政府和盟友开放GPT-Rosalind，用于公共卫生和生物防御任务。同时，OpenAI划出底线：不支持大规模国内监控，不支持绕开法律和监督，也不允许AI在没人类授权的情况下自主选定并攻击目标，但并未完全排除军事、情报和调查用途。
谷歌云从OpenAI挖走Harness engineering作者，押注企业Agent工作流
10小时前
分享到:

谷歌云宣布前OpenAI工程师Ryan Lopopolo加入，担任Agentic Google Cloud Platform首席工程师。Lopopolo是OpenAI《Harness Engineering》文章的作者，该方法强调为Agent配置上下文、工具、权限、评测和反馈回路，使其真正参与软件开发。他曾参与一个内部实验，团队利用Codex从空仓库开始开发产品，5个月内生成约100万行代码，涵盖代码、测试、CI、文档和内部工具，主要由Codex完成，人类负责目标和验收。这次跳槽表明，谷歌云不仅希望销售模型和算力，还在增强企业Agent的工程化能力。
博主用AI模型发布台风预报涉嫌违法
10小时前
分享到:

2026年7月9日，中央气象台预计第9号台风“巴威”将影响我国东南沿海。部分网络博主借开源AI气象大模型自行发布台风路径及降雨预测，甚至开展付费预报（单次约10元）。专家指出，依据《中华人民共和国气象法》第三十八条，公众气象预报须由气象主管机构统一发布；个人擅自发布属违法行为，可被警告并处5万元以下罚款。AI气象模型虽提升预报效率与精度，但受限于空间分辨率（约25公里）及极端天气刻画能力，尚难替代专业气象服务。
OpenAI质疑SWE-Bench Pro评测基准有效性
10小时前
分享到:

7月8日，OpenAI发布博文指出，行业权威编程能力评测基准SWE-Bench Pro在731个公开任务中约30%存在评测缺陷。该基准由Scale AI推出，以高真实性与防作弊标准被广泛采用。OpenAI通过数据点分析和人工标注两条路径，分别识别出200个和249个失效任务，归因于测试过严、提示不充分、范围过窄及提示误导四类问题。例如某题要求行首1空格转Markdown，隐藏测试却判2空格才正确。鉴于其失效性，OpenAI已撤回对该基准的采用建议，并呼吁由资深开发者共建新一代AI编程评测标准。

【腾讯云】 4核4G服务器新客 38元/年起，支持 OpenClaw/Hermes 等热门镜像；Token Plan 低至28元/月，多种主流模型极速调用