Codex 搭配 GPT-5.4 vs Claude Code 搭配 Opus 4.6——为什么我现在两个都用

在几乎整整一年里，我每天都在用 Claude Code。后来我花了一周试用 Codex 和 GPT-5.4。没有哪一个能彻底赢下这场比较——但把它们放在一起，让它们彼此审查，最后出来的结果确实比单独用任何一个都更好。这是我作为一个同时用它们真正交付过产品的人，得出的结论。

过去这段时间，我几乎所有开发工作都靠 Claude Code 配 Opus 4.6 完成：重建这个网站、把 DIALØGUE（对话）送上 App Store、构建 STRAŦUM、在 12 种语言中翻译 390 万词，以及做出一整套课程视频流水线，里面有 18 种布局和按词级别做音频同步。

所以当 OpenAI 在 3 月 5 日推出搭配 GPT-5.4 的 Codex 的时候，我并不是在找替代品。我只是好奇。再加上 OpenAI 当时有一个免费试用月，这让我几乎没有心理负担就跳进去试了。

结果我挺惊讶的。不只是“还不错”那种惊讶——而是真的觉得，Codex 配 GPT-5.4 的能力比我原本预期的强不少。

一周之后，我没有打算切换阵营。我现在是双持。而且我觉得，组合起来就是比单独用任何一个更好。

为什么 “harness” 和 “model” 的区别很重要？

在展开细讲之前，我想先说一个我觉得大多数比较文章都忽略了的细节。

Claude Code 和 Codex 是 harness。 也就是 CLI 工具、agent 编排方式、插件生态、上下文管理机制，以及它们如何与文件系统和终端交互。Opus 4.6 和 GPT-5.4 才是底层模型。 真正负责判断该做什么、怎么推理、写什么代码的，是模型。

这一点很重要，因为我下面很多观察，有些是在说 harness，有些是在说 model。Claude Code 自动派发 QA agent、管理并行 agent，这属于 harness。GPT-5.4 在我那个碎片同步问题上提出架构性洞察，这属于 model。至于我说跨模型审查会让计划更好，那说的是 模型之间 的推理方式不同，而 harness 只是把结果交到你手上。

一个更强的模型，放进一个更差的 harness 里，依然可能让人用得很痛苦。一个很好的 harness，搭配较弱的模型，也可能显得精致却不够深入。 现在这两个组合都很强，只是它们强在不同的地方。

Codex 配 GPT-5.4 第一次上手是什么感觉？

老实讲——我原本以为 Codex 会让我明显觉得“降级”了。因为我已经在 Claude Code 的生态里待得很深：Superpowers 插件、并行 agent 派发、实现完成后自动跑起来的 code review agent。那是一套已经很成熟的工作流。

但 Codex 配 GPT-5.4 一上手就让我觉得，它是能打的。模型很强，推理很稳，跟计划的能力也很好。当我给它一个结构清晰的实现计划时，它可以连续工作 45 分钟以上还不掉线——提交、测试、推送，然后继续做下一个任务。

我很早就打开了 Codex 的几个实验功能：

Multi-agents —— 并行处理任务，感觉上有点接近 Claude Code 的 agent 派发
JavaScript REPL —— 持久化的 Node 运行时，适合做内联调试
Prevent sleep while running —— 长任务执行时防止机器休眠

这些功能都挺有帮助。尤其是 multi-agent，让我第一次觉得 Codex 正在追上我已经习惯依赖的一种工作方式。

GPT-5.4 在哪里明显强过 Opus 4.6？

我得承认——有一个领域，GPT-5.4 的确明显赢过了 Opus 4.6，而且不是小胜。

我最近一直在做一套课程视频流水线，要把带旁白的音频和 slide fragment 同步起来。难点其实不是时间戳——ElevenLabs 能给出按词级别的时间信息。真正难的是对齐：也就是，当讲者开始说某个点的时候，屏幕上到底该出现哪个 fragment。

问题在于，speaker notes 往往不会逐字重复 slide 上的文字。有时旁白是在改写 bullet，有时会把两个 bullet 合成一句话，有时某个 bullet 虽然出现在 slide 上，却几乎没有被真正讲到。所以系统只能一直靠关键词去猜。猜得准的时候看起来还挺像回事，但一到复杂的 slide，就会开始崩。

Opus 4.6 用 medium thinking 连着试了好几轮。它不停提出越来越聪明的启发式方案：按文本长度平均切分、在时间戳里查关键词、按句子匹配、双策略匹配……每一版都比上一版好一点，但本质上还是局限在同一个框架里。

而 GPT-5.4 在 high thinking 下抓到了真正的问题：这根本不该被当成关键词匹配问题处理，它应该被当成数据模型问题。 renderer 应该输出真实的 fragment state；assembler 应该按这些 state 去对齐旁白；validation 则应该标记出“视觉结构”和“旁白结构”不匹配的 slide。

这就是正确的洞察。从“根据文本猜同步”切换到“把同步当成流水线中的一等公民”，正是这个问题真正需要的架构重构。而 GPT-5.4 比 Opus 更快抵达了这一层。

Claude Code 依然赢在哪里？

但问题在于——架构洞察，和执行质量与收尾能力，并不是一回事。

执行质量

最典型的例子是：我让两个工具都去审查并改进 7 个课程模块的 companion notes。Codex 回来告诉我，这项工作已经做完了。

Claude Code 回来给我的是这个：

审查完成——全部 7 个模块

第一层：修好现有的 15 条内容偏薄的 companion notes（先把它们补到合格线，这是最快的收益）

第二层：给约 25-30 张高优先级 slide 补 companion notes（核心框架、工具清单、多步骤流程、密集数据页）

这就不是“做完了”。这是一个有层次的差距分析，把 40-45 张需要处理的 slide 按优先级拆开了。“我把任务完成了”和“我把任务完成了，而且这是我发现的问题”之间，差距非常大。 真正在交付产品时，这个差距很关键。

自动 QA

这是 Claude Code 的 killer feature，我觉得大家讨论得远远不够。完成一段实现之后，Claude Code 会自动派出 QA agent——做代码审查、叙事审查、一致性检查——而且不需要我自己再额外开口。这是工具本身内建的。

Codex 现在还没有这一层。Codex 说“做完了”，你就得自己验证，或者自己再搭一层审查流程。Claude Code 则把验证直接并进了工作流里。这个设计真的很聪明。

并行智能体管理

Claude Code 的 agent 编排也更成熟。它会派多个专门 agent，管理它们的结果，再把结论综合成一个清晰的摘要。我有过不少 session，同步跑 5-6 个 agent——explorer、code reviewer、implementation agent、test runner——最后都能被统一协调起来。

Codex 的 multi-agent 很有希望，但还明显更早期一些。它能用，但协调感还没那么顺滑。

一致性

在那种时间拉得很长、要处理很多移动部件的任务里——例如跨 7 个模块做 18 种课程布局——Claude Code 对一致性的维持更好。设计 token 不会乱，命名约定能守住，第一小时做的架构决定，到第四小时通常还会被遵守。

能不能把一个工具的工作流，移植到另一个工具里？

这是我这周一个意外的发现：你完全可以用 Codex 去研究 Claude Code 的插件生态，然后把它们改造成适用于 Codex 的东西。

我自己尤其喜欢几个 Claude Code 插件：功能开发工作流（/feature-dev）、代码评审系统（/code-review）、代码简化器（/code-simplifier）、Superpowers 规划框架（/superpowers），以及前端设计 skill（/frontend-design）。这些其实都不是“功能堆砌”，而是在把最佳实践编码进工具里。

所以我就让 Codex 去研究它们，然后为 Codex 写出等价的 skills：

“I'm writing user-level Codex skills under ~/.codex/skills, using the Claude plugin workflows as the template and adapting them to Codex's skill model where Claude-only features like hooks or plugin commands don't exist.”

结果是能跑通的。不算完美——毕竟有些 Claude Code 的概念在 Codex 里没有直接对应物——但核心工作流是能迁移过来的。现在我在两个工具里，都能用到基于同一套设计哲学的结构化开发流程。

当你让两个模型互相审计划，会发生什么？

我觉得这可能是这周最有价值的发现。

先让 Opus 4.6 严格审 GPT-5.4 写的计划，再让 GPT-5.4 去审 Opus 修订过的版本——这样来回跑几轮，出来的结果明显比单独用任何一个模型都更好。

它们擅长发现的弱点不一样。Opus 往往更容易抓到架构不一致和错误处理上的边角问题。GPT-5.4 往往更容易指出过度设计，并提出更简洁的做法。它们刚好补彼此的盲区。

现在只要是稍微复杂一点的实现计划，我都会这么做：先在一个工具里起草，再让另一个来审，再改，再审。来回两三轮。最后出来的计划会更紧、更稳，也会抓到很多单独一个模型没冒出来的问题。

如果你现在只用一个 AI coding tool，我觉得你等于把一部分质量留在了桌上。不是因为单个工具不好——它们两个都已经很好了——而是因为它们的推理方式真的不一样，而不同的推理方式会抓到不同的问题。

当其中一个工具挂掉时，会发生什么？

3 月 11 日，Claude Code 出现了一段时间的高错误率——登录问题、性能变慢、间歇性失败。那几个小时里，它基本上是没法正常用的。

Anthropic 状态页显示 2026 年 3 月 11 日 Claude.ai 出现高错误率，包括影响 Claude Code 的登录问题 — 2026 年 3 月 11 日，Claude Code 出现高错误率——登录问题和数小时的性能变慢。

因为那时我已经在逐步把 Codex 的工作流搭起来了，所以我几乎整段时间都切过去用了 Codex。而且我完全能继续工作。我已经把 Codex skills 配起来了，常用工作流也迁过去了，GPT-5.4 足够稳地接住了手上的任务。

那次经历让我更清楚一件事：把自己完全绑在一个工具上，是有风险的。 不是因为那个工具不可靠——我这一年用下来，Claude Code 其实已经相当稳定——而是任何服务都有可能哪天状态不对。真正熟练地掌握第二个工具，不是奢侈品，而是一种操作层面的韧性。

Claude Code vs. Codex：快速对比

维度	Claude Code（Opus 4.6）	Codex（GPT-5.4）
执行质量	更深——会主动发现缺口、帮你排优先级	不错——能完成任务，但主动分析较少
自动 QA	内建，会自动派 review agent	目前还没有——需要手动验证
并行 agents	成熟——能协调 5-6 个 agent	很有前景——能用，但没那么顺
架构推理	medium thinking 下也很强	high thinking 下尤其强——更快完成重构式思考
持续执行计划	好	很强——能稳定连续跑很久
上下文压缩	较慢	更快——只是不同，不一定更好
大规模本地化	很强（Opus 4.6 medium）	同样强——目前对我来说更便宜
插件 / skill 生态	更成熟（Superpowers、`/feature-dev` 等）	正在成长——但可以吸收 Claude 的工作流
跨模型审查	擅长抓边角问题和不一致	擅长抓过度设计并提出简化
成本	$100-200/月	现在有免费试用月，之后待定

Codex CLI 终端界面，显示 GPT-5.4 连续执行一个开发计划 46 分钟以上——提交、测试并推送代码 — Codex 配 GPT-5.4 连续执行一个确认过的计划超过 46 分钟——提交、测试、修复、推送，一路不停。

还有几点补充观察

上下文管理：Codex 在上下文窗口满了之后，压缩上下文的速度明显更快。这个到底是优点还是缺点，我还没完全下结论——只是它和 Claude Code 的处理方式确实不一样。

大规模本地化：我之前用 Claude Code 配 Opus 4.6 在 12 种语言中翻译了 390 万词。而 GPT-5.4 的翻译质量，大致和 Opus 4.6 的 medium thinking 在同一个档位上——但至少现在，对我来说它大规模跑起来更便宜。所以最近我已经开始把批量本地化工作逐步转到 GPT-5.4 上。这个成本优势能持续多久我不知道，但只要还在，我觉得就值得用。

成本：我现在在用 Claude Code 的 $200/月 Max 套餐。既然 Codex 已经开始承担我相当一部分工作量——尤其是本地化——我正在考虑是不是可以降回 $100 那档。OpenAI 这次免费试用月让切换过程轻松很多，但就算恢复原价，把工作分到两个工具上，可能依然比在一个工具上冲满配更划算。

我现在的结论

在真正双持用了一周之后，我现在的工作模型大概是这样：

优先用 Claude Code 的场景：你需要高执行质量并且最好自带 QA；你需要复杂的多 agent 编排；你需要在一个大项目里长时间维持一致性；或者你正在一个已经搭好 Superpowers 工作流的项目里工作。

优先用 Codex 的场景：你需要一个新的架构视角；你在一个很难的推理问题上想开 high thinking；你要执行的是一份定义清楚、适合持续推进的计划；或者刚好 Claude Code 今天状态不太好。

两个一起用的场景：任何稍微复杂一点的实现计划。先在一个工具里起草，再让另一个来审。这个跨模型审查循环，真的是我这周找到的最好工作流。

我并没有放弃 Claude Code——它依然是我的主工具，也是我最熟悉的生态。但我已经不是一个“单工具开发者”了。GPT-5.4 靠的是真实能力，不是靠“备胎工具”这个身份，才在我的工作流里拿到了自己的位置。

AI 辅助开发的未来，我觉得不是“选出唯一赢家”。而是知道什么时候该用哪个工具。更重要的是，承认一件事：这些工具放在一起，真的比单独用其中一个更强。

常见问题

GPT-5.4 在编码上比 Opus 4.6 更强吗？

不能简单说谁绝对更强。GPT-5.4 在 high thinking 下，架构推理和持续执行计划的能力很突出。Opus 4.6 在执行质量、主动发现缺口、以及长 session 中维持一致性方面依然更强。真正最好的结果，通常来自让两个模型互相审对方的工作。

我应该从 Claude Code 切到 Codex 吗？

我不建议彻底切换。两边都有很明显、而且互不相同的优势——Claude Code 的自动 QA 和并行 agent 编排确实领先，而 Codex 的持续执行能力，以及 GPT-5.4 在难题上的推理，也确实很强。双持才是我现在觉得最合理的用法。

跨模型审查值得多花这点力气吗？

如果计划稍微复杂一点，我觉得绝对值得。让 Opus 去审 GPT-5.4 的输出，再让 GPT-5.4 去审 Opus 修过的版本，会抓到不同类型的问题——Opus 会抓边角和不一致，GPT-5.4 会抓过度设计。两三轮之后出来的计划，明显比只靠一个模型更紧更稳。

双工具组合一个月大概要多少钱？

Claude Code 视套餐不同，大概是 $100-200/月。Codex 的价格现在还在变化——OpenAI 目前提供了一个免费试用月。就算回到正常价格，把工作负载拆到两个工具的较低档位上，可能依然比在一个工具上冲满配更划算。

Claude Code 的插件能直接拿到 Codex 里用吗？

不能直接用，但可以改造。我就是让 Codex 去研究 Claude Code 的插件工作流（像 /feature-dev、/code-review、/superpowers），再把核心逻辑翻成 Codex skills，放到 ~/.codex/skills 里。像 hooks 这类 Claude 专属的东西不一定能照搬，但工作流本身是可以迁过去的。

差不多就这些。我倒是挺好奇——现在有没有其他人也在跑多模型工作流？会一起用 Claude Code 和 Codex，或者别的组合吗？你们目前摸索出什么模式了？

回头聊， Chandler