Skip to content
··阅读时间6分钟

我现在把 Claude Code 用在除了 coding 之外的几乎所有事上

取消 Claude Max 19 天之后,我的使用模式已经很清楚了。xHigh 的 GPT-5.4 Codex 坐上了 coding 的那把椅子。xHigh 的 Opus 4.7 Claude Code 则拿走了我桌上剩下的所有位置。

2026 年 4 月 3 日,我说过,30 天后我会回来,诚实地讲清楚:取消 Claude Max 之后,到底发生了什么。

现在我提前 11 天回来了。

不是因为我没耐心,而是因为模式已经很明显了。如果还硬等到 5 月 2 日再说,更多只是戏剧效果。

这个结论一开始听起来有点别扭。一个叫 Claude Code 的工具,现在反而成了我用来做几乎所有事、除了写 code 之外的那个工具。

短版本是这样:

  • xHigh thinking 的 GPT-5.4 Codex,坐上了 coding 的那把椅子。
  • xHigh 的 Opus 4.7 Claude Code,拿走了我桌上剩下的所有位置。
  • “便宜版 Codex 就够了” 这个故事,在真实 limits 出现的那一刻就破了。

如果要压缩成一句最干净的 thesis,大概就是:

所有跟 code 相关的事,用 xHigh 的 Codex-GPT-5.4。其他所有事,用 xHigh 的 Claude Code with Opus 4.7。

这条分界线,比 19 天前的我预想的还要更清楚。

而且这个答案,比我原本想的更贵,也更能暴露我工作流里的心理依赖。

最先出问题的,不是 code 质量

我写那篇取消订阅的文章时,故事看起来很简单:

  • Claude Max:每月 200 美元
  • Codex / ChatGPT:每月 20 到 25 美元
  • execution quality 的差距正在迅速缩小
  • OpenAI 的 reliability 看起来更强

这看起来像一次很容易的降级。

但实际并不是。

最先崩掉的,不是 architecture,不是 plan quality,也不是 execution discipline。

最先崩掉的是 limits 这套叙事

我真实的时间线更像这样:

  • Apr 6: 我开了两个 ChatGPT Business seat,月付,每个 25 美元
  • Apr 6: 我那天就已经开始按 workaround 的思路在想了。要维持差不多原来的 coding pace,我怀疑自己可能需要大约三个能跑 Codex 的 account。
  • Apr 10: 用这个 setup 活了几天之后,我已经有足够的证据把话说出来:三个便宜 account 也还是复刻不了 Claude Max 状态最好时给我的东西。
  • Apr 12: 我买了 每月 100 美元的 ChatGPT Pro,因为我越是把 Codex 用在纯 coding 上,就越想要更多 high 和 xHigh reasoning 的 GPT-5.4,而不是更少。

这就是对 4 月 3 日那篇文章的第一条诚实修正。

实际发生的并不是“200 美元的 Claude Max 被 20 美元的 Codex 替代了”。

更接近下面这样:

  • “我已经不再需要以前那个 Anthropic plan 了。”
  • “但我确实需要比便宜 tier 更多的 Codex capacity。”
  • “真正该比较的,是在真实 limits 下的 workflow quality,而不是 benchmark 截图。”

我现在的判断是,OpenAI 很可能是在为了 market share 而对 limits 采取激进策略。这只是推断,不是内部消息。如果这个判断成立,那么这个窗口未必会一直开着。

所以,如果你把整个决策都建立在今天这套 20 美元 economics 上,至少也要承认:眼下的 pricing environment 可能是战术性的,而不是稳定状态。

Codex 坐上了 coding 的那把椅子

我学到的最大一件事是,xHigh thinking 的 GPT-5.4,确实很像一个 coding specialist

不是那种很有魅力的 specialist。

也不是很温暖的 specialist。

更不是那种想跟你做朋友的类型。

但它确实像 specialist。

Codex 身上有一种我原本没想到自己会喜欢的克制感。它像一个不说废话、做事谨慎、步骤清楚、不会对着你表演 personality 的工程师。

在长时间工作日里,这一点比我预想的重要得多。

对我来说,最明显的时刻发生在 4 月 17 日。我把一个已经达成一致的 plan 交给 xHigh 的 Codex-GPT-5.4,然后放手让它去做。它在一个 session 里连续工作了 30 到 45 分钟,非常贴着 plan 走,写并执行 unit tests、integration tests 和 browser tests,而且都是在 local 上完成的,我不需要全程盯着它。

我还没有遇到过另一个工具,能以同样的稳定度替我做到这一点。

这改变了我对 Codex 的判断。它已经不只是“做小任务够用”了。只要 plan 足够清楚,它真的能做长时间、纪律性很强的 execution。

对于纯 coding 工作,我现在几乎总是先用 Codex:

  • architecture
  • implementation
  • debugging
  • eval design
  • test framing
  • pipeline cleanup
  • production-minded 的 product logic

4 月最好的例子就是 Prova。

Prova 里最有价值的工作,大多数都不 glamorous。不是那种“看这个 model 多聪明”的事,而是这些:

  • 评估 composable sprints
  • 收紧 onboarding logic
  • 找出 roadmap generation 和 assigned sprint state 之间的矛盾
  • 根据真实用户 row 和真实 production behavior 改进产品

事实证明,这类工作非常适合 Codex。

当工作是下面这种时,它会显得 competent、thorough,而且比我预想得更 sharp:

  1. 找出 contradiction
  2. 隔离 logic bug
  3. 把 correctness 和 RFC territory 分开
  4. 推荐一个最小但又站得住脚的下一步

其中一个最清楚的例子,来自 Prova 里一条 builder-intent 用户的 production row。

当时系统:

  • 把一个 builder-intent user 标成了 marketing_vp
  • 给他分配了 table-stakes-diagnostic
  • 生成了一条从更后面开始的 roadmap
  • 在 onboarding 刚结束后就显示了 Context Check card

这一段真正有价值的地方,不只是 diagnosis 本身,而是 cross-review loop。

Opus 4.7 带我看到了前三个问题:

  • 一个 track-calculation bug
  • 一个 timing bug
  • 一个 builder-opener / RFC question

然后 GPT-5.4 把分析继续往前推,抓到了 Opus 漏掉的那条更尖锐的矛盾:

  • assigned first sprint 和 generated roadmap,已经在对同一个 user 说两种不同的真相

这很关键。它把讨论从“我们要不要现在就 ship Builder RFC?”变成了“先修 live contradiction,再回来看 RFC。”

它给我的感觉,不像是一个试图让我惊艳的 model。更像是一个 senior SWE 在说:先把眼前这个 contradiction 修掉,再谈产品理论。

这种模式在这个月里重复得足够多,以至于我已经不再把 Codex 看成“更便宜的替代品”。我现在把它当成 我的 primary coding instrument

Claude Code 拿走了剩下的所有位置

如果故事停在这里,答案会很简单:切去 Codex,然后继续往前。

但事情并没有这样发展。

Opus 4.7 版的 Claude Code,在那些 output 依赖 taste,或者 loop 很长、很迭代、很吃 context 的工作上,依然更强。

也正是在这里,这篇文章的标题不再显得矛盾,反而开始显得准确。以前每次要写 code 时我都会 instinctively 去拿的 Claude Code,现在变成了我在要做任何 不是写 code 的事时去拿的工具。

我说的“其他所有事”包括:

  • 必须听起来像我写的 writing
  • 反复打磨 structure 和 rhythm
  • naming 和 positioning
  • tagline 和 brand phrasing
  • blog cover image 的 prompt
  • logo 和 identity 的探索
  • 当工作需要 visual judgment、而不仅仅是 functional UI 时更强的 /frontend-design
  • 跨多个 session 慢慢搭出 point of view 的长 research thread

以我过去 19 天的实际体验来看,这一点反复成立。

这种差距在有 feedback loop 的时候尤其明显。

Claude 和 Codex 都能读历史文章、查看过去的 prompt,也都能把已有工作当作 reference。但当我在做 多轮 refinement,并且每一轮之后都给 feedback 时,Claude 仍然更稳定地理解我想去的方向。

这适用于 writing。

也适用于 image prompting。

同样适用于 naming。

最明显的产品例子就是 Prova。这个名字不是我用 Codex 想出来的。那种工作我需要 Opus。很多 brand language 的探索也是一样。GPT-5.4 会给我 solid、competent 的答案。Opus 会给我更强的 creative range。

同样的模式也出现在 site design 上。

在 Superpowers 里,当工作是 design-led 而不是 engineering-led 时,/frontend-design 这个 workflow 对我来说仍然是 Opus 比 GPT-5.4 更好用。Codex 会给我一个 functional 的结果。Claude 更常给我一个我真的愿意带着自豪感去 ship 的结果。

所以如果问题是:

“Codex 把 Claude 在所有事情上都替代掉了吗?”

没有。

它替代的是 coding 的那把椅子。不是剩下的一切。

这个区别很重要。

熟悉感是真的,戒断感也是真的

我已经用了大约 13 个月 的 Claude Code。

这么长的时间,改变的不只是偏好列表,还会改变你工作时的身体感。

当我更激进地切向 Codex 时,我确实感觉到了一种类似戒断的东西。

不是因为 Codex 不好。

而是因为它不一样。

摩擦点都很小,但持续存在:

  • 某些 permission confirmation
  • 某些时刻它像是多问了一句
  • 回答语气偏 sterile
  • loop 里少了那种熟悉的 Claude “voice”

这些都不是客观缺陷。

它们只是 workflow difference。

而熟悉感会改变你对这些差异的感受方式。

我不想假装自己是以一个完全理性的经济学家姿态走过这段转换的。

并不是。

有一段时间,我发现自己会把工作再丢给 Claude 跑一遍,只是为了多一层 safety-net review。不是因为我真的需要 second opinion,而是那种吸引力比我自己“我要干净地切换过去”的叙事更强。

这件事教会我,真正的 dependency 不只是 Claude 的 raw capability。它还包括一种 安全感:loop 里有另一个我以不同方式信任的 intelligent system。

这也是为什么,对我来说,最终答案从一开始就不可能是“永远只选一个”。

workflow 的心理结构同样重要。

Codex 也有它自己的 failure mode

这段时间并不是一长串 Codex 胜利。

我也碰到了真实的问题。

第一个让我觉得“这像是 Codex 特有问题”的时刻发生在 4 月 14 日。在两个 terminal session 里,我都撞上了这个错误:

{
  "error": {
    "message": "Unknown parameter: 'prompt_cache_retention'.",
    "type": "invalid_request_error",
    "param": "prompt_cache_retention",
    "code": "unknown_parameter"
  }
}

这种事很重要,因为它打断的不是 reasoning layer 上的信任,而是 harness layer 上的信任。

我还发现,Codex 在 deploy 或者碰 production 相关事情时,对模型被允许做什么似乎更严格,哪怕同一个 session 里之前已经给过 approval。

有时候这很好。

有时候也挺烦。

但它显然是实际用户体验的一部分。

有一个我确实更喜欢 Codex 的小细节:它能在不打断主流程的情况下查看 status 和 limits。不用等当前工作结束就能跑 /status,这听起来很小,但 19 天下来,这种 ergonomics 的细小差异会不断累积。

这就是我说两套工具不只是 output quality 不同的意思。它们连 harness 的手感 都不一样。

reliability 依然重要,而 4 月并没有帮 Claude 加分

我一开始之所以觉得自己能放心切换,其中一个原因就是 reliability。

我在 3 月 31 日那篇 follow-up 里已经写过 Anthropic 和 OpenAI 的 90 天状态差异。大图景现在依然重要:

Anthropic 90 天 uptime 状态图,显示 claude.ai、platform、API 和 Claude Code 都出现过 partial outage

OpenAI 90 天系统状态图,显示 API 99.99% uptime、ChatGPT 99.91% uptime

然后 4 月又补上了一个现实提醒。

4 月 15 日,Claude 在 Claude.ai、API 和 Claude Code 上再次出现 elevated errors。login 受到了影响。API 先恢复。已经登录的 Claude Code 用户还能继续工作,但 login 本身有一段时间是坏的。

这不会抹掉 Claude 的强项。

但它会进一步强化一个很实际的结论:不要把整个 workflow 都押在单一 vendor 身上。

这依然是整个实验里最 durable 的教训之一:

双持,不只是奢侈,而是 operational resilience。

当其中一家 provider 有一个糟糕的下午时,你仍然可以继续 ship。

Opus 4.7 让这个模式更清楚了,而不是把它翻过来

Claude Opus 4.7 是在 4 月 16 日发布的。 如果不认真跑一轮就直接下 honest verdict,那是不公平的。

所以我几乎立刻把它放进了一个真实的 Prova coding diagnostic 场景里。

Opus 4.7 给了我一个相当 solid 的 first pass。它识别出了 track bug、时机不对的 Context Check card,以及更广义的 Builder-opener 问题。

然后我把这份 diagnosis 交给 GPT-5.4 做 critique pass。不是 blind second opinion,而是当成一个 reviewer 去读 Opus 的书面分析。GPT-5.4 抓到了 Opus 漏掉的、更尖锐的 contradiction:产品已经分配了一个 first sprint,却又生成了一条从别处开始的 roadmap。这不只是 Builder-fit 问题,而是一个真实存在的 correctness 问题。

之后我把修订后的 diagnosis 再推回给 Opus,它也收敛了。

真正让我意外的是另一个方向。

4 月 19 日,我注意到一件我原本没想到的事:在 更简单的任务 上,比如短 code review pass,或者针对一个小改动的 focused execution,xHigh 的 Opus 4.7 明显比 xHigh 的 Codex-GPT-5.4 更慢。我原本预期正好相反。

这个细节又把我的模式重新锚定住了。

Opus 现在依然明确胜出的地方,是上面提到的那些 taste-heavy、iterative、long-context 工作。Codex 明确胜出的地方,是深度 coding diagnosis,以及 我以前会伸手去找 Claude 的那些日常快速 coding turn。

所以诚实版本是这样的:

  • 在更深一点的 code analysis 上,Opus 4.7 依然能给我一个不错的 first pass
  • 但在 lighter coding turns 上,它目前感觉比同级 thinking 的 GPT-5.4 更慢
  • 再加上 4 月 17 日那次 continuous execution 体验,这让 coding 的那把椅子进一步朝 Codex 倾斜,而不是回到接近平局

我最后到底落在了哪里

如果把 drama、pricing screenshot、outage screenshot 和 social-post framing 都去掉,那么 到 4 月 22 日为止,我的 working pattern 已经稳定成这样:

所有和 code 有关的事

我首先会去拿 xHigh thinking 的 Codex with GPT-5.4

原因很简单:

  • 它感觉像 specialist
  • 它 methodical
  • 它谨慎
  • 它能同时处理好 architecture 和 execution
  • 它能把一个 agreed plan 连同 unit、integration、browser tests 一起跑上 30 到 45 分钟
  • 在 everyday coding turn 上,它现在比 xHigh 的 Opus 4.7 更快
  • 在 deep coding work 上,我现在也更容易信任它

其他所有事

我首先会去拿 xHigh thinking 的 Claude Code with Opus 4.7

现在这包括:

  • 必须听起来像我自己的 writing
  • cover art 的 image prompt
  • naming、positioning 和 brand language
  • 需要 visual judgment 的 /frontend-design
  • 跨多次 session 慢慢搭出 point of view 的长 research thread
  • 在把 plan 交给 Codex 之前先 review 我自己的想法
  • 这篇 blog post

原因是:

  • 它更能跟住我的 style
  • 它更擅长处理 feedback-driven creative iteration
  • 它在 brand taste 和 design taste 上更强
  • 当任务需要的是 judgment 而不是 execution 时,它仍然是我最信任的 model

对重要的 coding plan

我仍然喜欢 cross-review loop:

  • 先从一个模型那里拿到 plan
  • 再让另一个模型 critique
  • 然后从那里继续收紧

这个 workflow 仍然比把赌注压在单个 model 的第一版答案上更稳,无论那个 model 有多强。上面那个 builder-intent row 的例子,就是我还在继续用这套做法的原因。

对 pricing

我最后并没有落在一个简单的便宜替代方案上。

我落在这里:

  • 不再想要以前那种 200 美元 Claude Max 的结构
  • 我想要的是 更多 Codex capacity,而不是更少
  • 我接受了 100 美元的 ChatGPT Pro 作为更现实的 coding plan 答案
  • 对于所有不是 code 的事,我依然把 Claude 留在 loop 里

对 shipping

这次切换的全部意义,就是继续 ship。它不是 19 天什么都没有产出的工具 benchmarking。在同一个窗口里,Prova 的 Operator/Builder split 已经带着真正的 Builder execution lane 上线了,两篇 substantial blog post 也发出去了,而且我还跑完了一轮覆盖 12 个 locale 的 full translation pass。这个实验有没有拖慢我的 output?答案是没有。

如果你想要最压缩的版本,那就是:

我取消了 Claude Max,但并没有把 Claude Code 从我的工作里拿掉。我只是把 Claude Code 从 primary coding seat 上挪开,把整张桌子的其他位置交给了它。

这是我现在能给出的最真实总结。

所以:如果重来一次,我会不会做同样的决定?

会。

但现在我会换一种说法。

4 月 3 日那天,我的 framing 是:

“我取消了 Claude Max,现在在测试 Codex 能不能取代它。”

到了 4 月 22 日,更接近真实的 framing 其实是:

“我取消了 Claude Max,发现对现在的我来说,Codex 是更强的 coding specialist,而 Claude Code 则接管了我桌上其他所有工作——在那个位置上,它依然是我手里最好的工具。”

这个答案没有那么二元,它比简单的 social-post 版本更贵,但也更接近事实。

常见问题

Codex 真的在 coding 上取代了 Claude 吗?

对我来说,是的。在 pure coding work 上,xHigh thinking 的 Codex with GPT-5.4 已经成了默认位置。xHigh 的 Opus 4.7 在更深的 diagnosis 上依然能给我一个有用的 first pass,但对我来说,它已经不再是 primary coding seat,而且在更轻的 coding turn 上也更慢。

“便宜版 Codex” 这套说法站得住吗?

并不完全站得住。一旦我开始按真实工作量去用它,低 tier 的 economics 就不再能解释全部情况了。我转到更贵的 OpenAI plan,不是因为实验失败了,而是因为我需要更多 capacity。

你现在还需要 Claude 吗?

需要。如果你的工作里有 writing、design、naming、image prompting、长 research thread,或者任何强依赖 taste 和 judgment 的 loop,那么你仍然会需要 Claude。在我的 workflow 里,xHigh 的 Opus 4.7 已经成了所有非 code 工作的默认选择。

reliability 怎么看?

reliability gap 依然重要。4 月只是在强化这一点。答案不是恐慌,而是 backup coverage。

为什么提前 11 天发?

因为模式已经 settle 了。如果只是为了尊重原来标题里的数字而硬等到 5 月 2 日,那就是戏剧化。更诚实的做法,是把我现在真实在做的事直接说出来,然后继续往前。

那你今天会买哪个 plan?

如果你的工作主要是 coding,我会非常认真地先看 Codex / GPT-5.4。如果你的工作既有 coding,又有很多依赖 taste 的 creative work,那我不会想在没有 Claude 的情况下工作。而如果现在每月 100 美元超出预算,那么 20 美元的 Codex tier 对小一点的个人项目仍然能用——只是你要预期,在 sustained 的 multi-project 工作里,你会更快撞到 limits。至少就我自己而言,现在的答案已经不是 single-tool answer 了。


这就是 19 天后的诚实 update。

Codex 坐上了 coding 的那把椅子。

Claude Code 拿走了剩下所有位置。

也因此,一个字面上就叫 Claude Code 的工具,现在反而成了我处理 code 之外所有事情的工具。

而真正的 lesson,还是那句:workflow 比 fandom 更重要。

如果你这个月也做了类似的切换,我真的很想知道你最后落在了哪里。是某一个工具彻底赢了,还是你的分工也变得更清楚了?

祝好,
Chandler

继续阅读