Codex 配搭 GPT-5.4 vs Claude Code 配搭 Opus 4.6——點解我而家兩個都用

我幾乎成一年每日都用 Claude Code。之後我花咗一個星期試 Codex 同 GPT-5.4。冇邊個可以徹底贏晒——但將佢哋兩個一齊用，互相 review，出嚟嘅結果的確比單獨用任何一個都更好。呢個就係我作為一個真係用佢哋 ship 過產品嘅人，最後落到嘅判斷。

過去一段時間，我基本上所有開發工作都係用 Claude Code 配 Opus 4.6 去做：重建呢個網站、將 DIALØGUE（對話）推上 App Store、build STRAŦUM、喺 12 種語言翻譯 390 萬個字，同埋整一套完整課程影片 pipeline，入面有 18 種 layout 同按字級別做 audio sync。

所以當 OpenAI 喺 3 月 5 日推出配搭 GPT-5.4 嘅 Codex 嘅時候，我唔係想搵替代品。我純粹係好奇。再加上 OpenAI 嗰陣有一個免費試用月，令我幾乎零成本咁跳入去試。

結果我有啲意外。唔止係「原來都唔錯喎」嗰種意外——而係真心覺得，Codex 配 GPT-5.4 嘅能力比我原本預期強好多。

一個星期之後，我冇打算轉陣營。我而家係雙持。而且我覺得，兩個夾埋就真係比單獨用任何一個都更好。

點解 “harness” 同 “model” 嘅分別咁重要？

未入正題之前，我想先講一個我覺得大部分比較文都忽略咗嘅細節。

Claude Code 同 Codex 係 harness。 即係 CLI 工具、agent 編排方式、plugin 生態、context 管理，同埋佢哋點樣同檔案系統同 terminal 互動。Opus 4.6 同 GPT-5.4 先係底層 model。 真正負責判斷做乜、點推理、寫乜 code 嘅，係 model。

呢點好重要，因為我下面好多觀察，有啲係講 harness，有啲係講 model。Claude Code 會自動派 QA agent、管理平行 agent，呢啲係 harness。GPT-5.4 喺我嗰個 fragment sync 問題上畀到架構層面嘅洞察，呢啲係 model。至於我話跨模型 review 會令計劃更好，嗰個其實係講 模型之間 推理方式唔同，而 harness 只係將結果送到你面前。

一個更強嘅 model，放喺一個較差嘅 harness 入面，依然可能令人用得好痛苦。相反，一個好好嘅 harness 配上一個較弱嘅 model，又可能睇落好 polished，但唔夠深。而家呢兩個組合都好強，只係強喺唔同地方。

Codex 配 GPT-5.4 第一次上手係咩感覺？

老實講——我原本以為 Codex 會令我明顯覺得係「降級」。因為我已經喺 Claude Code 生態入面浸得好深：Superpowers plugin、平行 agent 派發、實作完之後自動跑 code review agent。嗰套 workflow 已經相當成熟。

但 Codex 配 GPT-5.4 一上手就令我覺得，佢真係有料。Model 好強，推理好穩，跟計劃嘅能力都好好。當我畀佢一份結構清晰嘅 implementation plan，佢可以連續做 45 分鐘以上都唔散——commit、test、push，然後再做下一步。

我好早就開咗 Codex 幾個 experimental feature：

Multi-agents —— 平行處理任務，感覺上有啲似 Claude Code 嘅 agent dispatch
JavaScript REPL —— 持久化 Node runtime，適合做 inline debugging
Prevent sleep while running —— 長任務執行期間唔畀部機瞓覺

呢幾樣都幾有幫助。尤其係 multi-agent，第一次令我覺得 Codex 正喺追近我已經好習慣依賴嘅一種工作方式。

GPT-5.4 喺邊度明顯贏過 Opus 4.6？

我都要承認——有一個領域，GPT-5.4 的確明顯贏過 Opus 4.6，而且唔係小勝。

我最近一直喺做一套課程影片 pipeline，要將有旁白嘅音頻同 slide fragment 同步。難點其實唔係時間戳——ElevenLabs 會俾到按字級別嘅時間資訊。真正難嘅地方係對齊：即係當講者開始講某個點嘅時候，畫面上究竟應該出現邊個 fragment。

問題係，speaker notes 通常唔會逐字重複 slide 上面嘅文字。有時旁白係改寫 bullet，有時會將兩個 bullet 合成一句，有時某個 bullet 雖然喺 slide 上，但其實唔算真係講過。所以系統一直都只可以靠 keyword 去估。估得準嗰陣睇落都幾似模似樣，但一遇到複雜啲嘅 slide，就會開始散。

Opus 4.6 用 medium thinking 連續試咗幾輪。佢不停提出越嚟越聰明嘅 heuristic：按文字長度平均切、喺時間戳搵 keyword、按句子做 matching、雙策略 matching……每一版都比上一版好啲，但本質上都仲困喺同一個框架。

而 GPT-5.4 喺 high thinking 底下一眼睇中真正問題：呢件事根本唔應該當 keyword matching 問題處理，而係應該當作 data model 問題。 renderer 應該輸出真正嘅 fragment state；assembler 應該按呢啲 state 去對齊旁白；validation 則應該標示出「視覺結構」同「旁白結構」唔匹配嘅 slide。

呢個就係正確嘅洞察。由「靠文字去估同步」轉成「將同步變成 pipeline 入面嘅一等公民」，正正係呢個問題真正需要嘅架構重構。而 GPT-5.4 比 Opus 更快行到呢一步。

Claude Code 依然贏喺邊？

不過問題就係——架構洞察，同埋執行質量同收尾能力，根本唔係同一回事。

執行質量

最典型嘅例子係：我叫兩個工具都去 audit 同改進 7 個課程模組嘅 companion notes。Codex 返嚟話我知，個任務已經做完。

Claude Code 返嚟畀我嘅係呢個：

審核完成——全部 7 個模組

第一層：修好而家 15 條偏薄嘅 companion notes（先補到合格線，係最快見效嘅 quick win）

第二層：為大約 25-30 張高優先次序 slide 補 companion notes（核心 framework、工具清單、多步驟流程、密集數據頁）

呢個就唔係「做完咗」咁簡單。呢個係一份有層次嘅 gap analysis，將大約 40-45 張需要處理嘅 slide 按優先次序拆開。「我做完個任務」同「我做完個任務，而且呢啲係我發現嘅問題」之間，差距其實好大。 真正要 ship 產品嗰陣，呢個差距好關鍵。

自動 QA

呢個係 Claude Code 嘅 killer feature，我真心覺得大家講得太少。完成一段 implementation 之後，Claude Code 會自動派 QA agent——做 code review、narrative review、一致性檢查——而且唔使我再額外開口。呢個係工具本身 built-in 嘅。

Codex 而家仲未有呢一層。Codex 話「做完」，你就要自己驗，或者自己額外搭一層 review 流程。Claude Code 就直接將 verification 併入 workflow 入面。呢個設計真係好聰明。

平行代理管理

Claude Code 嘅 agent 編排都成熟得多。佢會派多個專門 agent，管理佢哋嘅結果，再將結論綜合成一份清晰摘要。我試過唔少 session 同時跑 5-6 個 agent——explorer、code reviewer、implementation agent、test runner——最後都可以被統一協調起嚟。

Codex 嘅 multi-agent 好有前景，但明顯仲早期啲。係用到，但協調感仲未去到咁順。

一致性

喺嗰啲時間拉得好長、要處理好多移動部件嘅任務入面——例如跨 7 個模組整 18 種課程 layout——Claude Code 喺維持一致性方面做得更好。設計 token 唔會亂、命名慣例守得住、第一個鐘做咗嘅架構決定，到第四個鐘通常仲會被尊重。

可唔可以將一個工具嘅 workflow，搬去另一個工具？

呢個係我今個星期一個好意外嘅發現：你完全可以用 Codex 去研究 Claude Code 嘅 plugin 生態，再將佢哋改造成適用於 Codex 嘅嘢。

我自己尤其鍾意幾個 Claude Code plugin：功能開發 workflow（/feature-dev）、code review 系統（/code-review）、code simplifier（/code-simplifier）、Superpowers 規劃框架（/superpowers），同埋前端設計 skill（/frontend-design）。呢啲唔係「功能堆砌」，而係將最佳實踐編進工具入面。

所以我就叫 Codex 去研究佢哋，再為 Codex 寫出等價嘅 skills：

“I'm writing user-level Codex skills under ~/.codex/skills, using the Claude plugin workflows as the template and adapting them to Codex's skill model where Claude-only features like hooks or plugin commands don't exist.”

結果係做得到。唔算完美——畢竟有啲 Claude Code 概念喺 Codex 入面冇直接對應——但核心 workflow 係搬得過去嘅。而家我喺兩個工具入面，都可以用到基於同一套設計哲學嘅結構化開發流程。

當你用兩個 model 互相審對方嘅 plan，會發生咩事？

我覺得呢個可能係今個星期最有價值嘅發現。

先叫 Opus 4.6 嚴格 review GPT-5.4 寫嘅 plan，再叫 GPT-5.4 去 review Opus 修過嘅版本——咁樣來回跑幾輪，最後出嚟嘅結果明顯比單獨用任何一個 model 都更好。

因為佢哋擅長發現嘅弱點唔一樣。Opus 往往比較容易捉到架構唔一致同 error handling 嘅邊角位。GPT-5.4 往往更容易指出 over-engineering，然後提出更簡單嘅做法。兩邊正正互補彼此嘅盲點。

而家只要係稍微複雜啲嘅 implementation plan，我基本上都會咁做：先喺一個工具入面起草，再俾另一個去 review，再改，再 review。來回兩三輪。最後出嚟嘅 plan 會更緊、更穩，仲會捉到好多單靠一個 model 根本冇冒出嚟嘅問題。

如果你而家淨係用一個 AI coding tool，我覺得你其實係將一部分質量留喺枱面。唔係因為單個工具唔好——佢哋兩個其實都已經好好——而係因為佢哋嘅推理方式真係唔一樣，而唔同嘅推理方式就會捉到唔同問題。

當其中一個工具掛咗，會發生咩事？

3 月 11 日，Claude Code 出現咗一段時間高錯誤率——登入問題、效能變慢、間歇性失敗。嗰幾個鐘入面，基本上係用唔到。

Anthropic 狀態頁顯示 2026 年 3 月 11 日 Claude.ai 出現高錯誤率，包括影響 Claude Code 的登入問題 — 2026 年 3 月 11 日，Claude Code 出現高錯誤率——登入問題同埋持續幾個鐘嘅效能變慢。

因為嗰時我已經開始逐步將 Codex workflow 搭起嚟，所以嗰段時間我幾乎完全切咗去用 Codex。而且我完全可以繼續工作。我已經將 Codex skills 配好，常用 workflow 亦都搬咗過去，GPT-5.4 足夠穩定咁接住我手上嘅工作。

嗰次經歷令我更肯定一件事：將自己完全綁死喺一個工具上，其實係有風險。 唔係因為個工具唔可靠——我呢一年用落嚟，Claude Code 其實已經相當穩定——而係任何服務都可能有一日狀態唔對。真正熟練掌握第二個工具，唔係奢侈品，而係一種操作層面嘅韌性。

Claude Code vs. Codex：快速比較

維度	Claude Code（Opus 4.6）	Codex（GPT-5.4）
執行質量	更深——會主動發現缺口、幫你排優先次序	唔錯——做得完任務，但主動分析較少
自動 QA	內建，會自動派 review agent	目前未有——需要手動驗證
平行 agents	成熟——可以協調 5-6 個 agent	好有前景——用到，但未算好順
架構推理	medium thinking 已經好強	high thinking 特別強——更快完成重構式思考
持續執行計劃	好	好勁——可以穩定連續跑好耐
context 壓縮	較慢	更快——只係唔同，未必一定更好
大規模 localization	好強（Opus 4.6 medium）	一樣好強——目前對我嚟講仲更平
plugin / skill 生態	更成熟（Superpowers、`/feature-dev` 等）	正喺成長——但可以吸收 Claude workflow
跨模型 review	擅長捉邊角問題同不一致	擅長捉 over-engineering 同提出簡化
成本	$100-200/月	而家有免費試用月，之後待定

Codex CLI 終端畫面，顯示 GPT-5.4 連續執行一個開發計劃超過 46 分鐘——commit、test 並 push code — Codex 配 GPT-5.4 連續執行一份確認過嘅計劃超過 46 分鐘——commit、test、修正、push，一路不停。

仲有幾點補充觀察

context 管理：Codex 喺 context window 滿咗之後，壓縮 context 嘅速度明顯快啲。呢樣到底係優點定缺點，我仲未完全有結論——只係佢同 Claude Code 嘅處理方式真係唔同。

大規模 localization：我之前用 Claude Code 配 Opus 4.6 喺 12 種語言翻譯咗 390 萬個字。而 GPT-5.4 嘅翻譯質量，大致同 Opus 4.6 medium thinking 差唔多——但至少而家，對我嚟講大規模跑起上嚟更平。所以最近我已經開始將批量 localization 工作逐步轉去 GPT-5.4。呢個成本優勢會維持幾耐我唔知，但只要仲喺度，我覺得就值得用。

成本：我而家用緊 Claude Code 嘅 $200/月 Max plan。既然 Codex 已經開始接走我相當一部分工作量——尤其係 localization——我正喺考慮係咪可以降返去 $100 嗰個 tier。OpenAI 呢次免費試用月令過渡輕鬆咗好多，但就算恢復原價，將 workload 分散喺兩個工具嘅較低 tier 上，可能依然比喺一個工具上沖到最盡更划算。

我而家嘅結論

真真正正雙持用咗一個星期之後，我而家個工作模型大概係咁：

優先用 Claude Code 嘅情況：你需要高執行質量，而且最好自帶 QA；你需要複雜嘅多 agent 編排；你需要喺大型項目入面長時間維持一致性；或者你正喺一個已經搭好 Superpowers workflow 嘅 project 入面工作。

優先用 Codex 嘅情況：你需要一個新嘅架構視角；你喺一個好難嘅推理問題上想開 high thinking；你要執行一份定義清楚、適合持續推進嘅計劃；或者啱啱好 Claude Code 今日狀態麻麻。

兩個一齊用嘅情況：任何稍為複雜啲嘅 implementation plan。先喺一個工具入面起草，再交俾另一個去 review。呢個跨模型 review loop，真係我今個星期搵到最好嘅 workflow。

我冇放棄 Claude Code——佢依然係我嘅主工具，亦都係我最熟悉嘅生態。但我已經唔再係一個「單工具開發者」。GPT-5.4 係靠真實能力，而唔係靠「後備工具」呢個身份，先喺我嘅 workflow 入面攞到一個正式位置。

AI 輔助開發嘅未來，我覺得唔係「揀出唯一贏家」。而係知道邊個時候應該攞邊個工具出嚟。更重要嘅係，承認一件事：呢啲工具擺埋一齊，真係比單獨用其中一個更勁。

常見問題

GPT-5.4 喺寫 code 上比 Opus 4.6 更強？

我唔會咁簡單咁講邊個絕對更強。GPT-5.4 喺 high thinking 底下，架構推理同持續執行計劃嘅能力好突出。Opus 4.6 喺執行質量、主動發現缺口、同埋長 session 入面維持一致性方面依然更強。真正最好嘅結果，通常係靠兩個 model 互相 review 對方嘅工作。

我應唔應該由 Claude Code 轉去 Codex？

我唔建議徹底轉。兩邊都有好明顯、而且互補嘅優勢——Claude Code 嘅自動 QA 同平行 agent 編排的確領先，而 Codex 嘅持續執行能力，以及 GPT-5.4 喺難題上嘅推理能力，亦都真係好強。雙持先係我而家覺得最合理嘅做法。

跨模型 review 值唔值得多花啲工夫？

如果計劃稍微複雜啲，我覺得絕對值。叫 Opus 去 review GPT-5.4 嘅輸出，再叫 GPT-5.4 去 review Opus 修過嘅版本，會捉到完全唔同類型嘅問題——Opus 會捉邊角位同不一致，GPT-5.4 會捉過度設計。兩三輪之後出嚟嘅 plan，明顯比只靠一個 model 更緊更穩。

雙工具組合一個月大概要幾錢？

Claude Code 視乎 plan，大概係 $100-200/月。Codex 嘅價格而家仲變動中——OpenAI 目前提供咗一個免費試用月。就算恢復正常價格，將 workload 拆落兩個工具嘅較低 tier 上，可能依然比喺一個工具上開滿配更划算。

Claude Code 嘅 plugin 可以直接喺 Codex 用？

唔可以直接用，但可以改。我就係叫 Codex 去研究 Claude Code 嘅 plugin workflow（例如 /feature-dev、/code-review、/superpowers），再將核心邏輯翻譯成 Codex skills，放喺 ~/.codex/skills 入面。好似 hooks 呢類 Claude 專屬功能，未必可以照搬，但 workflow 本身係搬得到。

差唔多就係咁。我反而幾好奇——而家有冇其他人都喺跑多模型 workflow？會一齊用 Claude Code 同 Codex，或者其他組合？你哋目前摸索到啲咩 pattern？

下次再傾， Chandler