Skip to content
··閱讀時間4分鐘

Codex 配搭 GPT-5.4 vs Claude Code 配搭 Opus 4.6——點解我而家兩個都用

我幾乎用咗成一年 Claude Code 配 Opus 4.6,之後再花一個星期試 Codex 同 GPT-5.4。結論係:冇邊個可以完全勝出。真正更好嘅做法,係將兩個一齊用——做跨模型 review、食盡互補優勢,同埋建立操作層面嘅韌性。

我幾乎成一年每日都用 Claude Code。之後我花咗一個星期試 Codex 同 GPT-5.4。冇邊個可以徹底贏晒——但將佢哋兩個一齊用,互相 review,出嚟嘅結果的確比單獨用任何一個都更好。 呢個就係我作為一個真係用佢哋 ship 過產品嘅人,最後落到嘅判斷。

過去一段時間,我基本上所有開發工作都係用 Claude Code 配 Opus 4.6 去做:重建呢個網站、將 DIALØGUE(對話)推上 App Store、build STRAŦUM、喺 12 種語言翻譯 390 萬個字,同埋整一套完整課程影片 pipeline,入面有 18 種 layout 同按字級別做 audio sync。

所以當 OpenAI 喺 3 月 5 日推出 配搭 GPT-5.4 嘅 Codex 嘅時候,我唔係想搵替代品。我純粹係好奇。再加上 OpenAI 嗰陣有一個免費試用月,令我幾乎零成本咁跳入去試。

結果我有啲意外。唔止係「原來都唔錯喎」嗰種意外——而係真心覺得,Codex 配 GPT-5.4 嘅能力比我原本預期強好多。

一個星期之後,我冇打算轉陣營。我而家係雙持。而且我覺得,兩個夾埋就真係比單獨用任何一個都更好。


點解 “harness” 同 “model” 嘅分別咁重要?

未入正題之前,我想先講一個我覺得大部分比較文都忽略咗嘅細節。

Claude Code 同 Codex 係 harness。 即係 CLI 工具、agent 編排方式、plugin 生態、context 管理,同埋佢哋點樣同檔案系統同 terminal 互動。Opus 4.6 同 GPT-5.4 先係底層 model。 真正負責判斷做乜、點推理、寫乜 code 嘅,係 model。

呢點好重要,因為我下面好多觀察,有啲係講 harness,有啲係講 model。Claude Code 會自動派 QA agent、管理平行 agent,呢啲係 harness。GPT-5.4 喺我嗰個 fragment sync 問題上畀到架構層面嘅洞察,呢啲係 model。至於我話跨模型 review 會令計劃更好,嗰個其實係講 模型之間 推理方式唔同,而 harness 只係將結果送到你面前。

一個更強嘅 model,放喺一個較差嘅 harness 入面,依然可能令人用得好痛苦。相反,一個好好嘅 harness 配上一個較弱嘅 model,又可能睇落好 polished,但唔夠深。 而家呢兩個組合都好強,只係強喺唔同地方。


Codex 配 GPT-5.4 第一次上手係咩感覺?

老實講——我原本以為 Codex 會令我明顯覺得係「降級」。因為我已經喺 Claude Code 生態入面浸得好深:Superpowers plugin、平行 agent 派發、實作完之後自動跑 code review agent。嗰套 workflow 已經相當成熟。

但 Codex 配 GPT-5.4 一上手就令我覺得,佢真係有料。Model 好強,推理好穩,跟計劃嘅能力都好好。當我畀佢一份結構清晰嘅 implementation plan,佢可以連續做 45 分鐘以上都唔散——commit、test、push,然後再做下一步。

我好早就開咗 Codex 幾個 experimental feature:

  • Multi-agents —— 平行處理任務,感覺上有啲似 Claude Code 嘅 agent dispatch
  • JavaScript REPL —— 持久化 Node runtime,適合做 inline debugging
  • Prevent sleep while running —— 長任務執行期間唔畀部機瞓覺

呢幾樣都幾有幫助。尤其係 multi-agent,第一次令我覺得 Codex 正喺追近我已經好習慣依賴嘅一種工作方式。


GPT-5.4 喺邊度明顯贏過 Opus 4.6?

我都要承認——有一個領域,GPT-5.4 的確明顯贏過 Opus 4.6,而且唔係小勝。

我最近一直喺做一套課程影片 pipeline,要將有旁白嘅音頻同 slide fragment 同步。難點其實唔係時間戳——ElevenLabs 會俾到按字級別嘅時間資訊。真正難嘅地方係 對齊:即係當講者開始講某個點嘅時候,畫面上究竟應該出現邊個 fragment。

問題係,speaker notes 通常唔會逐字重複 slide 上面嘅文字。有時旁白係改寫 bullet,有時會將兩個 bullet 合成一句,有時某個 bullet 雖然喺 slide 上,但其實唔算真係講過。所以系統一直都只可以靠 keyword 去估。估得準嗰陣睇落都幾似模似樣,但一遇到複雜啲嘅 slide,就會開始散。

Opus 4.6 用 medium thinking 連續試咗幾輪。佢不停提出越嚟越聰明嘅 heuristic:按文字長度平均切、喺時間戳搵 keyword、按句子做 matching、雙策略 matching……每一版都比上一版好啲,但本質上都仲困喺同一個框架。

而 GPT-5.4 喺 high thinking 底下一眼睇中真正問題:呢件事根本唔應該當 keyword matching 問題處理,而係應該當作 data model 問題。 renderer 應該輸出真正嘅 fragment state;assembler 應該按呢啲 state 去對齊旁白;validation 則應該標示出「視覺結構」同「旁白結構」唔匹配嘅 slide。

呢個就係正確嘅洞察。由「靠文字去估同步」轉成「將同步變成 pipeline 入面嘅一等公民」,正正係呢個問題真正需要嘅架構重構。而 GPT-5.4 比 Opus 更快行到呢一步。


Claude Code 依然贏喺邊?

不過問題就係——架構洞察,同埋執行質量同收尾能力,根本唔係同一回事。

執行質量

最典型嘅例子係:我叫兩個工具都去 audit 同改進 7 個課程模組嘅 companion notes。Codex 返嚟話我知,個任務已經做完。

Claude Code 返嚟畀我嘅係呢個:

審核完成——全部 7 個模組

第一層:修好而家 15 條偏薄嘅 companion notes(先補到合格線,係最快見效嘅 quick win)

第二層:為大約 25-30 張高優先次序 slide 補 companion notes(核心 framework、工具清單、多步驟流程、密集數據頁)

呢個就唔係「做完咗」咁簡單。呢個係一份有層次嘅 gap analysis,將大約 40-45 張需要處理嘅 slide 按優先次序拆開。「我做完個任務」同「我做完個任務,而且呢啲係我發現嘅問題」之間,差距其實好大。 真正要 ship 產品嗰陣,呢個差距好關鍵。

自動 QA

呢個係 Claude Code 嘅 killer feature,我真心覺得大家講得太少。完成一段 implementation 之後,Claude Code 會自動派 QA agent——做 code review、narrative review、一致性檢查——而且唔使我再額外開口。呢個係工具本身 built-in 嘅。

Codex 而家仲未有呢一層。Codex 話「做完」,你就要自己驗,或者自己額外搭一層 review 流程。Claude Code 就直接將 verification 併入 workflow 入面。呢個設計真係好聰明。

平行代理管理

Claude Code 嘅 agent 編排都成熟得多。佢會派多個專門 agent,管理佢哋嘅結果,再將結論綜合成一份清晰摘要。我試過唔少 session 同時跑 5-6 個 agent——explorer、code reviewer、implementation agent、test runner——最後都可以被統一協調起嚟。

Codex 嘅 multi-agent 好有前景,但明顯仲早期啲。係用到,但協調感仲未去到咁順。

一致性

喺嗰啲時間拉得好長、要處理好多移動部件嘅任務入面——例如跨 7 個模組整 18 種課程 layout——Claude Code 喺維持一致性方面做得更好。設計 token 唔會亂、命名慣例守得住、第一個鐘做咗嘅架構決定,到第四個鐘通常仲會被尊重。


可唔可以將一個工具嘅 workflow,搬去另一個工具?

呢個係我今個星期一個好意外嘅發現:你完全可以用 Codex 去研究 Claude Code 嘅 plugin 生態,再將佢哋改造成適用於 Codex 嘅嘢。

我自己尤其鍾意幾個 Claude Code plugin:功能開發 workflow(/feature-dev)、code review 系統(/code-review)、code simplifier(/code-simplifier)、Superpowers 規劃框架(/superpowers),同埋前端設計 skill(/frontend-design)。呢啲唔係「功能堆砌」,而係將最佳實踐編進工具入面。

所以我就叫 Codex 去研究佢哋,再為 Codex 寫出等價嘅 skills:

“I'm writing user-level Codex skills under ~/.codex/skills, using the Claude plugin workflows as the template and adapting them to Codex's skill model where Claude-only features like hooks or plugin commands don't exist.”

結果係做得到。唔算完美——畢竟有啲 Claude Code 概念喺 Codex 入面冇直接對應——但核心 workflow 係搬得過去嘅。而家我喺兩個工具入面,都可以用到基於同一套設計哲學嘅結構化開發流程。


當你用兩個 model 互相審對方嘅 plan,會發生咩事?

我覺得呢個可能係今個星期最有價值嘅發現。

先叫 Opus 4.6 嚴格 review GPT-5.4 寫嘅 plan,再叫 GPT-5.4 去 review Opus 修過嘅版本——咁樣來回跑幾輪,最後出嚟嘅結果明顯比單獨用任何一個 model 都更好。

因為佢哋擅長發現嘅弱點唔一樣。Opus 往往比較容易捉到架構唔一致同 error handling 嘅邊角位。GPT-5.4 往往更容易指出 over-engineering,然後提出更簡單嘅做法。兩邊正正互補彼此嘅盲點。

而家只要係稍微複雜啲嘅 implementation plan,我基本上都會咁做:先喺一個工具入面起草,再俾另一個去 review,再改,再 review。來回兩三輪。最後出嚟嘅 plan 會更緊、更穩,仲會捉到好多單靠一個 model 根本冇冒出嚟嘅問題。

如果你而家淨係用一個 AI coding tool,我覺得你其實係將一部分質量留喺枱面。唔係因為單個工具唔好——佢哋兩個其實都已經好好——而係因為佢哋嘅推理方式真係唔一樣,而唔同嘅推理方式就會捉到唔同問題。


當其中一個工具掛咗,會發生咩事?

3 月 11 日,Claude Code 出現咗一段時間高錯誤率——登入問題、效能變慢、間歇性失敗。嗰幾個鐘入面,基本上係用唔到。

Anthropic 狀態頁顯示 2026 年 3 月 11 日 Claude.ai 出現高錯誤率,包括影響 Claude Code 的登入問題
2026 年 3 月 11 日,Claude Code 出現高錯誤率——登入問題同埋持續幾個鐘嘅效能變慢。

因為嗰時我已經開始逐步將 Codex workflow 搭起嚟,所以嗰段時間我幾乎完全切咗去用 Codex。而且我完全可以繼續工作。我已經將 Codex skills 配好,常用 workflow 亦都搬咗過去,GPT-5.4 足夠穩定咁接住我手上嘅工作。

嗰次經歷令我更肯定一件事:將自己完全綁死喺一個工具上,其實係有風險。 唔係因為個工具唔可靠——我呢一年用落嚟,Claude Code 其實已經相當穩定——而係任何服務都可能有一日狀態唔對。真正熟練掌握第二個工具,唔係奢侈品,而係一種操作層面嘅韌性。


Claude Code vs. Codex:快速比較

維度Claude Code(Opus 4.6)Codex(GPT-5.4)
執行質量更深——會主動發現缺口、幫你排優先次序唔錯——做得完任務,但主動分析較少
自動 QA內建,會自動派 review agent目前未有——需要手動驗證
平行 agents成熟——可以協調 5-6 個 agent好有前景——用到,但未算好順
架構推理medium thinking 已經好強high thinking 特別強——更快完成重構式思考
持續執行計劃好勁——可以穩定連續跑好耐
context 壓縮較慢更快——只係唔同,未必一定更好
大規模 localization好強(Opus 4.6 medium)一樣好強——目前對我嚟講仲更平
plugin / skill 生態更成熟(Superpowers、/feature-dev 等)正喺成長——但可以吸收 Claude workflow
跨模型 review擅長捉邊角問題同不一致擅長捉 over-engineering 同提出簡化
成本$100-200/月而家有免費試用月,之後待定
Codex CLI 終端畫面,顯示 GPT-5.4 連續執行一個開發計劃超過 46 分鐘——commit、test 並 push code
Codex 配 GPT-5.4 連續執行一份確認過嘅計劃超過 46 分鐘——commit、test、修正、push,一路不停。

仲有幾點補充觀察

context 管理:Codex 喺 context window 滿咗之後,壓縮 context 嘅速度明顯快啲。呢樣到底係優點定缺點,我仲未完全有結論——只係佢同 Claude Code 嘅處理方式真係唔同。

大規模 localization:我之前用 Claude Code 配 Opus 4.6 喺 12 種語言翻譯咗 390 萬個字。而 GPT-5.4 嘅翻譯質量,大致同 Opus 4.6 medium thinking 差唔多——但至少而家,對我嚟講大規模跑起上嚟更平。所以最近我已經開始將批量 localization 工作逐步轉去 GPT-5.4。呢個成本優勢會維持幾耐我唔知,但只要仲喺度,我覺得就值得用。

成本:我而家用緊 Claude Code 嘅 $200/月 Max plan。既然 Codex 已經開始接走我相當一部分工作量——尤其係 localization——我正喺考慮係咪可以降返去 $100 嗰個 tier。OpenAI 呢次免費試用月令過渡輕鬆咗好多,但就算恢復原價,將 workload 分散喺兩個工具嘅較低 tier 上,可能依然比喺一個工具上沖到最盡更划算。


我而家嘅結論

真真正正雙持用咗一個星期之後,我而家個工作模型大概係咁:

優先用 Claude Code 嘅情況:你需要高執行質量,而且最好自帶 QA;你需要複雜嘅多 agent 編排;你需要喺大型項目入面長時間維持一致性;或者你正喺一個已經搭好 Superpowers workflow 嘅 project 入面工作。

優先用 Codex 嘅情況:你需要一個新嘅架構視角;你喺一個好難嘅推理問題上想開 high thinking;你要執行一份定義清楚、適合持續推進嘅計劃;或者啱啱好 Claude Code 今日狀態麻麻。

兩個一齊用嘅情況:任何稍為複雜啲嘅 implementation plan。先喺一個工具入面起草,再交俾另一個去 review。呢個跨模型 review loop,真係我今個星期搵到最好嘅 workflow。

我冇放棄 Claude Code——佢依然係我嘅主工具,亦都係我最熟悉嘅生態。但我已經唔再係一個「單工具開發者」。GPT-5.4 係靠真實能力,而唔係靠「後備工具」呢個身份,先喺我嘅 workflow 入面攞到一個正式位置。

AI 輔助開發嘅未來,我覺得唔係「揀出唯一贏家」。而係知道邊個時候應該攞邊個工具出嚟。更重要嘅係,承認一件事:呢啲工具擺埋一齊,真係比單獨用其中一個更勁。


常見問題

GPT-5.4 喺寫 code 上比 Opus 4.6 更強?

我唔會咁簡單咁講邊個絕對更強。GPT-5.4 喺 high thinking 底下,架構推理同持續執行計劃嘅能力好突出。Opus 4.6 喺執行質量、主動發現缺口、同埋長 session 入面維持一致性方面依然更強。真正最好嘅結果,通常係靠兩個 model 互相 review 對方嘅工作。

我應唔應該由 Claude Code 轉去 Codex?

我唔建議徹底轉。兩邊都有好明顯、而且互補嘅優勢——Claude Code 嘅自動 QA 同平行 agent 編排的確領先,而 Codex 嘅持續執行能力,以及 GPT-5.4 喺難題上嘅推理能力,亦都真係好強。雙持先係我而家覺得最合理嘅做法。

跨模型 review 值唔值得多花啲工夫?

如果計劃稍微複雜啲,我覺得絕對值。叫 Opus 去 review GPT-5.4 嘅輸出,再叫 GPT-5.4 去 review Opus 修過嘅版本,會捉到完全唔同類型嘅問題——Opus 會捉邊角位同不一致,GPT-5.4 會捉過度設計。兩三輪之後出嚟嘅 plan,明顯比只靠一個 model 更緊更穩。

雙工具組合一個月大概要幾錢?

Claude Code 視乎 plan,大概係 $100-200/月。Codex 嘅價格而家仲變動中——OpenAI 目前提供咗一個免費試用月。就算恢復正常價格,將 workload 拆落兩個工具嘅較低 tier 上,可能依然比喺一個工具上開滿配更划算。

Claude Code 嘅 plugin 可以直接喺 Codex 用?

唔可以直接用,但可以改。我就係叫 Codex 去研究 Claude Code 嘅 plugin workflow(例如 /feature-dev/code-review/superpowers),再將核心邏輯翻譯成 Codex skills,放喺 ~/.codex/skills 入面。好似 hooks 呢類 Claude 專屬功能,未必可以照搬,但 workflow 本身係搬得到。


差唔多就係咁。我反而幾好奇——而家有冇其他人都喺跑多模型 workflow?會一齊用 Claude Code 同 Codex,或者其他組合?你哋目前摸索到啲咩 pattern?

下次再傾, Chandler

繼續閱讀

更多
問Sydney
Account
關於
聯繫
語言
偏好設定