Codex 2주 사용 후 $200 Claude Code 플랜을 해지하려고 해요
첫 비교 글을 쓴 지 2주 만에 두 도구 모두 대규모 업데이트를 했어요. Codex는 Claude Code가 하지 못한 방식으로 제 제품 전략에 도전했고, Claude Code는 Agent Teams와 AutoMemory를 출시했어요. 결과적으로 저는 월 $200 Max 플랜을 줄이면서도 더 나은 결과물을 얻고 있어요.
2주 전에 Codex와 Claude Code를 양손잡이처럼 쓰는 경험에 대해 글을 썼어요. 그 글이 제가 쓴 것 중 가장 많은 반응을 받았는데, 같은 실험을 하고 있는 사람들이 정말 많더라고요.
당시 제 작업 모델은 명확했어요: 실행 품질과 QA에는 Claude Code, 아키텍처 추론과 장기 계획에는 Codex. 두 도구 모두 쓰되, 각자 다른 강점을 활용하고, 중요한 작업은 크로스 모델 리뷰를 하는 거죠.
2주가 지난 지금, 두 도구 모두 중요한 업데이트를 했고 균형이 바뀌었어요. 극적인 변화는 아니지만, 글로 쓸 만큼은 충분해요. (참고로 이 글은 Claude Code에서 작성하고 있어요. 충성심 때문이 아니라 현재 결제 주기가 아직 남아있어서 이미 낸 돈을 낭비하고 싶지 않기 때문이에요. 이런 실용적인 계산이 바로 이 글의 핵심이기도 하고요.)
2026년 3월은 두 플랫폼 모두에게 치열한 달이었어요. Codex는 Slack, Gmail, Linear, Figma, Sentry 등과의 통합을 포함한 플러그인을 출시했고, GitHub 워크플로우 자동화를 위한 Triggers, GPT-5.4 mini와 nano 모델, 그리고 Windows 네이티브 지원도 추가했어요. Claude Code는 Agent Teams(멀티 에이전트 오케스트레이션, 아직 실험 단계), AutoMemory, Computer Use(macOS 전용, Pro/Max 플랜), /loop을 통한 예약 작업, 그리고 3월에만 약 10번의 릴리스를 했어요. 두 플랫폼 모두 엄청나게 빠르게 움직이고 있어요.
뉴스레터 이야기 (이건 코드만의 문제가 아니에요)
제 생각을 바꾼 관찰은 코드 작성과 전혀 관련이 없었어요.
제 사이트에는 완전한 뉴스레터 시스템이 있어요 - 구독 폼, 포스트 CTA, 환영 이메일, 일일 크론, 이중 확인, 13개 언어 지원. 기술적으로는 모든 것이 작동해요. 문제는: 인증된 구독자가 0명이라는 거예요.
이걸 해결하기 위한 계획을 세웠어요: 강의에서 리드 마그넷 PDF를 추출하고, Module 1을 이메일 게이트 뒤에 넣고, 글 중간에 CTA를 추가하고, AI 챗봇을 구독 플로우에 연결하고, YouTube와 LinkedIn을 통해 배포하기. 일곱 가지 새로운 것들이요.
이 계획을 Claude Code와 함께 만들었어요. 생산적인 느낌이 들었죠.
그 다음에 같은 브리프를 Codex에게 줬어요. 반박이 즉각적이었어요.
리드 마그넷은 불필요했어요 - Module 1은 이미 무료거든요. 한꺼번에 너무 많은 접점을 만들면 뭐가 효과가 있는지 알 수 없어요. 문제는 인프라가 아니라 카피예요. "Stay in the loop"는 너무 일반적이에요. 인증 이메일이 충분히 설득력이 없어요. 관심사 선택이 마찰을 더해요.
Codex의 계획: 먼저 기존 것을 고치고(카피 재작성, 인증 이메일 개선, 마찰 줄이기), 새로운 접점 하나만 추가하고(인라인 블로그 CTA), 다른 것을 만들기 전에 GA 이벤트로 측정하기.
제 계획은 "더 많은 것을 만들자"였어요. Codex의 계획은 "기존 것을 먼저 잘 작동하게 만들고, 그 다음에 새로운 것 하나를 테스트하자"였어요. 제 계획은 일주일이 걸리면서도 뭐가 효과가 있었는지 알 수 없었을 거예요. Codex의 계획은 하루 만에 배포하고 다음에 어디에 투자할지 정확히 알려줘요.
솔직히 말하면, 이건 저를 허를 찔렸어요. Claude가 전략에 약해서가 아니에요. "실행하기 전에 내 가정에 도전해줘"라고 더 신중하게 프롬프트했다면 비슷한 반박을 받았을 수도 있다고 생각해요. 하지만 기본 추론 스타일이 눈에 띄게 달랐어요. GPT-5.4는 "전제를 의심하기"가 기본이었고, Claude는 "계획을 잘 실행하기"가 기본이었어요.
이 차이는 제품 의사결정에서 중요해요.
속도와 조향
일상적인 작업 흐름에 예상보다 큰 영향을 미치는 두 가지를 발견했어요.
속도와 토큰 효율성: high thinking 모드에서 GPT-5.4를 쓰는 Codex는 동일한 작업에서 high thinking의 Opus 4.6보다 일관되게 빨라요. 서드파티 비교에 따르면 Codex는 비슷한 작업에 대략 3배 적은 토큰을 사용해요 - 한 벤치마크에서는 Figma 스타일 작업에서 Claude가 620만 토큰을 쓸 때 Codex는 150만 토큰으로 측정됐어요. Claude는 더 많이 "소리 내어 생각"하는데, 이는 더 높은 품질의 추론을 만들어내지만 한도를 더 빨리 소모해요. 3월 20일경부터 Opus가 평소보다 더 많은 도구 호출을 하는 것 같아요 - 답에 도달하기 전에 중간 단계가 더 많아졌어요. 모델 변경인지 우연인지는 모르겠지만, 체감이 돼요.
실시간 조향: 도구가 작업 중일 때 새 메시지를 보내면 - "잠깐, 그 방향 말고 이걸 시도해봐" - Codex는 거의 즉시 읽고 방향을 조정해요. Claude Code는 현재 실행을 끝낸 다음에야 수정을 읽는 경향이 있어요.
사소해 보이죠. 아니에요. 에이전트가 잘못된 방향으로 가는 걸 지켜보면서 궤도를 수정하고 싶을 때, "지금 바로 수정을 읽는 것"과 "현재 작업을 끝낸 후에 읽는 것" 사이의 지연은 하루 작업 세션 동안 복리처럼 쌓여요.
SSE 버그: 구체적인 예시
새로운 iOS 앱을 만들고 있었어요. Claude Code가 인증, 에이전트, 채팅, 프레임워크, 대시보드, 프로필 등 모든 기능에 걸쳐 40개의 Swift 파일을 만들었어요. 인상적인 범위죠. 하지만 치명적인 버그 하나가 남아있었어요: 실시간 채팅을 위한 SSE 스트리밍이 작동하지 않았어요.
백엔드는 문제없었어요. curl은 작동했어요. 하지만 Swift 클라이언트에서 URLSessionDataDelegate.didReceive(data:)가 실행되지 않았어요. Claude Code가 이걸 몇 시간 동안 작업했어요. 여러 접근법, 여러 디버깅 세션.
같은 문제를 Codex에게 줬어요. 몇 번의 시도 후: commit 7f592152 - "fix(ios): restore real-time chat streaming."
이게 대표적인 사례일까요? 아닐 수도 있어요. 모든 도구에는 좋은 날과 나쁜 날이 있으니까요. 하지만 제 경험으로는, Claude Code가 디버깅 루프에 갇혀서 같은 접근법의 점점 더 영리한 변형을 시도할 때, Codex로 전환하면 GPT-5.4가 처음부터 문제를 다르게 프레이밍하기 때문에 교착 상태가 풀리는 경우가 많아요.
Claude Code가 여전히 이기는 부분
이 글을 읽고 Codex가 전반적으로 앞서가고 있다고 결론짓기 쉬울 수 있어요. 그건 틀려요. Claude Code도 이번 달에 많은 것을 내놨고, 몇 가지 장점은 오히려 더 커졌어요.
Agent Teams. 2월에 출시되어 3월 내내 성숙해왔어요. 여러 Claude Code 인스턴스가 병렬로 작업해요 - 탐색자, 코드 리뷰어, 구현자, 테스트 러너 - 의존성 추적과 공유 작업 목록을 갖추고 있죠. 아직 실험 단계이고 기본적으로 비활성화되어 있지만, 활성화하면 정말 인상적이에요. Codex도 멀티 에이전트 지원이 있지만(작업이 격리된 클라우드 컨테이너에서 실행), Claude Code의 Agent Teams가 더 조율된 느낌이에요. 많은 파일을 건드리는 대규모 리팩토링에는 Agent Teams가 현재 더 나은 경험이에요.
AutoMemory. Claude Code가 이제 여러분의 습관에 기반해 자동으로 메모리 규칙을 작성해요. 몇 번의 세션 후면 프로젝트 구조, 네이밍 컨벤션, 선호도를 알게 돼요. 미묘하지만 누적 효과로 Claude Code 세션이 시간이 지남에 따라 더 생산적이 되는데, Codex 세션은 현재 그렇지 않아요.
프론트엔드 디자인. /frontend-design 플러그인을 쓰는 Claude Code는 동등한 스킬을 쓰는 Codex보다 눈에 띄게 더 세련되고, 디자인 시스템을 잘 인식하는 UI를 만들어요. 3월 26일 사이트 리디자인 중에 이걸 직접 테스트했어요. Claude의 결과물은 더 나은 공간 구성, 더 일관된 스타일링, 더 응집력 있는 결과를 보여줬어요. 하니스 이점(Claude의 플러그인 시스템이 더 많은 컨텍스트로 스킬을 실행)일 수도 있지만, 실질적인 결과는 명확해요.
코드 품질. Reddit에서 500명 이상의 개발자 댓글을 분석한 커뮤니티 연구에 따르면, 블라인드 비교에서 약 67%의 개발자가 Claude Code의 결과물을 선호했어요 - 더 깔끔하고, 더 관용적이며, 더 잘 구조화된 코드라고 했죠. 제 경험과도 일치해요. 코드가 단순히 작동하는 것이 아니라 유지보수가 가능해야 할 때, Claude Code가 우위에 있어요.
자동 QA. 여전히 킬러 기능이에요. 작업을 완료한 후 Claude Code가 제가 요청하지 않아도 자동으로 리뷰 에이전트를 실행해요 - 코드 리뷰, 일관성 검사, 갭 분석. Codex는 아직 이걸 하지 않아요. 속도보다 정확성이 중요한 모든 작업에서, 이것만으로도 Claude Code가 워크플로우에 남아있을 이유가 돼요.
신뢰성 문제
대부분의 비교 글이 피하는 내용을 공유하고 싶어요.
2026년 3월 하순 기준으로 두 서비스의 상태 페이지에서 가져온 90일 가동률이에요:
| 서비스 | Anthropic | OpenAI |
|---|---|---|
| 메인 플랫폼 | claude.ai: 99.16% | ChatGPT: 99.91% |
| API | api.anthropic.com: 99.24% | APIs: 99.99% |
| 개발자 도구 | Claude Code: 99.48% | — |
| 콘솔 | platform.claude.com: 99.41% | — |


격차는 실제로 있어요. 90일 동안 Anthropic의 서비스는 OpenAI보다 대략 8-10배 더 많은 다운타임을 겪었어요. 3월 25일에는 구체적인 인시던트가 있었어요 - "Elevated errors on Claude Opus 4.6" - 조사-수정-조사 사이클이 거의 2시간 동안 지속됐죠.

공정하게 말하면, 이것만이 전부는 아니에요. 신뢰성은 가동률만이 아니거든요. BeyondTrust의 Phantom Labs가 Codex의 커맨드 인젝션 취약점을 공개했는데, 브랜치 이름 조작을 통해 GitHub 인증 토큰이 노출될 수 있었어요. 이 결함은 웹 UI, CLI, SDK, IDE 통합 모두에 영향을 미쳤어요 - 사용자가 제어할 수 있는 브랜치 이름이 새니타이징 없이 쉘 명령에 직접 전달됐거든요. OpenAI가 패치했지만, 안정성과 보안은 신뢰성의 서로 다른 차원이며 둘 다 중요하다는 것을 상기시켜줘요.
가동률 데이터를 공유하는 건 Anthropic을 깎아내리려는 게 아니에요. 저는 매일 Claude Code를 쓰고 있고 여전히 훌륭해요. 하지만 이 도구들을 중심으로 전문적인 워크플로우를 구축하는 분들에게 이 숫자는 알 가치가 있어요. 그리고 이것이 바로 양손잡이가 있으면 좋은 게 아니라 필수인 이유예요 - 한 서비스가 안 좋은 오후를 보내면 다른 것으로 전환하고 계속 일하면 돼요. 2주 동안 세 번 그랬어요.
플러그인 격차가 좁혀지고 있어요
첫 번째 글에서 Claude Code의 플러그인 생태계가 더 성숙하다고 언급했어요. 2주 전에는 사실이었어요. 오늘은 덜 그래요.
Codex가 3월 27일에 Slack, Gmail, Google Drive, Linear, Figma, Sentry, Notion, Hugging Face와의 통합을 포함한 플러그인 시스템을 출시했어요. 스킬, 후크(SessionStart와 UserPromptSubmit 이벤트 포함), MCP 서버, 그리고 앱과 CLI 모두에서 플러그인 디렉토리도요.
기능 세트가 수렴하고 있어요. 두 도구 모두 이제 다음을 갖추고 있어요: 재사용 가능한 워크플로우를 위한 플러그인/스킬, 이벤트 기반 자동화를 위한 후크, MCP 서버 통합, 외부 서비스와의 앱 수준 통합.
Claude Code가 여전히 앞서는 부분: 기존 플러그인 생태계가 더 깊어요. Superpowers(구조화된 계획), /feature-dev(가이드 개발), /frontend-design 같은 플러그인들은 몇 달에 걸쳐 다듬어져 왔어요. Codex의 플러그인 디렉토리는 더 새롭고 개별 플러그인들은 덜 검증됐어요.
Codex가 앞서가는 부분: Triggers. Codex는 GitHub 이벤트에 자동 대응할 수 있어요 - 이슈가 도착하면 Codex가 자동으로 수정하고 PR을 열어요. 이건 Claude Code가 아직 제공하지 않는 새로운 자동화 카테고리예요. 자율적인 엔지니어링 워크플로우를 원하는 팀에게 Triggers는 중요한 차별화 요소예요.
업데이트된 작업 모델
2주 전에는 대략 Claude Code 60 / Codex 40으로 작업을 나눴어요. 명확한 멘탈 모델이 있었죠: 품질이 필요하면 Claude Code, 아키텍처 추론이 필요하면 Codex.
그 깔끔한 구분이 없어졌어요. 이제 하루 종일 두 도구를 모두 쓰면서, 규칙보다는 느낌에 따라 전환해요. 이 작업은 Codex, 다음 작업은 Claude Code, 때로는 같은 계획을 둘 다 리뷰하게 하기도 해요. 두 도구의 역량이 충분히 가까워져서 "이 작업에 뭘 써야 하지?"라는 질문이 2주 전보다 덜 중요해졌어요.
바뀐 것은 경제성이에요.
OpenAI의 Plus 플랜은 월 $20에 점점 더 넉넉한 한도를 제공해요. Codex를 점점 더 많이 쓰게 되었는데, 어떤 한 가지에서 극적으로 더 나아서가 아니라, 속도, 토큰 효율성, 그리고 $20이라는 가격대가 마찰을 없애주기 때문이에요. "이 작업이 Claude Code 토큰을 쓸 만한 가치가 있나?"라는 정신적 계산이 없어요.
Claude Code 플랜을 월 $200 Max 티어에서 월 $100 플랜으로, 아마도 월 $20 Pro 플랜으로까지 줄이는 쪽으로 기울고 있어요. 2주 전에는 위험하게 느껴졌을 거예요. 지금은 실용적으로 느껴져요. Claude Code가 탁월해야 하는 작업들 - 프론트엔드 디자인, Agent Teams 오케스트레이션, 제가 놓칠 것을 잡아주는 자동 QA - 이것들은 진짜 장점이에요. 하지만 Codex가 제 작업량의 절반을 $20에 처리한다면 월 $200이 필요하지 않을 수도 있어요.
이 결정에 리스크가 있다는 건 알아요. $20 Claude Code 티어는 실질적인 사용 한도가 있어요 - 중요한 세션 중에 한도에 도달하면 다운그레이드를 후회할 거예요. 그리고 OpenAI의 넉넉한 $20 한도는 시장 점유율을 위한 전략일 수 있고 영원히 지속되지 않을 수도 있어요. 하지만 지금 당장은 경제성이 양손잡이를 유리하게 만들어요.
총 비용($20 Codex + $100 또는 $20 Claude Code)이 Claude Code 하나에 쓰던 것보다 적어질 거예요. 그리고 결합된 결과물은 어떤 가격에서든 한 도구만 쓰는 것보다 더 나아요.
이것이 아마 양손잡이 2주의 가장 실용적인 교훈일 거예요: 경쟁이 도구를 더 좋게 만드는 것만이 아니에요. 더 저렴하게도 만들어요. 그리고 더 저렴해지면 둘 다 쓸 여유가 생겨요.
앞으로 기대하는 것
두 플랫폼 모두 가속하고 있어요. Codex는 방금 플러그인, 트리거, Windows 클라이언트를 출시했어요. Claude Code는 Agent Teams, AutoMemory, Computer Use, 예약 작업을 내놨어요. 어느 쪽도 멈춰있지 않아요.
Reddit 개발자 커뮤니티에서 반복되는 주제 - 그리고 이게 뭔가 진짜를 포착한다고 생각하는데 - "Claude Code는 품질이 더 높지만 한도에 걸리고, Codex는 품질이 약간 낮지만 일상에서 더 쓰기 편하다"는 거예요. 둘 다 개선되면서 균형이 변하고 있어요.
조언은 첫 번째 글과 같지만, 이제 더 강하게 말할 수 있어요: 다른 도구를 일주일만 써보세요. 전환하려는 게 아니라, 추가하려는 거예요. 크로스 모델 리뷰 워크플로우는 여전히 제가 발견한 최고의 것이에요. 그리고 신뢰하는 두 가지 도구를 갖추는 운영적 회복력은 둘 중 하나가 다운되는 날에 여러분을 구해줄 거예요.
사용자로서, 이것은 최고의 상황이에요. 두 개의 훌륭한 도구가 빠르게 발전하면서 서로를 밀어주고 있어요. 경쟁의 속도가 너무 치열해서 어떤 회사도 오래 편안하게 앞서갈 수 없다고 생각해요 - 이것이 바로 한 도구에 베팅하는 것이 점점 더 위험하고, 워크플로우(양손잡이, 크로스 모델 리뷰)에 베팅하는 것이 점점 더 옳게 느껴지는 이유예요.
자주 묻는 질문
첫 번째 글 이후로 생각이 바뀌었나요?
핵심 논지 - 양손잡이가 승자를 고르는 것보다 낫다 - 는 더 강해졌을 뿐이에요. 바뀐 것은 비율(60/40이 50/50이 됨)과 이유예요. Codex의 전략적 추론 강점이 코딩 개선보다 더 놀라웠어요.
Codex가 Claude Code보다 빠른가요?
high thinking에서는 네 - 일관되게 빠르고, 서드파티 비교에 따르면 동등한 작업에 대략 3배 적은 토큰을 사용해요. default thinking에서는 격차가 작아요. 자주 왔다 갔다 하는 반복 작업에서는 속도와 토큰 효율성이 쌓여요.
Claude Code의 가동률이 걱정되나요?
90일 수치는 실질적인 격차를 보여줘요(99.2% vs 99.9%). Claude Code가 유일한 도구이고 마감 기한에 쫓기고 있다면 백업 플랜을 세우세요. 하지만 Anthropic은 3월에만 약 10번의 Claude Code 릴리스를 했어요 - 신뢰성이 OpenAI를 뒤쫓고 있더라도 기능은 빠르게 반복하고 있어요.
Codex 보안 취약점은 어떤가요?
Codex의 커맨드 인젝션 결함으로 브랜치 이름을 통해 GitHub 토큰이 노출될 수 있었어요. 발견되고 해결됐어요. 알아둘 가치가 있지만, 보안 연구자들이 이 도구들을 적극적으로 테스트한다는 것도 주목할 만해요 - 생태계에 좋은 일이에요.
뉴스레터 전략 이야기는 정말 도구에 관한 건가요?
부분적으로요. 서로 다른 모델은 서로 다른 기본 추론 스타일을 가지고 있어요. GPT-5.4는 제 가정에 도전할 가능성이 높았어요. Claude는 제 계획을 잘 실행할 가능성이 높았어요. 둘 다 유용하지만, 제품 전략에서는 "맞는 문제를 풀고 있는 건가?"가 "여기 좋은 구현이 있다"보다 더 가치 있는 경우가 많아요.
어떤 도구를 사야 하나요?
둘 다요. 회피가 아니라, 진심으로 최선의 답이에요. 월 $20 Codex + 월 $20-100 Claude Code 조합이 어떤 가격에서든 한 도구만 쓰는 것보다 더 나은 결과를 줘요. 저는 Claude Code를 월 $200에서 $100이나 $20으로 줄이고 Codex를 $20에 추가하는 쪽으로 기울고 있어요. 총 비용은 내려가고 결과물은 올라가요. 다만, OpenAI의 넉넉한 한도는 영원하지 않을 수 있으니 유연하게 대응하세요.
이번 글은 여기까지예요. 여러분도 양손잡이 실험을 하고 계신다면, 비율이 어떻게 변하고 있는지 진심으로 듣고 싶어요. 같은 패턴인가요, 아니면 완전히 다른 경험인가요?
Cheers, Chandler





