Saya Memakai Claude Code untuk Semua Hal Lain, Kecuali Coding

Pada 3 April 2026, saya bilang saya akan kembali dalam 30 hari untuk jujur soal apa yang benar-benar terjadi setelah membatalkan Claude Max.

Saya datang sebelas hari lebih cepat.

Bukan karena saya tidak sabaran. Tapi karena polanya sudah kebaca, dan menahan jawaban sampai 2 Mei rasanya cuma jadi semacam teater.

Punchline-nya terdengar aneh di awal. Tool bernama Claude Code sekarang justru jadi tool yang saya pakai untuk hampir semua hal kecuali code.

Versi singkatnya seperti ini:

Codex dengan GPT-5.4 di xHigh thinking sudah mengambil kursi coding.
Claude Code dengan Opus 4.7 di xHigh sudah mengambil semua kursi lain di meja saya.
Cerita "Codex murah" langsung retak begitu limits yang nyata muncul.

Kalau saya harus merangkum thesis-nya sebersih mungkin, mungkin ini:

Codex-GPT-5.4 di xHigh untuk semua hal yang berhubungan dengan code. Claude Code dengan Opus 4.7 di xHigh untuk semua hal lainnya.

Pemisahan itu jauh lebih tajam daripada yang saya kira sembilan belas hari lalu.

Dan jawabannya juga ternyata lebih mahal, sekaligus lebih membuka sisi psikologis workflow saya, daripada yang saya duga.

Yang pertama kali rusak bukan kualitas code

Waktu saya menulis post pembatalan, ceritanya terlihat sederhana dan menarik:

Claude Max: $200/bulan
Codex / ChatGPT: $20-25/bulan
gap kualitas eksekusi sedang menyempit cepat
reliability OpenAI terlihat lebih kuat

Itu kelihatan seperti downgrade yang mudah.

Ternyata tidak.

Hal pertama yang rusak bukan arsitektur, bukan kualitas plan, bukan juga disiplin eksekusi.

Yang rusak adalah cerita soal limits.

Timeline saya yang sebenarnya lebih mirip seperti ini:

Apr 6: Saya mendaftar dua seat ChatGPT Business dengan harga $25/bulan per seat, billing bulanan.
Apr 6: Saya sudah mulai berpikir dalam mode workaround. Untuk menjaga kira-kira pace coding yang sama, saya curiga saya mungkin butuh sekitar tiga account yang bisa menjalankan Codex.
Apr 10: Setelah beberapa hari mencoba hidup dengan setup itu, saya sudah punya cukup bukti untuk mengatakannya terang-terangan: tiga account murah tetap tidak bisa menggantikan apa yang pernah diberikan Claude Max pada kondisi terbaiknya.
Apr 12: Saya membeli ChatGPT Pro seharga $100/bulan karena makin sering saya pakai Codex untuk pure coding, makin saya ingin lebih banyak GPT-5.4 di level high dan xHigh reasoning, bukan lebih sedikit.

Itulah koreksi jujur pertama terhadap post tanggal 3 April.

Penggantinya bukan "$200 Claude Max berubah jadi $20 Codex."

Lebih tepatnya kira-kira begini:

"Saya tidak lagi butuh plan Anthropic yang sama seperti dulu."
"Saya tetap butuh lebih banyak capacity Codex daripada yang diberikan tier murah."
"Perbandingan yang nyata adalah kualitas workflow di bawah limits yang nyata, bukan screenshot benchmark."

Bacaan saya saat ini adalah OpenAI kemungkinan sedang agresif soal limits karena mereka ingin market share. Itu inferensi saya, bukan insider knowledge. Kalau itu benar, jendela ini mungkin tidak akan terbuka selamanya.

Jadi kalau Anda membangun seluruh keputusan Anda di atas ekonomi $20 hari ini, setidaknya akui bahwa lingkungan pricing ini mungkin bersifat taktis, bukan stabil.

Codex mengambil kursi coding

Pelajaran terbesar buat saya adalah GPT-5.4 di xHigh thinking terasa seperti spesialis coding.

Bukan spesialis yang karismatik.

Bukan spesialis yang hangat.

Dan bukan juga yang terlihat ingin jadi teman Anda.

Tapi tetap spesialis.

Ada kesan bare dan no-nonsense pada Codex yang ternyata saya sukai lebih dari dugaan saya. Rasanya seperti bekerja dengan engineer yang hati-hati, metodis, dan tidak sedang menampilkan persona ke wajah Anda.

Itu lebih penting daripada yang saya kira saat workday berlangsung panjang.

Momen yang paling jelas buat saya adalah 17 April. Saya memberi Codex-GPT-5.4 di xHigh sebuah plan yang sudah disepakati lalu membiarkannya bekerja. Ia berjalan terus selama tiga puluh sampai empat puluh lima menit dalam satu session, mengikuti plan dengan dekat, menulis dan menjalankan unit tests, integration tests, dan browser tests di local, tanpa saya harus duduk mengawasinya terus.

Saya belum pernah punya tool lain yang melakukan itu untuk saya dengan konsistensi yang sama.

Itu mengubah cara saya memandang Codex. Ia bukan cuma "cukup bagus untuk task kecil." Ia sanggup melakukan eksekusi panjang dan disiplin ketika plan-nya jelas.

Untuk pure coding work, sekarang saya hampir selalu mengandalkan Codex:

architecture
implementation
debugging
eval design
framing tests
pipeline cleanup
product logic yang production-minded

Contoh April yang paling jelas adalah Prova.

Sebagian besar kerja yang benar-benar berguna di Prova bukan sesuatu yang glamor. Bukan "lihat betapa pintarnya model ini." Yang terjadi justru:

mengevaluasi sprint yang bisa dikomposisikan
merapikan onboarding logic
menemukan kontradiksi antara roadmap generation dan assigned sprint state
memperbaiki produk berdasarkan row user yang nyata dan perilaku production yang nyata

Jenis kerja seperti ini ternyata sangat cocok dengan Codex.

Ia kompeten, teliti, dan surprisingly tajam ketika pekerjaannya adalah:

mengidentifikasi kontradiksi
mengisolasi logic bug
memisahkan correctness dari wilayah RFC
merekomendasikan langkah berikutnya yang paling kecil tapi tetap defensible

Salah satu contoh paling jelas datang dari satu production row Prova untuk user dengan builder intent.

Sistemnya:

memberi label marketing_vp pada user yang sebenarnya punya builder intent
meng-assign table-stakes-diagnostic
menghasilkan roadmap yang dimulai lebih jauh di belakang dalam journey
menampilkan Context Check card segera setelah onboarding

Yang membuat episode itu berguna bukan cuma diagnosis-nya, tetapi loop cross-review-nya.

Opus 4.7 membawa saya ke tiga masalah pertama:

satu bug di track calculation
satu timing bug
satu pertanyaan builder-opener / RFC

Lalu GPT-5.4 mendorong analisis itu lebih jauh dan menangkap kontradiksi yang dilewatkan Opus:

assigned first sprint dan generated roadmap sudah memberi dua kebenaran yang berbeda kepada user yang sama

Itu penting. Itu menggeser percakapan dari "haruskah kita ship Builder RFC sekarang?" menjadi "perbaiki dulu kontradiksi live ini, lalu kembali ke RFC."

Rasanya bukan seperti model yang sedang mencoba membuat saya terkesan. Rasanya seperti senior SWE yang bilang: perbaiki kontradiksi saat ini dulu, baru bicara teori produk.

Pola itu terulang cukup sering bulan ini sehingga saya tidak lagi melihat Codex sebagai "alternatif yang lebih murah." Saya melihatnya sebagai alat coding utama saya.

Claude Code mengambil semua kursi lainnya

Kalau ceritanya berhenti sampai di situ, jawabannya akan sederhana: pindah ke Codex dan lanjut.

Tapi bukan itu yang terjadi.

Claude Code dengan Opus 4.7 masih lebih baik untuk pekerjaan yang output-nya bergantung pada taste, atau ketika loop-nya panjang, iteratif, dan berat konteks.

Di situlah judul post ini berhenti terdengar kontradiktif dan mulai terasa akurat. Claude Code, CLI yang dulu saya raih secara refleks setiap kali waktunya menulis code, sekarang menjadi tool yang saya pakai ketika saya ingin mengerjakan apa pun selain menulis code.

Yang saya maksud dengan semua hal lain adalah:

writing yang harus terdengar seperti saya
iterasi pada structure dan rhythm
naming dan positioning
tagline dan brand phrasing
image prompts untuk cover post blog
eksplorasi logo dan identitas
pass /frontend-design yang lebih kuat ketika pekerjaan butuh visual judgment, bukan sekadar functional UI
research thread panjang ketika saya sedang membangun point of view lintas beberapa session

Dari pengalaman saya selama sembilan belas hari ini, pola itu terus terbukti berulang.

Gap-nya paling terlihat ketika ada feedback loop.

Baik Claude maupun Codex bisa membaca post lama, meninjau prompt lama, dan menggunakan pekerjaan sebelumnya sebagai referensi. Tapi saat saya melakukan beberapa ronde refinement dengan feedback setelah tiap percobaan, Claude masih tampak lebih andal memahami arah yang saya mau.

Itu berlaku untuk writing.

Itu juga berlaku untuk image prompting.

Itu juga berlaku untuk naming.

Contoh produk yang paling jelas adalah Prova. Saya tidak sampai pada nama itu dengan Codex. Saya butuh Opus untuk pekerjaan seperti itu. Hal yang sama juga terjadi pada banyak eksplorasi bahasa brand. GPT-5.4 memberi saya jawaban yang solid dan kompeten. Opus memberi saya rentang kreatif yang lebih kuat.

Pola yang sama muncul juga di site design.

Workflow /frontend-design di bawah Superpowers masih bekerja lebih baik untuk saya di Opus dibanding GPT-5.4 ketika pekerjaannya design-led, bukan engineering-led. Codex memberi saya sesuatu yang fungsional. Claude lebih sering memberi saya sesuatu yang benar-benar ingin saya ship dengan bangga.

Jadi kalau pertanyaannya adalah:

"Apakah Codex menggantikan Claude untuk semuanya?"

Tidak.

Ia menggantikan Claude untuk kursi coding. Tidak untuk semua hal lain.

Perbedaan itu penting.

Familiarity itu nyata, dan rasa withdrawal juga nyata

Saya sudah memakai Claude Code sekitar 13 bulan.

Lama waktu seperti itu mengubah body language Anda saat bekerja, bukan cuma daftar preferensi Anda.

Ketika saya beralih lebih agresif ke Codex, saya benar-benar merasakan semacam withdrawal effect.

Bukan karena Codex jelek.

Tapi karena ia berbeda.

Titik-titik friksinya kecil, tapi konsisten:

beberapa permission confirmation
perasaan bahwa kadang ia bertanya satu hal terlalu banyak
tone jawaban yang terasa steril
ketiadaan "voice" Claude yang selama ini terasa familiar di dalam loop

Itu bukan cacat objektif.

Itu adalah perbedaan workflow.

Dan familiarity mengubah cara Anda mengalaminya.

Saya tidak mau pura-pura bahwa saya melewati transisi ini seperti ekonom yang sepenuhnya rasional.

Tidak.

Di satu titik saya menangkap diri saya sendiri tetap menjalankan pekerjaan lewat Claude murni sebagai safety-net review tambahan, bukan karena saya benar-benar butuh second opinion, tetapi karena tarikan itu lebih kuat daripada narasi saya sendiri bahwa "saya sedang switch dengan bersih."

Yang diajarkan ini ke saya adalah dependency yang sesungguhnya bukan cuma pada raw capability Claude. Ia juga ada pada rasa aman yang muncul karena ada sistem cerdas lain di dalam loop yang saya percayai dengan cara berbeda.

Itulah juga alasan kenapa jawaban final buat saya tidak akan pernah menjadi "pilih satu untuk selamanya."

Psikologi workflow juga penting.

Codex juga punya failure mode-nya sendiri

Periode ini bukan rentetan kemenangan Codex terus-menerus.

Saya juga kena masalah yang nyata.

Hal pertama yang terasa benar-benar sebagai masalah khas Codex terjadi pada 14 April. Di dua terminal session saya mendapat error ini:

{
  "error": {
    "message": "Unknown parameter: 'prompt_cache_retention'.",
    "type": "invalid_request_error",
    "param": "prompt_cache_retention",
    "code": "unknown_parameter"
  }
}

Hal seperti ini penting karena ia merusak trust di layer harness, bukan di layer reasoning.

Saya juga melihat bahwa Codex tampaknya lebih ketat soal apa yang boleh dilakukan model di sekitar deploy atau saat menyentuh production, bahkan setelah approvals sebelumnya sudah diberikan di session yang sama.

Kadang itu bagus.

Kadang itu mengganggu.

Tapi jelas itu bagian dari pengalaman user yang nyata.

Satu contoh kecil yang justru saya lebih suka di sisi Codex: mengecek status dan limits tanpa mengganggu alur utama. Bisa menjalankan /status tanpa harus menunggu pekerjaan sekarang selesai memang hal kecil, tapi dalam sembilan belas hari ergonomi kecil seperti itu menumpuk.

Itulah maksud saya ketika bilang tool ini berbeda bukan cuma dalam kualitas output. Mereka juga berbeda dalam rasa harness.

Reliability tetap penting, dan April tidak membantu kasus Claude

Salah satu alasan saya cukup nyaman melakukan switch di awal adalah reliability.

Saya sudah menulis tentang perbedaan status 90 hari antara Anthropic dan OpenAI di follow-up tanggal 31 Maret. Gambaran besarnya masih tetap penting:

Gambar status uptime 90 hari Anthropic yang menunjukkan partial outage di claude.ai, platform, API, dan Claude Code

Gambar status sistem 90 hari OpenAI yang menunjukkan 99.99% uptime API dan 99.91% uptime ChatGPT

Lalu April menambahkan satu pengingat nyata lagi.

Pada 15 April, Claude kembali mengalami elevated errors di Claude.ai, API, dan Claude Code. Login terdampak. API pulih lebih dulu. User Claude Code yang sudah login tetap bisa bekerja, tetapi login-nya sendiri sempat rusak.

Itu tidak menghapus kekuatan Claude.

Tapi itu memperkuat argumen praktis untuk tidak menaruh seluruh workflow Anda pada satu vendor saja.

Ini masih salah satu pelajaran paling tahan lama dari eksperimen ini:

Dual-wielding bukan cuma soal kemewahan. Ini soal ketahanan operasional.

Ketika satu provider punya sore yang buruk, Anda tetap bisa ship.

Opus 4.7 mempertajam pola, bukan membalikkannya

Claude Opus 4.7 rilis pada 16 April. Tidak adil kalau saya menerbitkan verdict jujur tanpa benar-benar mencobanya.

Jadi saya hampir langsung mengujinya pada diagnostic coding yang nyata di Prova.

Opus 4.7 memberi saya first pass yang solid. Ia mengidentifikasi track bug, Context Check card yang waktunya salah, dan pertanyaan yang lebih luas soal Builder-opener.

Lalu saya menjalankan diagnosis itu lagi lewat GPT-5.4 sebagai critique pass, bukan sebagai blind second opinion, melainkan sebagai reviewer yang membaca analisis tertulis dari Opus. GPT-5.4 menangkap kontradiksi yang lebih tajam yang dilewatkan Opus: produk itu sudah meng-assign satu first sprint sambil membuat roadmap yang mulai dari tempat lain. Itu bukan sekadar masalah builder fit. Itu masalah correctness yang nyata.

Kemudian saya dorong diagnosis yang sudah direvisi itu kembali lewat Opus dan ia pun converge.

Kejutannya datang dari arah sebaliknya.

Pada 19 April, saya menyadari sesuatu yang tidak saya duga: untuk task yang lebih sederhana — short code review pass, focused execution pada perubahan kecil — Opus 4.7 di xHigh terasa jauh lebih lambat daripada Codex-GPT-5.4 di xHigh. Saya justru mengira kebalikannya.

Detail itu menambatkan kembali pola saya.

Di mana Opus masih menang jelas bagi saya adalah pada pekerjaan yang taste-heavy, iteratif, dan long-context seperti yang saya jelaskan di atas. Di mana Codex menang jelas adalah deep coding diagnosis dan juga putaran coding cepat sehari-hari yang dulu biasanya saya serahkan ke Claude.

Jadi versi yang jujur adalah:

Opus 4.7 masih bisa memberi saya first pass yang bagus untuk analisis coding yang lebih dalam
pada putaran coding yang lebih ringan, saat ini ia terasa lebih lambat daripada GPT-5.4 pada level thinking yang sama
digabung dengan pengalaman continuous execution pada 17 April, itu makin mendorong kursi coding ke arah Codex, bukan mendekatkannya ke hasil imbang

Di mana saya benar-benar mendarat

Kalau semua drama, pricing screenshot, outage screenshot, dan framing social post dibuang, maka per 22 April pola kerja saya sudah settle begini:

Untuk semua hal yang berhubungan dengan code

Saya akan lebih dulu meraih Codex dengan GPT-5.4 di xHigh thinking.

Kenapa:

terasa seperti spesialis
metodis
hati-hati
menangani architecture dan execution dengan baik
bisa menjalankan agreed plan lengkap dengan unit, integration, dan browser tests selama tiga puluh sampai empat puluh lima menit
pada putaran coding sehari-hari, saat ini lebih cepat daripada Opus 4.7 di xHigh
sekarang saya lebih mudah mempercayainya untuk pekerjaan coding yang dalam

Untuk semua hal lainnya

Saya akan lebih dulu meraih Claude Code dengan Opus 4.7 di xHigh thinking.

Sekarang ini mencakup:

writing yang harus terdengar seperti saya
image prompts untuk cover art
naming, positioning, dan brand language
pass /frontend-design yang butuh visual judgment
long research threads saat saya sedang membangun point of view lintas session
me-review plan saya sendiri sebelum menyerahkannya ke Codex
post blog ini

Kenapa:

ia mengikuti style saya lebih baik
ia lebih baik dalam creative iteration yang didorong feedback
ia lebih kuat dalam urusan brand taste dan design taste
ia masih model yang paling saya percaya ketika pekerjaannya adalah judgment, bukan execution

Untuk coding plan yang penting

Saya masih menyukai loop cross-review:

ambil plan dari satu model
minta model lain mengkritiknya
lalu perketat dari sana

Workflow itu masih terasa lebih kokoh daripada bertaruh pada first answer dari satu model, sebaik apa pun model itu. Builder-intent row yang saya bahas di atas adalah alasan persis kenapa saya masih menyukai setup ini.

Untuk pricing

Saya tidak berakhir pada switch murah yang sederhana.

Saya berakhir di sini:

tidak lagi menginginkan struktur Claude Max $200 yang lama
menginginkan lebih banyak capacity Codex, bukan lebih sedikit
menerima ChatGPT Pro $100 sebagai jawaban yang lebih realistis untuk coding plan
tetap mempertahankan Claude di dalam loop untuk semua hal yang bukan code

Untuk shipping

Seluruh tujuan switch ini adalah tetap bisa ship. Ini bukan sembilan belas hari benchmarking tools tanpa hasil. Dalam window yang sama, Operator/Builder split Prova sudah live dengan execution lane nyata untuk Builder, dua post blog panjang sudah terbit, dan saya sudah menjalankan full translation pass di dua belas locale. Jawaban untuk pertanyaan apakah eksperimen ini mengurangi output saya adalah tidak.

Kalau Anda ingin versi yang paling ringkas:

Saya membatalkan Claude Max, tetapi saya tidak mengeluarkan Claude Code dari pekerjaan saya. Saya hanya memindahkan Claude Code keluar dari kursi coding utama dan memberinya sisa meja.

Itulah ringkasan paling jujur yang bisa saya berikan.

Jadi: apakah saya akan mengambil keputusan yang sama lagi?

Ya.

Tapi sekarang saya akan mendeskripsikannya dengan cara yang berbeda.

Pada 3 April, framing-nya adalah:

"Saya membatalkan Claude Max dan sedang menguji apakah Codex bisa menggantikannya."

Pada 22 April, framing-nya lebih dekat ke ini:

"Saya membatalkan Claude Max, menemukan bahwa Codex saat ini adalah spesialis coding yang lebih kuat untuk saya, dan sekarang memakai Claude Code untuk semua hal lain di meja saya — tempat ia masih menjadi tool terbaik yang saya punya."

Jawaban itu kurang biner, lebih mahal daripada versi social-post yang sederhana, dan jauh lebih dekat ke kebenaran.

Pertanyaan yang sering muncul

Apakah Codex benar-benar menggantikan Claude untuk coding?

Bagi saya, ya. Untuk pure coding work, Codex dengan GPT-5.4 di xHigh thinking sudah menjadi kursi default saya. Opus 4.7 di xHigh masih bisa memberi saya first pass yang berguna untuk diagnosis yang lebih dalam, tetapi bagi saya ia sudah bukan kursi coding utama lagi, dan pada putaran yang lebih ringan terasa lebih lambat daripada Codex.

Apakah cerita Codex murah itu benar-benar bertahan?

Tidak sepenuhnya. Begitu saya memakainya pada volume yang nyata, ekonomi tier murah tidak lagi menjelaskan keseluruhan cerita. Saya pindah ke plan OpenAI yang lebih mahal karena saya ingin lebih banyak capacity, bukan karena eksperimennya gagal.

Apakah saya masih butuh Claude?

Ya, kalau pekerjaan Anda mencakup writing, design, naming, image prompting, long research threads, atau loop lain yang berat pada taste dan judgment. Opus 4.7 di xHigh sekarang jadi default saya untuk semua hal yang bukan code dalam workflow saya.

Bagaimana dengan reliability?

Gap reliability itu tetap penting. April justru memperjelasnya. Jawabannya bukan panik. Jawabannya adalah backup coverage.

Kenapa publish sebelas hari lebih cepat?

Karena pattern-nya sudah settle. Menahan post sampai 2 Mei hanya demi menghormati angka persis di headline asli akan terasa teatrikal. Hal yang jujur adalah mengatakan apa yang benar-benar saya lakukan sekarang lalu lanjut.

Jadi plan apa yang akan saya beli hari ini?

Kalau pekerjaan Anda mostly coding, saya akan sangat serius melihat Codex / GPT-5.4 dulu. Kalau pekerjaan Anda mencakup coding plus banyak creative work yang bergantung pada taste, saya tidak ingin tanpa Claude. Dan kalau $100/bulan belum terjangkau sekarang, tier Codex $20 masih bisa dipakai untuk proyek individual yang lebih kecil — hanya saja expect untuk lebih cepat kena limits ketika workload-nya sustained dan lintas beberapa proyek. Jawaban saya sendiri saat ini bukan lagi jawaban satu tool saja.

Itulah update jujur setelah sembilan belas hari.

Codex mengambil kursi coding.

Claude Code mengambil semua kursi lainnya.

Itulah kenapa tool yang secara literal bernama Claude Code sekarang justru menjadi tool yang saya pakai ketika pekerjaannya adalah semua hal selain code.

Dan pelajaran yang sebenarnya, sekali lagi, adalah bahwa workflow lebih penting daripada fandom.

Kalau Anda juga menjalani switch serupa bulan ini, saya sungguh ingin tahu Anda mendarat di mana. Apakah satu tool menang telak untuk Anda, atau split Anda juga makin tajam?

Salam hangat,
Chandler

Tag#Claude Max #Claude Code #Codex #GPT-5.4 #Opus 4.7 #AI Coding #Developer Tools #Build in Public