Google Gemini 2.5 Pro가 이제 제 코딩 파트너가 되었습니다
AI 모델을 5,000시간 테스트한 결과, Gemini 2.5 Pro가 코딩에서 Claude와 ChatGPT를 능가합니다—복잡한 애플리케이션을 구축하는 데 기본 도구가 된 이유를 설명합니다.
ChatGPT가 2022년 말에 출시된 것이 불과 얼마 전이라는 것이 상상하기 어렵습니다. 그 이후로 많은 것이 변했습니다. 지난 3년간 여러 GenAI 모델과 함께 (아마도) 5,000시간을 보낸 사람으로서, Google Gemini 2.5 Pro의 단계적 변화를 "느낄" 수 있습니다. 이것은 이제 Claude 3.7 Sonnet(Claude Code 포함)이나 DeepSeek R1, OpenAI o1, o3-mini 대비 코딩을 위한 제 기본 도구입니다.
이 선호는 단일 "유레카" 순간에서 온 것이 아니라, 매일 다른 모델들과 작업하면서 축적된 경험에서 왔습니다. 코드 품질, 긴 컨텍스트 윈도우, 속도, 그리고 세심한 UI가 합쳐져 개발자로서의 제 특정 필요에 Gemini 2.5 Pro가 두각을 나타냅니다.
이것은 제 개인적인 "느낌"입니다 - 이 게시물을 위해 벤치마킹은 수행되지 않았습니다.
배경
이 게시물은 다양한 도구에 대한 제 느낌에 관한 것이므로, 제 배경과 다양한 Gen AI 도구를 어떻게 사용하는지 이해하시는 것이 중요하다고 생각합니다. 저는 중년의 광고 전문가입니다(네, 40대를 넘겼으니 어떤 청년의 정의를 사용하든 자격이 없습니다 T.T) 그리고 지난 몇 년간 코딩을 배워왔습니다. 다음과 같은 기본 과정을 이수했습니다: Google IT Automation with Python, Google Cybersecurity Specialization, Machine learning specialization 등...
실제 생활에서 배운 것을 적용하기 위해, Langgraph를 사용하여 RAG 에이전트를 구축했는데, 이 에이전트는 지난 약 20년간 이 블로그에 쓴 내용과 S&P 500의 Magnificent 7에 대한 금융 질문에도 답할 수 있습니다. 이 에이전트의 높은 수준의 스택은:
- 데이터베이스: Weaviate (벡터 스토어 데이터베이스 및 하이브리드 검색용), Google Cloud의 PostgreSQL
- 에이전트 오케스트레이션: Lang Graph
- CI/CD: GCP의 Google Cloud Run
- 프론트엔드: React
현재 작업 중인 것
지난 몇 달간 좀 더 복잡한 애플리케이션을 작업해 왔습니다. Lang graph를 사용하여 구축해 보려 했지만 주로 속도/응답성 면에서 제가 기대하는 수준이 아니었습니다. 그래서 현재 전체 아키텍처는:
백엔드 아키텍처
- 하이브리드 데이터베이스 접근: PostgreSQL(사용자 데이터 및 트랜잭션 무결성)과 DynamoDB(확장 가능한 상태 관리)를 결합하는 하이브리드 데이터베이스 아키텍처를 구현했습니다
- 서버리스 워크플로우 오케스트레이션: 기본 에이전트 패턴을 넘어, 적절한 오류 처리가 있는 복잡한 다단계 워크플로우를 조정하기 위해 AWS Step Functions를 사용하고 있습니다
- 크레딧 기반 시스템 구현: 적절한 트랜잭션 관리가 있는 크레딧 기반 프리미엄 모델을 추가했습니다
- VPC 구성: 보안 그룹과 VPC 엔드포인트로 적절한 네트워크 격리를 설정했습니다
프론트엔드 개선
- 모던 React 스택: 타입 안전한 개발을 위해 Next.js 15와 React 18, TypeScript를 사용합니다
- 인증 시스템: 안전한 사용자 관리를 위해 AWS Cognito를 통합했습니다
- 폴링 및 상태 관리: 적응형 폴링 빈도로 효율적인 상태 추적을 구현했습니다
- 반응형 디자인 시스템: 일관된 스타일링 패턴으로 미니멀하고 깔끔한 UI를 만들었습니다
Langgraph에서 벗어나려 할 때 왜 GCP가 아닌 AWS를 선택했냐면, 단순히 새로운 것을 배우고 싶었기 때문입니다. 이 웹사이트를 호스팅하고 현재 에이전트에 사용하면서 GCP에 대한 약간의 지식이 있었습니다. 그래서 완전히 새로운 것을 배우고 싶었습니다.
Gemini 2.5 Pro가 코딩에서 두각을 나타내는 이유
다른 분들은 벤치마크를 제공할 수 있지만, 저는 Gemini 2.5 Pro가 어떻게 더 나은지에 대한 제 느낌을 드릴 수 있습니다.
실제 코드가 더 좋습니다
동일한 프롬프트와 컨텍스트가 주어졌을 때, Gemini 2.5 Pro의 코드 응답이 DeepSeek R1이나 Claude 3.7 Sonnet보다 더 좋거나(적어도 동등합니다). 품질이 훨씬 떨어지기 때문에 OpenAI o1이나 o3 사용은 중단했습니다.
Gemini 2.5 Pro에서 특히 감사하는 점은 완전하고 바로 사용 가능한 코드를 생성하려는 의지입니다. Claude 3.7 Sonnet과 DeepSeek R1은 때때로 상당히 "게을러서" 상당한 수정이 필요한 부분적 구현이나 의사 코드를 제공합니다. 저처럼 특히 백엔드에 대한 깊은 기술 전문성이 없는 사람에게는 이것이 추가적인 도전이 됩니다. 그러면 부분적 솔루션을 편집하거나 확장할 적절한 위치를 코드베이스에서 찾아야 합니다.
반면 Gemini 2.5 Pro는 최소한의 조정만으로 프로젝트에 직접 복사 붙여넣기할 수 있는 완전히 구현된 솔루션을 제공하는 경향이 있습니다. 이 완전한 코드 생성은 상당한 시간을 절약하고 빈틈을 직접 채워야 하는 인지적 부담을 줄여줍니다.
추론 시간/속도가 더 좋습니다
DeepSeek에는 규모 문제가 있습니다. 아마도 너무 많은 사람들이 사용하고 있고 추론에 최신 Nvidia 칩을 사용하지 않아서, 훨씬 느리고 자주 서버 사용량 초과 오류 메시지를 표시합니다. 반면 Gemini 2.5 Pro는 빠르고, 극도로 빠릅니다. Claude 3.7 Sonnet 웹 버전은 Gemini 2.5 Pro만큼 빠르고 Claude Code는 조금 더 느립니다.
극도로 긴 컨텍스트 윈도우 길이 (더 많은 채팅 반복을 의미)
Claude 3.7 Sonnet은 좋지만 채팅 깊이나 컨텍스트 윈도우 길이 제한에 자주 부딪힙니다. 이에 대처하는 한 가지 방법은 모델에게 다음 작업을 다른 "백엔드 개발자"나 "프론트엔드 개발자"에게 전달하기 위한 문서를 명확하게 작성하도록 요청한 다음 새 채팅을 만드는 것입니다. 이것은 곧 매우 피곤해집니다. 또한 우리 모두 GenAI에서 생성된 코드를 아직 100% 신뢰할 수 없다는 것을 알고 있습니다, 특히 백엔드와 프론트엔드 간의 통합에 관해서는요. 하지만 컨텍스트 윈도우 길이가 너무 작아서 매번 새 채팅을 시작해야 한다면, 기계가 버그를 식별하기 위한 전체 컨텍스트를 가지지 못할 수 있습니다.
반대로 Gemini 2.5 Pro의 1M 컨텍스트 윈도우 길이(무료 티어)를 사용하면, 계속 반복하고, 코드를 복사 붙여넣기하고, 오류 메시지를 입력하고 모델에게 재귀적으로 물을 수 있습니다. 이것은 제 속도와 코드 품질을 크게 향상시켰습니다. :D
(한 가지 빠른 참고 사항으로, 프롬프트당 300k~400k 토큰을 넘으면 추론 시간과 UI 응답성이 현저히 느려지는 것을 확인했습니다.)
4월 4일 업데이트: 지난 48시간 동안 UI 응답성이 많이 개선되었습니다. 이제 300k 토큰에서도 원활하게 실행되는 것 같습니다!
비용 고려 사항
현재 Gemini 2.5 Pro는 무료로 사용할 수 있습니다. 2024년 말에 Pro 모델을 사용하기 위해 OpenAI에 월 200달러를 지불했던 것을 떠올리면, 그 품질이 Gemini 2.5만큼 좋지 않았다는 것이 미친 짓이었습니다 T.T
Claude Code는 좋지만 매우 비쌉니다. Claude Code와 함께 작업하면 매 시간 5~10달러를 쉽게 쓸 수 있어서 아직 저에게는 실현 가능하지 않습니다. 비용이 쉽게 누적됩니다.
Gemini 2.5 Pro의 UI 장점
Google의 AI studio를 통해 Gemini 2.5 Pro를 사용하고 있습니다. DeepSeek R1이나 Claude 3.7과 비교하면, UI 뒤에 들어간 생각과 세부 사항에 대한 관심에 감사합니다. 제가 좋아하는 몇 가지 예시:
토큰 수 표시 지금까지 프롬프트의 토큰 수. 최대가 약 1M 토큰이지만 최대치까지 얼마나 남았는지? 새 채팅에서 계속할 수 있도록 지금까지 한 작업을 요약하는 문서를 작성하라고 기계에 말하기 전까지 얼마나 더 갈 수 있는지?
Temperature 제어 토큰 수 바로 아래에 있습니다. 완벽하고, 조정하기 쉽습니다.
키보드 단축키 Mac OS에서 프롬프트를 실행하는 "Command + Enter": 훌륭합니다. 이제 제 언어를 말하는군요. 너무 많은 번 "Enter"를 눌렀지만 실제로는 더 많은 내용을 채팅에 붙여넣기 위해 새 줄을 만들려고 했거든요. (Claude의 경우처럼 새 줄을 위해 Command + Enter를 사용하는 것을 배우기 쉽다고 할 수 있지만, 저는 좀 까다롭습니다.)
출력 길이 제어 역시 환상적입니다. 때로는 짧은 답변을 원하고 때로는 여러 파일에 걸친 실제 코드가 필요해서 훨씬 긴 응답을 원하기 때문입니다.
복사 기능
복사 기능조차 더 좋습니다. 개발자가 자주 사용하고 싶어하는 "Copy markdown"이 있습니다!
여기서 멈추겠지만 요지를 파악하셨을 것입니다. 이 UI는 개발자에게 매우 적합하고 감사합니다. ChatGPT나 DeepSeek, 심지어 Claude보다 저에게 훨씬 좋습니다. Claude를 정말 좋아하지만 주요 단점은 한도 대비 현재까지의 토큰 소비량을 모른다는 것입니다.
앞으로의 전망
더 복잡한 애플리케이션을 계속 구축하면서, AI 코딩 파트너의 품질은 점점 더 중요해집니다. 모든 모델이 불가피하게 개선되겠지만, Gemini 2.5 Pro의 코드 품질, 긴 컨텍스트 윈도우, 세심한 UI의 조합은 제 개발 워크플로우에서 상당한 우위를 제공했습니다.
진정한 테스트는 제가 계속 한계를 밀어붙이면서 이 모델들이 더욱 복잡한 시스템을 어떻게 처리하는지 보는 것입니다. (그 테스트는 Claude Code를 사용하여 Swift를 모르면서 네이티브 iOS 앱을 구축했을 때 도래했습니다 — AI가 스캐폴드를 처리했지만, "작동하는 코드"와 "완성된 제품" 사이의 간격이 모든 실제 작업이 있는 곳이었습니다.)
이것이 전부입니다. 짧은 기간에 Gemini 2.5 Pro가 저를 사로잡아 이제 코딩을 위한 기본 도구가 된 이유입니다. :D
여러분의 기본 AI 코딩 도구는 무엇인지 알고 싶습니다. 그리고 지난 몇 달간 바뀌었나요? 오늘 가장 잘 작동하는 것이 다음 분기에는 같은 답이 아닐 수 있을 정도로 상황이 빠르게 변하고 있다고 느낍니다. 의견을 알려주세요!
감사합니다,
Chandler
추신. Github Copilot Agent도 테스트했지만 현재로서는 채팅당 한도가 정말 작고 추론 속도가 매우 느리기 때문에 별로 좋아하지 않습니다. Claude 3.7 Sonnet 한도에 매우 자주 부딪히고 아직 Gemini 2.5 Pro가 없습니다.




