Google Gemini 2.5 Pro 现在是我首选的 coding 搭档
在测试 AI 模型约 5,000 小时后,我在 coding 场景里更偏向 Gemini 2.5 Pro,而不是 Claude 或 ChatGPT——这篇是它为何成为我默认工具的原因。
很难想象 ChatGPT 其实只是在 2022 年底才发布。之后变化太快了。过去 3 年里,我大概花了 5,000 小时和不同 GenAI 模型并肩工作,而 Google Gemini 2.5 Pro 给我的“代际跃迁感”是能明显体会到的。现在在 coding 上,它是我首选工具,优先级高于 Claude 3.7 Sonnet(含 Claude Code)、DeepSeek R1、OpenAI o1 或 o3-mini。
这个偏好不是来自某个单次“灵光一现”,而是日复一日和不同模型协作后的累积体验。代码质量、超长上下文、速度,以及细节很到位的 UI,这些因素叠加起来,让 Gemini 2.5 Pro 在我的开发场景里更突出。
这是一篇个人“体感”分享——本文没有做 benchmark。
背景
既然这篇讲的是我对工具的体感,我觉得先交代背景很重要:我是谁、以及我如何使用 Gen AI 工具。我是中年广告从业者(对,40+ 了,所以无论你用哪种“青年”定义,我都不在范围内 T.T)。过去几年我一直在学编程,也完成了一些基础课程,比如 Google IT Automation with Python、Google Cybersecurity Specialization、Machine learning specialization 等等。
为了把所学落地,我做过基于 Langgraph 的 RAG agent,它既能回答我过去约 20 年在这个博客里写过的内容,也能回答和标普 500 “美股七巨头”相关的金融问题。这个 agent 的高层技术栈是:
- Database:Weaviate(向量库 + 混合检索)、Google Cloud 上的 PostgreSQL
- Agent orchestration:Lang Graph
- CI/CD:GCP 上的 Google Cloud Run
- Front-end:React
我最近在做什么
过去几个月我在做一个更复杂的应用。我一开始尝试用 Lang graph 搭,但性能达不到预期,主要是速度/响应性问题。所以目前我的整体架构是:
后端架构
- 混合数据库方案:PostgreSQL(用户数据与事务一致性)+ DynamoDB(可扩展状态管理)
- Serverless 工作流编排:不仅是基础 agent 模式,我用 AWS Step Functions 协调多阶段复杂流程,并带有完整错误处理
- 积分制系统实现:实现了基于积分的 freemium 模型,并处理好交易一致性
- VPC 配置:做了网络隔离、安全组和 VPC endpoints
前端改进
- 现代 React 栈:Next.js 15 + React 18 + TypeScript,保证类型安全开发
- 认证系统:集成 AWS Cognito 做安全用户管理
- 轮询与状态管理:实现了自适应轮询频率的状态追踪
- 响应式设计系统:做了简洁、极简且风格统一的 UI
至于为什么我这次选 AWS 而不是 GCP(在决定离开 Langgraph 后),原因很简单:我想学新东西。GCP 我已有一些经验(这个网站的托管和当前 agent 都在用),所以我想换一套全新体系学习。
为什么 Gemini 2.5 Pro 在 coding 上更突出
别人可以给你 benchmark,我只能给你体感——为什么我觉得 Gemini 2.5 Pro 更适合。
代码本身更好
在相同 prompt 与上下文下,Gemini 2.5 Pro 的代码输出质量更好(或至少不差于)DeepSeek R1 和 Claude 3.7 Sonnet。我现在基本不再用 OpenAI o1/o3,因为对我的使用场景来说质量差距比较明显。
我特别喜欢 Gemini 2.5 Pro 的一点是:它更愿意给“完整可运行代码”。Claude 3.7 Sonnet 和 DeepSeek R1 有时会比较“懒”,更常给部分实现或伪代码,需要我再做大量补全。对像我这样后端功底不算深的人来说,这会增加额外成本:我得再去代码库里找哪些地方需要补、怎么补。
Gemini 2.5 Pro 通常会给更完整的实现,我往往稍作调整就能直接贴进项目。这种完整输出显著节省了时间,也降低了我要自己补坑的认知负担。
推理速度/响应速度更好
DeepSeek 有明显的规模压力。可能因为使用人数太多,且推理未必跑在最新 Nvidia 芯片上,所以速度偏慢,且常出现 server busy。Gemini 2.5 Pro 则很快,真的非常快。Claude 3.7 Sonnet 网页版速度和 Gemini 2.5 Pro 接近,而 Claude Code 会稍慢一点。
超长上下文窗口(意味着可进行更多轮迭代)
Claude 3.7 Sonnet 当然不错,但我经常撞到 chat 深度或上下文窗口限制。我常用的一种应对方式是让模型先写清楚文档,把任务交给另一个“backend developer”或“front end developer”,然后再开新 chat。这很快就会让人疲惫。我们也都知道现在还不能 100% 信任 GenAI 代码,尤其是前后端集成时仍要大量 debug。如果上下文窗口太小、必须不断开新会话,模型就拿不到完整上下文,排障质量自然受影响。
反过来,Gemini 2.5 Pro 在免费层就给到 1M 上下文窗口,我可以持续迭代,把代码和错误信息持续贴进同一个会话递归追问。这对我的速度和代码质量提升非常明显。 :D
(不过有一点:我确实观察到当单次 prompt 超过 300k 或 400k token 后,推理速度和 UI 响应会明显变慢。)
更新(4 月 4 日):过去 48 小时 UI 响应改善很明显。现在即使在 300k token,也看起来比较流畅!
成本因素
当前 Gemini 2.5 Pro 是 免费 的。想想我 2024 年底还在给 OpenAI Pro 每月付 $200,而质量还不如 Gemini 2.5,这件事真的离谱。T.T
Claude Code 质量很好,但成本很高。和 Claude Code 协作时非常容易每小时就花掉 $5 或 $10,对我来说目前不可持续,成本累积太快。
Gemini 2.5 Pro 的 UI 优势
我是在 Google AI studio 里使用 Gemini 2.5 Pro。和 DeepSeek R1、Claude 3.7 相比,我很能感受到它在 UI 上的设计用心和细节打磨。下面是我喜欢的一些点:
Token count display
可以直接看到当前 prompt 已用 token。既然上限约 1M,我就能实时判断自己距离上限还有多远,以及什么时候该让模型先写总结文档,转到新 chat 继续。
Temperature control
就在 Token count 下面,位置非常好,调起来很顺手。
Keyboard shortcuts
Mac 上用 “Command + Enter” 提交:很好。它真的符合我的习惯,因为我经常会误按 “Enter”,其实我只是想换行继续贴内容。(当然你也可以说 Claude 那套快捷键习惯了就好,但我就是有点 quirky。)
Output length control
也非常好。有时我只要短答,有时我想要跨多个文件的长输出,这个控制对开发场景很实用。
Copy function
连 copy 功能都更好。它有 “Copy markdown”,而这恰好是开发者常用需求!
我就不继续展开了,意思你应该懂。这个 UI 对开发者真的很友好。对我来说它比 ChatGPT、DeepSeek,甚至 Claude 更顺手。我很喜欢 Claude,但主要短板是目前我看不到“已消耗 token vs 上限”的直观信息。
向前看
随着我继续构建更复杂系统,AI coding partner 的质量会越来越关键。虽然所有模型都还会持续变强,但在我的开发工作流里,Gemini 2.5 Pro 凭借代码质量、上下文长度和 UI 细节,当前确实有明显优势。
真正的考验是:当我继续挑战更复杂系统时,这些模型会怎么表现。(这个考验后来真的来了——我 在不懂 Swift 的情况下用 Claude Code 做原生 iOS 应用,AI 搭了脚手架,但“能跑代码”到“完成产品”之间的差距,才是工作量最大那一段。)
所以就是这样。也是为什么在很短时间里,Gemini 2.5 Pro 迅速成为我的 coding 首选。 :D
也很想知道你现在的首选 AI coding 工具是什么?过去几个月有变化吗?我感觉这个赛道变化快到今天最优解,下个季度可能就变了。欢迎分享你的看法!
致敬,
Chandler
P.S. 我也测过 Github Copilot Agent,但目前没有那么喜欢:单 chat 限制太小,推理速度也偏慢。我很常撞到 Claude 3.7 Sonnet 限额,而且它还没有 Gemini 2.5 Pro。




