Google Gemini 2.5 Proが今や私のコーディングパートナー
5,000時間にわたるAIモデルのテストを経て、Gemini 2.5 ProがコーディングでClaudeやChatGPTを上回りました。複雑なアプリケーション構築のデフォルトツールになった理由をお伝えします。
ChatGPTが2022年末にリリースされたばかりだとは信じがたいです。あれから多くのことが変わりました。過去3年間で複数のGenAIモデルと(おそらく)5,000時間以上共に過ごしてきた者として、Google Gemini 2.5 Proでのステップチェンジを「感じる」ことができます。Claude 3.7 Sonnet(Claude Codeを含む)やDeepSeek R1、OpenAI o1やo3-miniではなく、今やコーディングの一番手ツールです。
この好みは一つの「ユーレカ」の瞬間から来たのではなく、日々異なるモデルと作業する累積的な経験からです。コードの品質、長いコンテキストウィンドウ、速度、そして考え抜かれたUIのすべてが合わさって、開発者としての私の特定のニーズにGemini 2.5 Proを際立たせています。
これは私の個人的な「感覚」です。この投稿のためにベンチマークは実施していません。
背景
この投稿は異なるツールに対する私の感覚についてなので、私のバックグラウンドとGen AIツールの使い方を理解していただくことが重要です。私は中年の広告プロフェッショナルです(ええ、40歳を過ぎているので、「ヤングアダルト」のどの定義を使っても当てはまりません T.T)。過去数年間コーディングを学んでいます。Google IT Automation with Python、Google Cybersecurity Specialization、Machine learning specializationなどの基本的なコースを修了しました。
学んだことを実生活で応用するために、Langgraphを使ったRAGエージェントを構築しました。過去約20年間にこのブログに書いた内容やS&P 500のMagnificent 7に関する金融の質問にも答えられます。このエージェントの高レベルのスタックは:
- データベース: Weaviate(ベクトルストアデータベースとハイブリッド検索用)、Google Cloud上のPostgreSQL
- エージェントオーケストレーション: LangGraph
- CI/CD: GCPのGoogle Cloud Run
- フロントエンド: React
現在取り組んでいること
ここ数ヶ月、もう少し複雑なアプリケーションに取り組んでいます。Langgraphを使って構築しようとしましたが、パフォーマンスが期待通りではありませんでした。主に速度/応答性の問題です。現在の全体的なアーキテクチャは:
バックエンドアーキテクチャ
- ハイブリッドデータベースアプローチ: PostgreSQL(ユーザーデータとトランザクションの整合性用)とDynamoDB(スケーラブルな状態管理用)を組み合わせたハイブリッドデータベースアーキテクチャを実装
- サーバーレスワークフローオーケストレーション: 基本的なエージェントパターンを超え、AWS Step Functionsを使用して適切なエラーハンドリング付きの複雑なマルチステージワークフローを調整
- クレジットベースシステムの実装: 適切なトランザクション管理を備えたクレジットベースのフリーミアムモデルを追加
- VPC設定: セキュリティグループとVPCエンドポイントを使用した適切なネットワーク分離の設定
フロントエンドの改善
- モダンReactスタック: Next.js 15とReact 18、TypeScriptを使用した型安全な開発
- 認証システム: 安全なユーザー管理のためにAWS Cognitoを統合
- ポーリングと状態管理: 適応的なポーリング頻度による効率的なステータストラッキングの実装
- レスポンシブデザインシステム: 一貫したスタイリングパターンを持つミニマリストでクリーンなUIの作成
Langgraphから離れようとした時になぜGCPではなくAWSを選んだのか。単純に新しいことを学びたかったからです。このウェブサイトのホスティングや現在のエージェントの使用を通じてGCPについてはある程度の知識があったので、まったく新しいことを学びたかったのです。
Gemini 2.5 Proがコーディングで際立つ理由
ベンチマークは他の人に任せて、Gemini 2.5 Proがなぜ優れているかの私の感覚をお伝えします。
実際のコードが優れている
同じプロンプトとコンテキストで、Gemini 2.5 Proのコード回答はDeepSeek R1やClaude 3.7 Sonnetより優れている(または少なくとも同等)です。OpenAI o1やo3は品質がかなり劣るため使用をやめました。
Gemini 2.5 Proで特に気に入っているのは、完全で即座に使用可能なコードを生成する姿勢です。Claude 3.7 SonnetとDeepSeek R1はどちらも時々かなり「手抜き」で、部分的な実装や大幅な修正が必要な疑似コードを提供することがあります。特にバックエンドに関して深い技術的専門知識がない私のような者にとって、これは追加の課題を生みます。提供された部分的なソリューションを編集・拡張するために、コードベースの適切な箇所を探し回る必要があるのです。
一方、Gemini 2.5 Proは完全に実装されたソリューションを提供する傾向があり、最小限の調整でプロジェクトに直接コピーペーストできることが多いです。この完全なコード生成は、大幅な時間の節約とギャップを自分で埋めるための認知負荷の軽減につながります。
推論時間/速度が優れている
DeepSeekにはスケールの問題があります。おそらく多くの人が使用しており、推論に最新のNvidiaチップを使用していないため、はるかに遅く、サーバーがビジーというエラーメッセージが頻繁に表示されます。一方、Gemini 2.5 Proは速い、非常に速いです。Claude 3.7 SonnetのWebバージョンはGemini 2.5 Proと同等の速さで、Claude Codeは少し遅いです。
非常に長いコンテキストウィンドウ長(つまりチャットの反復が増える)
Claude 3.7 Sonnetは優れていますが、チャットの深さやコンテキストウィンドウ長の制限に頻繁に直面します。対処法として、次のタスクを別の「バックエンド開発者」や「フロントエンド開発者」に引き継ぐための明確なドキュメントを書くようモデルに依頼し、新しいチャットを開始しています。これはすぐに疲れます。また、GenAIが生成したコードは100%信頼できるわけではなく、特にバックエンドとフロントエンドの統合ではデバッグが必要です。しかしコンテキストウィンドウ長が短すぎて毎回新しいチャットを始めなければならないと、マシンがバグを特定するための完全なコンテキストを持てないかもしれません。
反対に、Gemini 2.5 Proの1Mコンテキストウィンドウ長(無料枠)があれば、コード、エラーメッセージをコピペして、再帰的にモデルに尋ね続けることができます。これにより速度とコード品質が大幅に向上しました。 :D
(ただし、プロンプトあたり300kまたは400kトークンを超えると、推論時間とUIの応答性に顕著な遅延が見られます。)
4月4日の更新: UIの応答性がここ48時間で大幅に改善されました。300kトークンでもスムーズに動作するようです!
コストの考慮
現在、Gemini 2.5 Proは無料で使用できます。2024年末にOpenAIのProモデルを使用するために月額$200を支払っていたことを思い出すと、品質がGemini 2.5ほど良くなかったのに、とんでもない話です T.T
Claude Codeは優れていますが非常に高価です。Claude Codeと作業していると1時間あたり$5〜$10を簡単に使ってしまうので、まだ私には現実的ではありません。コストがすぐに積み上がります。
Gemini 2.5 ProのUI上の利点
GoogleのAI studioでGemini 2.5 Proを使用しています。DeepSeek R1やClaude 3.7と比べて、UIの背後にある思考と細部へのこだわりに感謝しています。気に入っている点の例を紹介します:
トークンカウント表示 これまでのプロンプトのトークンカウント。最大が約1Mトークンだとわかっていますが、最大に対してどのくらい進んでいるか?ドキュメントを書いてこれまでの作業をまとめ、別の新しいチャットで続けるべきタイミングはいつか?
Temperature制御 トークンカウントのすぐ下にあります。完璧、簡単に調整できます。
キーボードショートカット Mac OSで「Command + Enter」でプロンプトを実行:素晴らしい。これは私の言語を話してくれます。何度も新しい行を作るつもりで「Enter」を押してしまい、チャットにもっとコンテンツを貼り付けたかったのに実行されてしまうことがあったので。(Claudeのように新しい行をCommand + Enterで学べばいいと言えるかもしれませんが、私はちょっと変わり者なのです。)
出力長制御 これも素晴らしい。短い回答が欲しいときもあれば、複数ファイルにわたる実際のコードを含むはるかに長いレスポンスが欲しいときもあるからです。
コピー機能
コピー機能さえ優れています。開発者がよく使う「Copy markdown」があります!
ここで止めますが、要点は伝わったと思います。このUIは開発者にとても適しており、感謝しています。ChatGPTやDeepSeek、Claudeと比べても私には優れています。Claudeは本当に好きですが、主な欠点はこれまでのトークン消費量と制限に対する位置がわからないことです。
今後に向けて
より複雑なアプリケーションを構築し続ける中で、AIコーディングパートナーの品質はますます重要になります。すべてのモデルが必然的に改善される中、Gemini 2.5 Proのコード品質、長いコンテキストウィンドウ、考え抜かれたUIの組み合わせは、私の開発ワークフローにおいて大きなアドバンテージを与えています。
本当のテストは、自分自身の限界を押し広げ続ける中で、これらのモデルがさらに複雑なシステムをどう扱うかを見ることです。(そのテストは、Swiftを知らずにネイティブiOSアプリを構築したときにClaude Codeを使って訪れました — AIがスキャフォールドを処理しましたが、「動くコード」と「完成品」の間のギャップこそが本当の作業がすべて存在する場所でした。)
というわけで以上です。短い期間でGemini 2.5 Proが私を魅了し、今やコーディングの一番手ツールになった理由です。 :D
現在の一番手AIコーディングツールは何ですか?ここ数ヶ月で変わりましたか?状況の変化がとても速いので、今日最適なものが来四半期には同じ答えではないかもしれません。皆さんの考えを聞かせてください!
よろしくお願いします、Chandler
P.S. Github Copilot Agentもテストしましたが、現時点ではチャットあたりの制限が非常に小さく推論速度が非常に遅いため、あまり好きではありません。Claude 3.7 Sonnetの制限に非常に頻繁に達し、まだGemini 2.5 Proもありません。




