Google Gemini 2.5 Pro ist jetzt mein bevorzugter Coding-Partner

Es ist schwer vorstellbar, dass ChatGPT erst Ende 2022 auf den Markt gekommen ist. Seitdem hat sich so viel verändert. Als jemand, der (wahrscheinlich) 5.000 Stunden mit mehreren GenAI-Modellen in den letzten 3 Jahren gearbeitet hat, kann ich den Sprung mit Google Gemini 2.5 Pro „fühlen". Es ist jetzt mein bevorzugtes Tool für das Coding, im Vergleich zu Claude 3.7 Sonnet (einschließlich Claude Code), DeepSeek R1 oder OpenAI o1 oder o3-mini.

Diese Präferenz kam nicht aus einem einzigen „Heureka!"-Moment, sondern aus der kumulativen Erfahrung, Tag für Tag mit verschiedenen Modellen zu arbeiten. Die Code-Qualität, das lange Kontextfenster, die Geschwindigkeit und die durchdachte Benutzeroberfläche tragen alle dazu bei, Gemini 2.5 Pro für meine speziellen Bedürfnisse als Entwickler herauszuheben.

Das ist mein persönliches „Gefühl" – für diesen Beitrag wurden keine Benchmarks durchgeführt.

Hintergrund

Da es in diesem Beitrag um mein Gespür für verschiedene Tools geht, denke ich, dass es wichtig ist, dass du meinen Hintergrund verstehst und wie ich verschiedene Gen AI-Tools nutze. Ich bin ein Werbefachmann mittleren Alters (ja, ich bin über 40, also egal welche Definition von „junger Erwachsener" du verwendest – ich erfülle sie nicht T.T). Und ich lerne seit einigen Jahren, zu programmieren. Ich habe einige grundlegende Kurse absolviert wie: Googles IT Automation with Python, Googles Cybersecurity Specialization, Machine learning specialization usw.

Um das Gelernte im echten Leben anzuwenden, habe ich einen RAG-Agenten mit Langgraph gebaut, der auch Fragen dazu beantworten kann, was ich in den letzten ~20 Jahren auf diesem Blog geschrieben habe, sowie Finanzfragen zu den Magnificent 7 im S&P 500. Mein Stack auf hoher Ebene für diesen Agenten ist:

Datenbank: Weaviate (für Vektorspeicher und Hybridsuche), PostgreSQL auf Google Cloud
Agent-Orchestrierung: Lang Graph
CI/CD: Google Cloud Run auf GCP
Frontend: React

Woran ich gerade arbeite

In den letzten Monaten habe ich an einer etwas komplexeren Anwendung gearbeitet. Ich habe versucht, sie mit Langgraph zu bauen, aber die Leistung entspricht nicht meinen Erwartungen, hauptsächlich in Bezug auf Geschwindigkeit/Reaktionsfähigkeit. Meine Gesamtarchitektur ist daher derzeit:

Backend-Architektur

Hybrider Datenbankansatz: Ich habe eine hybride Datenbankarchitektur implementiert, die PostgreSQL (für Benutzerdaten und transaktionale Integrität) mit DynamoDB (für skalierbare Zustandsverwaltung) kombiniert
Serverlose Workflow-Orchestrierung: Über grundlegende Agent-Muster hinausgehend nutze ich AWS Step Functions, um komplexe, mehrstufige Workflows mit ordnungsgemäßer Fehlerbehandlung zu koordinieren
Credit-basierte Systemimplementierung: Hinzufügung eines Credit-basierten Freemium-Modells mit ordnungsgemäßer Transaktionsverwaltung
VPC-Konfiguration: Einrichtung einer angemessenen Netzwerkisolation mit Sicherheitsgruppen und VPC-Endpunkten

Frontend-Verbesserung

Moderner React Stack: Verwendung von Next.js 15 mit React 18 und TypeScript für typsichere Entwicklung
Authentifizierungssystem: Integration von AWS Cognito für sicheres Benutzermanagement
Polling & State Management: Implementierung effizienter Statusverfolgung mit adaptiven Polling-Frequenzen
Responsives Design-System: Erstellung einer minimalistischen, sauberen Benutzeroberfläche mit konsistenten Styling-Mustern

Warum habe ich mich für AWS und nicht für GCP entschieden, als ich von Langgraph wegwechseln wollte? Nun, es war einfach, weil ich Neues lernen wollte. Ich habe einige Kenntnisse über GCP durch das Hosting dieser Website darauf und die Nutzung für den aktuellen Agenten. Also wollte ich etwas völlig Neues lernen.

Warum Gemini 2.5 Pro beim Coding herausragt

Während andere dir Benchmarks geben können, kann ich dir meine Gefühle darüber mitteilen, warum ich Gemini 2.5 Pro für besser halte.

Der tatsächliche Code ist besser

Bei gleichem Prompt und Kontext ist die Code-Antwort von Gemini 2.5 Pro besser (oder zumindest gleichwertig) als die von DeepSeek R1 oder Claude 3.7 Sonnet. Ich habe aufgehört, OpenAI o1 oder o3 zu verwenden, weil die Qualität einfach viel schlechter ist.

Was ich an Gemini 2.5 Pro besonders schätze, ist seine Bereitschaft, vollständigen, sofort verwendbaren Code zu generieren. Sowohl Claude 3.7 Sonnet als auch DeepSeek R1 können manchmal recht „faul" sein und bieten partielle Implementierungen oder Pseudocode an, der erhebliche Modifikationen erfordert. Für jemanden wie mich ohne tiefe technische Expertise, besonders im Backend-Bereich, stellt das eine zusätzliche Herausforderung dar. Dann muss ich durch meine Codebasis suchen, um die richtigen Stellen zu finden, an denen ich die partiellen Lösungen bearbeiten oder erweitern kann.

Gemini 2.5 Pro hingegen neigt dazu, vollständig implementierte Lösungen zu liefern, die ich oft direkt in mein Projekt kopieren und einfügen kann, mit minimalen Anpassungen. Diese vollständige Code-Generierung spart mir erheblich Zeit und reduziert die kognitive Belastung durch das selbstständige Füllen von Lücken.

Die Inferenzzeit/Geschwindigkeit ist besser

DeepSeek hat ein Skalierungsproblem. Vielleicht weil es von zu vielen Menschen genutzt wird und nicht auf den neuesten Nvidia-Chips für Inferenz läuft, ist es viel langsamer und zeigt oft die Fehlermeldung „Server ist ausgelastet". Gemini 2.5 Pro hingegen ist schnell, extrem schnell. Die Webversion von Claude 3.7 Sonnet ist genauso schnell wie Gemini 2.5 Pro, und Claude Code ist etwas langsamer.

Extrem langes Kontextfenster (was mehr Chat-Iterationen bedeutet)

Claude 3.7 Sonnet ist gut, aber ich stoße oft auf Chat-Tiefe oder Kontextfensterlängenbeschränkungen. Eine Methode, damit umzugehen, besteht darin, das Modell zu bitten, Dokumentation klar zu schreiben, um die nächste Aufgabe an einen anderen „Backend-Entwickler" oder „Frontend-Entwickler" weiterzugeben, und dann einen NEUEN Chat zu erstellen. Das wird sehr schnell ermüdend. Außerdem wissen wir alle, dass wir debuggen müssen und dem von GenAI generierten Code noch nicht 100% vertrauen können, besonders wenn es um die Integration zwischen Backend und Frontend geht. Aber wenn das Kontextfenster zu klein ist und du jedes Mal einen neuen Chat starten musst, hat die Maschine möglicherweise nicht den vollen Kontext, um die Bugs zu identifizieren.

Im Gegensatz dazu kann ich mit dem 1M-Kontextfenster (Free Tier) von Gemini 2.5 Pro weiterhin iterieren, Code und Fehlermeldungen einfügen und das Modell rekursiv befragen. Das hat meine Geschwindigkeit und Code-Qualität erheblich verbessert. :D

(Ein kurzer Hinweis: Ich bemerke eine deutliche Verlangsamung der Inferenzzeit und UI-Reaktionsfähigkeit, sobald ich 300k oder 400k Token pro Prompt überschreite.)

Update 4. April: Die UI-Reaktionsfähigkeit hat sich in den letzten 48 Stunden stark verbessert. Jetzt läuft es sogar bei 300k Token reibungslos!

Kostenüberlegungen

Derzeit ist Gemini 2.5 Pro KOSTENLOS nutzbar. Zu bedenken, dass ich Ende 2024 OpenAI 200 Dollar pro Monat gezahlt habe, um ihr Pro-Modell zu nutzen, und die Qualität war nicht so gut wie Gemini 2.5 – das ist einfach wahnsinnig T.T

Claude Code ist gut, aber sehr teuer. Man gibt leicht 5 oder 10 Dollar pro Stunde aus, wenn man neben Claude Code arbeitet, was für mich noch nicht machbar ist. Die Kosten summieren sich schnell.

UI-Vorteile von Gemini 2.5 Pro

Ich nutze Gemini 2.5 Pro über AI Studio von Google. Im Vergleich zu DeepSeek R1 oder Claude 3.7 schätze ich die Sorgfalt und Liebe zum Detail, die hinter der Benutzeroberfläche steckt. Hier sind einige Beispiele, was mir gefällt:

Token-Anzahl-Anzeige Die Token-Anzahl im Prompt bisher. Ich weiß, dass das Maximum bei etwa 1M Token liegt, aber wie weit bin ich vom Maximum entfernt? Wie weit kann ich noch fortfahren, bevor ich die Maschine bitten muss, eine Dokumentation zu schreiben, die zusammenfasst, was wir getan haben, damit ich in einem neuen Chat weitermachen kann?

Temperatursteuerung Direkt unter der Token-Anzahl. Perfekt, leicht für mich anzupassen.

Tastaturkürzel „Command + Enter" zum Ausführen des Prompts auf Mac OS: Großartig. Jetzt sprichst du meine Sprache, denn so oft habe ich versehentlich „Enter" gedrückt, obwohl ich eine neue Zeile erstellen wollte, um mehr Inhalt in den Chat einzufügen. (Man könnte sagen, es ist einfach zu lernen, Command + Enter für eine neue Zeile zu verwenden, wie bei Claude, aber nun ja, ich bin ein wenig eigensinnig.)

Ausgabelängensteuerung Auch fantastisch, denn manchmal möchte ich kurze Antworten und manchmal möchte ich viel längere Antworten, weil ich den tatsächlichen Code über mehrere Dateien hinweg möchte.

Kopierfunktion

Sogar die Kopierfunktion ist besser. Sie hat „Copy markdown", was Entwickler oft verwenden möchten!

Ich höre hier auf, aber ich denke, du hast das Wesentliche erfasst. Diese Benutzeroberfläche ist sehr gut für Entwickler geeignet und ich schätze sie. Sie ist für mich viel besser als ChatGPT, DeepSeek oder sogar Claude. Ich mag Claude wirklich, aber der Hauptnachteil ist, dass man nicht weiß, wie viel Token man bisher verbraucht hat im Verhältnis zum Limit.

Ausblick

Da ich immer komplexere Anwendungen entwickle, wird die Qualität meines KI-Coding-Partners immer wichtiger. Während alle Modelle unweigerlich besser werden, hat Gemini 2.5 Pro durch seine Kombination aus Code-Qualität, langem Kontextfenster und durchdachter Benutzeroberfläche einen deutlichen Vorteil für meinen Entwicklungs-Workflow gewonnen.

Der echte Test wird sein, wie diese Modelle noch komplexere Systeme handhaben, wenn ich weiterhin meine eigenen Grenzen ausweite. (Dieser Test kam, als ich eine native iOS-App gebaut habe, ohne Swift zu kennen – mit Claude Code. Die KI hat das Gerüst gebaut, aber die Lücke zwischen „funktionierendem Code" und „fertigem Produkt" war der Ort, wo die eigentliche Arbeit stattfindet.)

Also, das war's. Das ist, warum Gemini 2.5 Pro mich in kurzer Zeit überzeugt hat und jetzt mein bevorzugtes Tool für das Coding ist. :D

Ich würde gerne wissen – was ist gerade dein bevorzugtes KI-Coding-Tool? Und hat es sich in den letzten Monaten geändert? Ich habe das Gefühl, dass sich die Landschaft so schnell verändert, dass was heute am besten funktioniert, vielleicht im nächsten Quartal nicht mehr die beste Antwort ist. Lass mich deine Gedanken wissen!

Viele Grüße,

Chandler

P.S. Ich habe auch Github Copilot Agent getestet, aber ich mag es nicht so sehr, weil das Limit pro Chat zum jetzigen Zeitpunkt wirklich klein ist und die Inferenzgeschwindigkeit sehr langsam ist. Ich stoße sehr oft auf das Claude 3.7 Sonnet-Limit und es hat Gemini 2.5 Pro noch nicht.

Google Gemini 2.5 Pro ist jetzt mein bevorzugter Coding-Partner

Hintergrund

Woran ich gerade arbeite

Backend-Architektur

Frontend-Verbesserung

Warum Gemini 2.5 Pro beim Coding herausragt

Der tatsächliche Code ist besser

Die Inferenzzeit/Geschwindigkeit ist besser

Extrem langes Kontextfenster (was mehr Chat-Iterationen bedeutet)

Kostenüberlegungen

UI-Vorteile von Gemini 2.5 Pro

Ausblick

Weiterlesen

Ein Jahr später: Meine Suchgewohnheiten bestätigen den Aufstieg von KI-Assistenten und die sich wandelnde Zukunft der SEO

Hochperformante SEM-Anzeigentexte mit ChatGPT und Googles Best Practices generieren

Vom Werbemann zum Coder? Mein Python-Abenteuer

Eine Woche im Rückblick: Meine Erfahrungen und Erkenntnisse mit Googles Gen App Builder

Google Generative AI Agent ist live auf meiner Website

Die potenzielle Auswirkung von Chat auf SEO und Publisher: Eine Drei-Monats-Retrospektive