Die nachlassende Leistung von chatGPT Plus/GPT-4 in den letzten 4-6 Wochen?

Wer den KI-Bereich aufmerksam verfolgt, hat vielleicht die erste OpenAI-Entwicklerkonferenz zu Beginn dieser Woche verfolgt. Es ist schwer, nicht beeindruckt zu sein von dem, was sie angekündigt haben – sowohl aus Sicht der aktuellen Produktnutzung als auch der Neuproduktankündigungen.

Darum geht es in diesem Beitrag aber nicht. Es geht um den jüngsten Leistungsrückgang der letzten 4-6 Wochen. Das basiert ausschließlich auf meiner persönlichen Erfahrung. (Und nein, ich habe keine wissenschaftliche Studie dazu durchgeführt.)

Also, das TL;DR:

Die Leistung von chatGPT 4.0 (Webversion) ist für Schreib- und Coding-Aufgaben in den letzten 4-6 Wochen merklich schlechter geworden.
Die Reasoning-Fähigkeit von GPT-4 Turbo scheint schlechter zu sein als die von GPT-3.5 oder GPT-4.
Ich bin immer noch chatGPT-Plus-Abonnent und nutze die OpenAI API für meinen Chatbot.

Lass mich mehr dazu sagen.

Die Leistung von chatGPT 4.0 ist für Schreib- und Coding-Aufgaben in den letzten 4-6 Wochen merklich schlechter geworden

Als jemand, der die chatGPT-Plus-Weboberfläche täglich nutzt, bemerke ich das Leistungsproblem schmerzlich – besonders in den letzten 4-6 Wochen. Was sind die Symptome?

Beim Schreiben

Die Schreibqualität (insbesondere der Ton und die Fähigkeit, detaillierten Anweisungen zu folgen) ist merklich schlechter geworden
Es gelingt ihm wiederholt nicht, Überarbeitungsanfragen beim Schreiben umzusetzen. Das wurde so schlimm, dass ich anfing, Anthropic für die Nutzung von Claude Pro zu bezahlen.
Im letzten Jahr habe ich die Gewohnheit entwickelt, ChatGPT intensiv zum Schreiben, Korrekturlesen usw. zu nutzen – und ich hatte Angst, dass ich dadurch zu faul geworden bin, neue Tools auszuprobieren. Nun, nicht mehr: Jetzt nutze ich Claude Pro immer öfter für Entwürfe, Inhaltsüberprüfungen und andere Schreibaufgaben.
- Außerdem mag ich Claudes viel längeres Kontextfenster im Vergleich zu chatGPT 4 (zumindest vorerst, bis GPT-4 Turbo weit verbreitet ist).
Claude ist allerdings immer noch ziemlich schlecht in grundlegender Mathematik. :P Zum Beispiel brauche ich für jeden Blogbeitrag eine Meta-Beschreibung (für SEO-Zwecke), also schreibe ich sehr oft etwas wie: „Gib mir 5 verschiedene Meta-Beschreibungen für den obigen Blogbeitrag, in verschiedenen Stilen, mit dem Ziel, Nutzer zum Klicken und Lesen des Beitrags zu animieren. Die Meta-Beschreibung darf maximal 140 Zeichen einschließlich Leerzeichen haben."
- Claude lieferte mir wiederholt viel längere Meta-Beschreibungen, auch nachdem ich es aufgefordert hatte, sie zu kürzen.
- ChatGPT erledigte diese Aufgabe früher gut, aber in den letzten 4-6 Wochen nicht mehr.

Randnotiz: Ich habe auch bemerkt, dass ChatGPT sich kürzlich geweigert hat, den gesamten Artikel für einen zu schreiben, wenn man es dazu auffordert – ich finde das einen guten Schritt. Es wird helfen, Spam-Inhalte online zu reduzieren. Früher war es zu einfach, ChatGPT zu bitten, einen 4.000-Wörter-Artikel zu einem bestimmten Thema zu schreiben. Es gab zuerst die Gliederung, fragte nach Feedback und schrieb dann den gesamten 4.000-Wörter-Artikel. Das passiert nicht mehr.

Beim Coding

chatGPT (Webversion) verliert sich leicht in Coding-Aufgaben – es scheint den Code, den es vor einigen Minuten in derselben Sitzung geschrieben hat, nicht mehr zu erinnern.
Es folgt detaillierten Anweisungen zur Behebung eines Coding-Problems nicht mehr. Zum Beispiel habe ich ihm den gesamten Code für meine Anwendung gegeben und ein Beispiel eines anderen Projekts mit einer Funktion geteilt, die ich gerne einbinden würde.
- Dann bat ich GPT-4, das Beispiel zu verwenden und den Code für meine Anwendung zu überarbeiten. Seine Antwort war so weit daneben, dass sie mir nichts nutzte. Ich versuchte mehrmals, chatGPT wieder in die richtige Richtung zu lenken, aber es gelang ihm immer noch nicht.
- Als ich dieselbe Übung auf https://www.phind.com/ wiederholte, lieferte mir die Maschine genau das, was ich nach einem Versuch brauchte. (Vorbehalt: Ich habe Phind gerade erst ausprobiert, also weiß ich noch nicht, wie es insgesamt im Vergleich zu chatGPT beim Coding abschneidet – der erste Eindruck ist aber gut.)
- Für alle, die es genauer wissen möchten: Das Beispiel, das ich chatGPT gegeben habe, ist dieses hier. Ich sagte ihm, dass mir Schritt 6 im Beispiel gefällt, bei dem das Modell aufgefordert wird, seine Antwort daraufhin zu überprüfen, ob sie die Anfrage des Nutzers ausreichend beantwortet. ChatGPT konnte dieses Beispiel nicht verwenden und meinen Anwendungscode nicht so überarbeiten, dass diese Funktion eingebaut wird.

# Step 6: Ask the model if the response answers the initial user query well
    user_message = f"""
    Customer message: \{delimiter\}\{user_input\}\{delimiter\}
    Agent response: \{delimiter\}\{final_response\}\{delimiter\}

    Does the response sufficiently answer the question?
    """
    messages = [
        \{'role': 'system', 'content': system_message\},
        \{'role': 'user', 'content': user_message\}
    ]
    evaluation_response = get_completion_from_messages(messages)
    if debug: print("Step 6: Model evaluated the response.")

Die Debugging-Fähigkeit ist merklich schlechter geworden. :(

Die Reasoning-Fähigkeit von GPT-4 Turbo scheint schlechter zu sein als die von GPT-3.5 oder GPT-4

Was meine ich damit?

Wie viele andere war ich gespannt, GPT-4 Turbo auszuprobieren, weil es deutlich günstiger als GPT-4 ist und ein viel längeres Kontextfenster hat. Wie bereits erwähnt, konnte ich die GPT-4 API nicht für meinen Chatbot verwenden, weil sie zu teuer ist. Kürzlich habe ich einen Selbstevaluierungsschritt für den Chatbot implementiert, bevor seine Antwort den Nutzern angezeigt wird. Die Frage lautet: „Beantwortet die Antwort die Frage des Nutzers ausreichend?"

GPT-4 Turbo scheitert wiederholt an diesem Schritt, während GPT-3.5 und GPT-4 problemlos funktionieren. Ich verwende exakt denselben Code und dieselben Prompts. Die einzige Änderung ist das API-Modell. Ich habe dies bei verschiedenen Fragen und Prompts getestet.

Was habe ich am Ende verwendet? Nun, ich bleibe erst einmal bei GPT-3.5, bis die Reasoning-Fähigkeit von GPT-4 Turbo besser oder zuverlässiger wird.

Warum teile ich all das?

Basierend auf meinen begrenzten realen Erfahrungen mit chatGPT und der OpenAI API denke ich, dass es noch so viele Möglichkeiten gibt, diese Modelle und Funktionen zu verbessern. Wenn man sich nur die Entwicklerkonferenz anschaut, mag man das Gefühl haben, dass OpenAI so weit vorne ist und es keine Chance gibt, aufzuholen. Aber ich denke, das Rennen ist noch sehr lebendig. Ja, OpenAI hat einen enormen Vorsprung, weil sie das Vertriebsproblem durch Mundpropaganda-Wachstum und ihre aktuelle Skalierung (100 Millionen wöchentliche aktive Nutzer) „gelöst" haben. Aber wenn man ein wirklich besseres Produkt hat, hat man immer noch sehr gute Chancen, eine massive Reichweite zu erreichen. Das sind nach Meinung der Hosts von No Priors die aktuellen Bereiche, in denen die Modellleistung um das 10- oder 100-fache verbessert werden kann:

1. Multi-Modalität

2. Langes Kontextfenster

3. Modell-Anpassung

4. Memory: KI erinnert sich daran, was sie getan hat

5. Rekursion

6. KI-Router: kleinere/spezialisierte Modelle werden vom Haupt-/größeren Modell kontrolliert/orchestriert

Zu guter Letzt: Obwohl der Ton dieses Blogbeitrags als ziemlich negativ wahrgenommen werden könnte, bin ich immer noch chatGPT-Plus-Abonnent und nutze die OpenAI API für diesen Blog-Chatbot. :)

Ich hoffe, dass wir in den nächsten Wochen, wenn GPT-4 Turbo offiziell verfügbar ist und alle Probleme von OpenAI behoben werden, dieselbe Qualität zurückbekommen. Außerdem vermute ich, dass der negative Leistungsknick darauf zurückzuführen ist, dass zu viele Menschen die API/Webversion nutzen oder ausprobieren.

Das war's von mir.

Hast du kürzlich ähnliche Leistungsprobleme mit chatGPT Plus bemerkt? Und wenn ja, hast du eine gute Alternative für Coding-Aufgaben gefunden? Phind gefällt mir bisher gut, aber es ist noch früh :D

Viele Grüße,

Chandler

Die nachlassende Leistung von chatGPT Plus/GPT-4 in den letzten 4-6 Wochen?

Die Leistung von chatGPT 4.0 ist für Schreib- und Coding-Aufgaben in den letzten 4-6 Wochen merklich schlechter geworden

Beim Schreiben

Beim Coding

Die Reasoning-Fähigkeit von GPT-4 Turbo scheint schlechter zu sein als die von GPT-3.5 oder GPT-4

Warum teile ich all das?

Weiterlesen

Ich habe geschummelt: Sydney kann jetzt die Erzählung in 10-K-Berichten lesen

S&P500 Agent MVP gestartet: Finanzfragen beantwortet, gestützt auf SEC-Daten

Ein Upgrade für meinen aktuellen Chatbot

Chatbot v2.10 enthüllt: Besseres Nutzererlebnis durch höhere Geschwindigkeit, Skalierbarkeit und Einfachheit

Wie ich mich mit einem KI-Agenten aus dem Coding-Treibsand befreit habe

Ein Jahr später: Meine Suchgewohnheiten bestätigen den Aufstieg von KI-Assistenten und die sich wandelnde Zukunft der SEO

Die Leistung von chatGPT 4.0 ist für Schreib- und Coding-Aufgaben in den letzten 4-6 Wochen merklich schlechter geworden

Beim Schreiben

Beim Coding

Die Reasoning-Fähigkeit von GPT-4 Turbo scheint schlechter zu sein als die von GPT-3.5 oder GPT-4

Warum teile ich all das?

Weiterlesen

Ich habe geschummelt: Sydney kann jetzt die Erzählung in 10-K-Berichten lesen

S&amp;P500 Agent MVP gestartet: Finanzfragen beantwortet, gestützt auf SEC-Daten

Ein Upgrade für meinen aktuellen Chatbot

Chatbot v2.10 enthüllt: Besseres Nutzererlebnis durch höhere Geschwindigkeit, Skalierbarkeit und Einfachheit

Wie ich mich mit einem KI-Agenten aus dem Coding-Treibsand befreit habe

Ein Jahr später: Meine Suchgewohnheiten bestätigen den Aufstieg von KI-Assistenten und die sich wandelnde Zukunft der SEO

S&P500 Agent MVP gestartet: Finanzfragen beantwortet, gestützt auf SEC-Daten