Le déclin des performances de chatGPT Plus/GPT-4 au cours des 4-6 dernières semaines ?

Si tu suis de près l'espace IA, tu as peut-être lu ou regardé la première conférence développeur d'OpenAI plus tôt cette semaine. Il est difficile de ne pas être stupéfait par ce qu'ils ont annoncé : à la fois du point de vue de l'utilisation actuelle des produits et de l'annonce de nouveaux produits.

Cet article ne porte pas là-dessus. Il parle du récent déclin des performances au cours des 4-6 dernières semaines. C'est purement basé sur mon expérience personnelle. (Et non, je n'ai pas fait de recherche scientifique à ce sujet.)

Voici donc le résumé :

Les performances de chatGPT 4.0 (version web) sont nettement pires pour les tâches d'écriture et de codage au cours des 4-6 dernières semaines.
La capacité de raisonnement de GPT-4 Turbo semble être pire que Gpt-3.5 ou GPT-4.
Je suis toujours abonné à chatGPT plus et j'utilise l'API OpenAI pour mon chatbot.

Laisse-moi t'en dire plus

Les performances de chatGPT 4.0 sont nettement pires pour les tâches d'écriture et de codage au cours des 4-6 dernières semaines

En tant que quelqu'un qui utilise quotidiennement l'interface web de chatGPT plus, je peux douloureusement noter le problème de performances, surtout au cours des 4-6 dernières semaines. Quels sont les symptômes ?

Pour l'écriture

La qualité de l'écriture (surtout le ton de la voix et la capacité à suivre des instructions détaillées) est nettement pire
Il échoue répétitivement à suivre les demandes de révision pour l'écriture. Ça s'est aggravé au point que j'ai commencé à payer Anthropic pour utiliser Claude Pro.
Pendant la dernière année, j'ai développé l'habitude de compter intensément sur ChatGPT pour l'écriture, la relecture, etc. Et j'avais peur que cela m'ait rendu trop paresseux pour essayer de nouveaux outils. Eh bien plus maintenant, maintenant j'utilise Claude Pro de plus en plus pour les brouillons, la révision de contenu et d'autres tâches d'écriture.
- J'aime aussi la fenêtre de contexte beaucoup plus longue de Claude vs chatGPT 4 (pour l'instant jusqu'à ce que GPT-4 turbo soit largement déployé.)
Claude est encore assez mauvais avec les mathématiques de base cependant. :P Par exemple, j'ai souvent besoin d'une méta-description pour chaque article de blog (pour les besoins SEO) donc j'écris souvent quelque chose comme ça : "Donne-moi 5 méta-descriptions différentes pour le contenu de l'article de blog ci-dessus, dans différents styles, avec l'objectif d'encourager les utilisateurs à cliquer et lire le contenu de l'article. La méta-description doit avoir un maximum de 140 caractères, espaces compris".
- Claude m'a donné à plusieurs reprises des méta-descriptions bien plus longues, même après lui avoir dit de les raccourcir.
- ChatGPT avait l'habitude de bien faire cette tâche mais pas au cours des 4-6 dernières semaines.

Note annexe : j'ai aussi remarqué récemment que quand tu demandes à chatGPT d'écrire l'article entier pour toi, il refuse de le faire, ce que je pense être une bonne étape. Cela aidera à réduire le contenu spam en ligne. Auparavant, il était trop facile de demander à chatGPT d'écrire un article de 4 000 mots sur un sujet spécifique. Il donnait d'abord le plan, demandait des retours, puis procédait à l'écriture de l'article entier de 4 000 mots. Il ne fait plus ça maintenant.

Pour le codage

chatGPT (version web) se perd facilement dans les tâches de codage, il semble ne pas se souvenir du code qu'il a écrit juste quelques minutes avant, pendant la même session.
Il échoue à suivre les instructions détaillées pour corriger un problème de codage. Par exemple, je lui ai donné l'intégralité du code de mon application, puis partagé un exemple d'un autre projet avec une fonction que je voudrais inclure.
- Puis j'ai demandé à GPT 4 d'utiliser l'exemple et de réviser le code pour mon application. Sa réponse était tellement à côté que ce n'était d'aucune utilité pour moi. J'ai essayé de ramener chatGPT dans la bonne direction plusieurs fois mais il n'y arrivait toujours pas.
- Quand j'ai répété le même exercice sur https://www.phind.com/, la machine m'a donné exactement ce que je devais faire après 1 essai. (Mise en garde : je viens à peine d'essayer Phind donc je ne sais pas encore comment il se compare à chatGPT pour le codage en général, mais la première impression est bonne pour Phind.)
- Pour ceux qui aiment les détails, l'exemple que j'ai donné à chatGPT est celui-ci. Je lui ai dit que j'aimais l'étape 6 dans l'exemple où le modèle était invité à évaluer sa réponse pour voir si elle répondait suffisamment à la requête de l'utilisateur. ChatGPT a échoué à utiliser cet exemple et à réviser le code de mon application pour inclure cette fonction.

# Step 6: Ask the model if the response answers the initial user query well
    user_message = f"""
    Customer message: \{delimiter\}\{user_input\}\{delimiter\}
    Agent response: \{delimiter\}\{final_response\}\{delimiter\}

    Does the response sufficiently answer the question?
    """
    messages = [
        \{'role': 'system', 'content': system_message\},
        \{'role': 'user', 'content': user_message\}
    ]
    evaluation_response = get_completion_from_messages(messages)
    if debug: print("Step 6: Model evaluated the response.")

Sa capacité de débogage est nettement pire. :(

La capacité de raisonnement de GPT-4 Turbo semble être pire que Gpt-3.5 ou GPT-4

Qu'est-ce que je veux dire par là ?

Comme beaucoup de gens, j'étais impatient d'essayer GPT-4 Turbo parce qu'il est beaucoup moins cher que GPT-4 et a une fenêtre de contexte bien plus longue. Comme mentionné précédemment, je ne pouvais pas utiliser l'API GPT-4 pour mon chatbot parce qu'il est trop cher. J'ai récemment implémenté une étape d'auto-évaluation pour le chatbot avant que sa réponse puisse être montrée aux utilisateurs. La question est "La réponse répond-elle suffisamment à la question de l'utilisateur ?"

GPT-4 Turbo échoue à plusieurs reprises à cette étape alors que GPT-3.5 et GPT-4 fonctionnent bien. J'utilise exactement le même code et les mêmes prompts. Le seul changement est le modèle API. J'ai testé ça sur plusieurs questions/prompts.

Qu'ai-je fini par utiliser ? Continuer avec GPT-3.5 pour l'instant jusqu'à ce que la capacité de "raisonnement" de GPT-4 Turbo s'améliore ou devienne plus fiable.

Alors pourquoi est-ce que je partage tout ça ?

Basé sur mes expériences limitées dans la vraie vie en travaillant avec chatGPT et l'API OpenAI, je pense qu'il y a encore tellement d'opportunités d'améliorer ces modèles et fonctions. Si tu regardes juste la conférence développeur, tu pourrais sentir qu'OpenAI est tellement en avance sur tout le monde qu'il n'y a aucune chance de rattraper. Mais je pense que la course est encore très vivante. Oui, OpenAI a une avance considérable puisqu'ils ont "résolu" le problème de distribution étant donné la croissance de bouche à oreille et leur échelle actuelle (100 millions d'utilisateurs actifs hebdomadaires). Mais si tu as un produit vraiment meilleur, tu as encore de très bonnes chances d'atteindre une échelle massive. Voici les domaines d'amélioration pour multiplier par 10 ou 100 les performances des modèles selon les hôtes de No priors :

1. Multimodalité

2. Fenêtre de contexte longue

3. Personnalisation du modèle

4. Mémoire : l'IA se souvient de ce qu'elle faisait

5. Récursion

6. Routeur IA : des modèles plus petits/spécialisés contrôlés/orchestrés par le modèle principal/plus grand.

Enfin et surtout, bien que le ton de cet article puisse sembler assez négatif, je suis toujours abonné à chatGPT plus et j'utilise toujours l'API OpenAI pour ce blog chatbot. :)

J'espère qu'au cours des prochaines semaines, alors que GPT-4 Turbo est officiellement sorti et que tous les problèmes sont traités par OpenAI, nous pourrons retrouver la même qualité. J'ai aussi la conviction qu'ils connaissent cette baisse négative de performances parce que trop de personnes utilisent ou essaient d'utiliser l'API/la version web.

C'est tout de ma part.

As-tu remarqué des problèmes de performances similaires avec chatGPT Plus récemment ? Et si c'est le cas, as-tu trouvé une bonne alternative pour les tâches de codage ? J'aime bien Phind jusqu'à présent mais il est encore tôt :D

Cordialement,

Chandler

Le déclin des performances de chatGPT Plus/GPT-4 au cours des 4-6 dernières semaines ?

Les performances de chatGPT 4.0 sont nettement pires pour les tâches d'écriture et de codage au cours des 4-6 dernières semaines

Pour l'écriture

Pour le codage

La capacité de raisonnement de GPT-4 Turbo semble être pire que Gpt-3.5 ou GPT-4

Alors pourquoi est-ce que je partage tout ça ?

Continuer la lecture

J

Agent S&P500 MVP lancé : répondre aux questions financières ancrées dans les données SEC

Une mise à niveau de mon chatbot actuel

Chatbot v2.10 dévoilé : élever l'expérience utilisateur avec une vitesse, une évolutivité et une simplicité améliorées

Comment je me suis sorti des sables mouvants du code grâce à un agent IA

Un an plus tard : mes habitudes de recherche confirment la montée en puissance des assistants IA et l'avenir transformé du SEO

Les performances de chatGPT 4.0 sont nettement pires pour les tâches d'écriture et de codage au cours des 4-6 dernières semaines

Pour l'écriture

Pour le codage

La capacité de raisonnement de GPT-4 Turbo semble être pire que Gpt-3.5 ou GPT-4

Alors pourquoi est-ce que je partage tout ça ?

Continuer la lecture

J

Agent S&amp;P500 MVP lancé : répondre aux questions financières ancrées dans les données SEC

Une mise à niveau de mon chatbot actuel

Chatbot v2.10 dévoilé : élever l'expérience utilisateur avec une vitesse, une évolutivité et une simplicité améliorées

Comment je me suis sorti des sables mouvants du code grâce à un agent IA

Un an plus tard : mes habitudes de recherche confirment la montée en puissance des assistants IA et l'avenir transformé du SEO

Agent S&P500 MVP lancé : répondre aux questions financières ancrées dans les données SEC