A Queda de Desempenho do chatGPT Plus/GPT-4 nas Últimas 4-6 Semanas?
Percebi uma queda acentuada no desempenho do GPT-4 nas últimas 4-6 semanas — tanto que agora pago pelo Claude Pro. Aqui está o que está quebrando e quais alternativas realmente funcionam.
Este post foi escrito em 2023. Alguns detalhes podem ter mudado desde então.
Se você acompanha de perto o espaço de IA, pode ter lido ou assistido à primeira conferência de desenvolvedores da OpenAI no início desta semana. É difícil não ficar impressionado com o que anunciaram: tanto da perspectiva do uso atual do produto quanto do anúncio de novos produtos.
Este post não é sobre isso. É sobre a recente queda de desempenho nas últimas 4-6 semanas. Isso é puramente baseado na minha experiência pessoal. (e não, não fiz nenhuma pesquisa científica sobre isso.)
Então qual é o resumão:
- O desempenho do chatGPT 4.0 (versão web) está visivelmente pior tanto para tarefas de escrita quanto de programação nas últimas 4-6 semanas.
- A capacidade de raciocínio do GPT-4 Turbo parece ser pior do que a do Gpt-3.5 ou GPT-4.
- Ainda sou assinante do chatGPT plus e uso a API da OpenAI para o meu chatbot.
Deixa eu explicar melhor.
O desempenho do chatGPT 4.0 está visivelmente pior tanto para tarefas de escrita quanto de programação nas últimas 4-6 semanas
Como alguém que usa a interface web do chatGPT plus diariamente, consigo perceber dolorosamente o problema de desempenho, especialmente nas últimas 4-6 semanas. Quais são os sintomas?
Para escrita
- A qualidade da escrita (especialmente o tom de voz e a capacidade de seguir instruções detalhadas) está visivelmente pior
- Ele falha repetidamente em seguir solicitações de revisão para escrita. Ficou tão ruim que comecei a pagar pela Anthropic para usar o Claude Pro.
- Nos últimos 1 ano, desenvolvi o hábito de depender extensivamente do ChatGPT para escrita, revisão de textos etc... e temia que isso me tornasse preguiçoso demais para tentar novas ferramentas. Bem, não mais; agora uso o Claude Pro cada vez mais para rascunhos, revisão de conteúdo e outras tarefas de escrita.
- Também gosto muito da janela de contexto muito maior do Claude vs. chatGPT 4 (por enquanto, até que o GPT-4 turbo seja amplamente lançado.)
- O Claude ainda é bem ruim em matemática básica, porém. :P Por exemplo, frequentemente preciso ter uma meta descrição para cada post do blog (para fins de SEO), então escrevo algo assim com muita frequência: "Me dê 5 meta descrições diferentes para o conteúdo do post acima, em estilos diferentes, com o objetivo de incentivar os usuários a clicar e ler o conteúdo do post. A meta descrição deve ter no máximo 140 caracteres, incluindo espaços".
- O Claude repetidamente me deu meta descrições muito mais longas, mesmo depois de dizer para encurtá-las.
- O ChatGPT costumava fazer essa tarefa bem, mas não nas últimas 4-6 semanas.
Nota lateral: também percebi recentemente que quando você pede ao chatGPT para escrever o artigo inteiro para você, ele se recusa a fazer isso, o que acho que é um bom passo. Vai ajudar a reduzir conteúdo spam online. Antes era muito fácil pedir ao chatGPT para escrever um artigo de 4000 palavras sobre um tópico específico. Ele primeiro dava o outline, pedia feedback e então procedia para escrever o artigo completo de 4000 palavras. Isso não está mais acontecendo.
Para programação
- O chatGPT (versão web) se perde facilmente em tarefas de programação, parece não conseguir lembrar o código que escreveu há apenas alguns minutos, durante a mesma sessão.
- Falha em seguir instruções detalhadas para corrigir um problema de programação. Por exemplo, eu dei a ele o código completo da minha aplicação e então compartilhei um exemplo de outro projeto com uma função que gostaria de incluir.
- Então pedi ao GPT 4 que usasse o exemplo e revisasse o código da minha aplicação. A resposta foi tão fora do ponto que não me foi de nenhuma utilidade. Tentei conduzir o chatGPT de volta ao caminho certo algumas vezes, mas ele ainda não conseguia fazer isso.
- Quando repeti o mesmo exercício em https://www.phind.com/, a máquina me deu exatamente o que precisava fazer após 1 tentativa. (Ressalva: acabei de começar a testar o Phind, então ainda não sei como ele vai se sair em relação ao chatGPT para programação em geral, mas a primeira impressão é boa para o Phind.)
- Para quem gosta dos detalhes, o exemplo que dei ao chatGPT é este. Disse que gostei do passo 6 no exemplo, onde o modelo foi solicitado a avaliar sua resposta para ver se respondia suficientemente à consulta do usuário. O chatGPT falhou em usar esse exemplo e revisar o código da minha aplicação para incluir essa função.
# Passo 6: Perguntar ao modelo se a resposta responde bem à consulta inicial do usuário
user_message = f"""
Customer message: \{delimiter\}\{user_input\}\{delimiter\}
Agent response: \{delimiter\}\{final_response\}\{delimiter\}
Does the response sufficiently answer the question?
"""
messages = [
\{'role': 'system', 'content': system_message\},
\{'role': 'user', 'content': user_message\}
]
evaluation_response = get_completion_from_messages(messages)
if debug: print("Step 6: Model evaluated the response.")
- Sua capacidade de depurar está visivelmente pior. :(
A capacidade de raciocínio do GPT-4 Turbo parece ser pior do que a do Gpt-3.5 ou GPT-4
O que quero dizer com isso?
Bem, assim como muitas pessoas, fiquei animado para experimentar o GPT-4 Turbo porque é muito mais barato do que o GPT-4 e tem uma janela de contexto muito maior. Como mencionei antes, não conseguia usar a API do GPT-4 para o meu chatbot porque é muito caro. Recentemente implementei uma etapa de autoavaliação para o chatbot antes que sua resposta possa ser exibida aos usuários. A pergunta é "A resposta responde suficientemente à pergunta do usuário?"
O GPT-4 Turbo falha repetidamente nesta etapa enquanto o GPT-3.5 e o GPT-4 estão indo bem. Estou usando exatamente o mesmo código e prompts. A única mudança é o modelo da API. Testei isso em várias perguntas/prompts.
Então o que acabei usando? Bem, continuar com o GPT-3.5 por enquanto até que a capacidade de "raciocínio" do GPT-4 Turbo melhore ou se torne mais confiável.
Então por que estou compartilhando tudo isso?
Com base nas minhas experiências limitadas da vida real trabalhando com o chatGPT e a API da OpenAI, acho que ainda há tantas oportunidades para melhorar esses modelos e funções. Se você apenas assistir à conferência de desenvolvedores, pode sentir que a OpenAI está tão à frente de todos os outros que não há chance de alcançá-los. Mas acho que a corrida ainda está muito viva. Sim, a OpenAI tem uma grande vantagem já que "resolveu" o problema de distribuição dado o crescimento boca a boca e sua escala atual (100 milhões de usuários ativos semanais). Mas se você tem um produto genuinamente melhor, ainda tem uma chance muito boa de alcançar escala massiva. Estas são as áreas de melhoria agora para multiplicar por 10X ou 100X o desempenho do modelo de acordo com os apresentadores do No priors:
1. Multimodalidade
2. Janela de contexto longa
3. Personalização do modelo
4. Memória: IA lembra o que estava fazendo
5. Recursão
6. Roteador de IA: modelos menores/especializados sendo controlados/orquestrados pelo modelo principal/maior.
Por último, mas não menos importante, embora o tom de voz deste post possa parecer bastante negativo, ainda sou assinante do chatGPT plus e ainda uso a API da OpenAI para este chatbot do blog. :)
Espero que nas próximas semanas, conforme o GPT-4 Turbo seja lançado oficialmente e todos os problemas estejam sendo resolvidos pela OpenAI, possamos recuperar a mesma qualidade de antes. Também suspeito que estão experimentando essa queda negativa de desempenho porque muitas pessoas estão usando ou tentando usar a API/versão web.
É isso por enquanto.
Você percebeu problemas de desempenho semelhantes com o chatGPT Plus recentemente? E se sim, encontrou uma boa alternativa para tarefas de programação? Tenho gostado do Phind até agora, mas ainda é cedo :D
Abraços,
Chandler





