过去 4-6 周 chatGPT Plus/GPT-4 表现下滑？

如果你有持续关注 AI 领域，这周应该看过或听过 OpenAI 首届开发者大会。他们公布的内容无论从现有产品使用层面还是新品发布层面，都很难不让人 amazed。

但这篇不是写那个。

这篇是写过去 4-6 周我感受到的性能下滑。完全基于我个人体验。（对，我没有做严格科学研究。）

那 TL;DR 是：

过去 4-6 周，chatGPT 4.0（网页版）在写作和编程任务上的表现明显变差。
GPT-4 Turbo 的推理能力看起来比 Gpt-3.5 或 GPT-4 更差。
我依然是 chatGPT plus 订阅用户，也还在用 OpenAI API 做我的chatbot。

我详细展开一下。

过去 4-6 周，chatGPT 4.0 在写作与编程任务上的表现明显变差

作为每天都在用 chatGPT plus 网页端的人，这个性能问题我真的“痛感很强”，尤其是最近 4-6 周。具体症状是什么？

对写作任务

写作质量（尤其是语气把控、执行详细指令的能力）明显下降
在按要求反复修改这件事上，它会持续失误。糟到我后来开始付费用 Anthropic 的 Claude Pro。
过去一年我已经养成了高度依赖 ChatGPT 做写作、校对等工作的习惯，我曾担心这让我变懒，不愿尝试新工具。现在不会了，我越来越常用 Claude Pro 来起草、审稿和做其他写作任务。
- 我也喜欢 Claude 相比 chatGPT 4（至少当前）更长的上下文窗口。（直到 GPT-4 turbo 全面 rollout 之前。）
不过 Claude 做基础数学还是挺差 :P 例如我经常需要给每篇博客写 meta description（做 SEO），所以我会常写类似这样的提示：“Give me 5 different meta descriptions for the above blog post content, in different styles, with the purpose of encourage users to click and read the blog post content. The meta description has to have a maximum of 140 characters, including spaces”。
- Claude 会反复给我超过长度限制很多的描述，就算我提醒它缩短也一样。
- 这项任务 ChatGPT 以前做得很好，但过去 4-6 周不行了。

顺带一提：我也注意到最近你让 chatGPT 直接帮你写整篇文章，它会拒绝。我觉得这是好事。这有助于减少网上垃圾内容。以前太容易了，你可以直接让它写一篇 4000 字某主题文章。它会先给你大纲，问你意见，再继续写完整 4000 字。现在基本不这么做了。

对编程任务

chatGPT（网页版）在编程任务里更容易“丢线”，在同一会话里连几分钟前自己写的代码都像记不住。
它会无法按详细指令去修复代码问题。比如我把应用完整代码给它，再给一个别的项目示例函数，想让它集成进去。
- 然后我让 GPT 4 参考示例去改我的代码。它的回应偏题到几乎不能用。我试着把它拉回正确方向几次，还是不行。
- 当我在 https://www.phind.com/ 重复同样任务时，机器一次就给到我需要的方向。（说明：我刚开始试 Phind，还不知道长期对比 chatGPT 的总体表现如何，但第一印象是不错。）
- 喜欢看细节的话，我给 chatGPT 的示例是这个。我告诉它，我喜欢示例里的 step 6：让模型自评自己的回复是否足够回答用户问题。chatGPT 没能用这个示例把功能加进我的应用代码。

# Step 6: Ask the model if the response answers the initial user query well
    user_message = f"""
    Customer message: \{delimiter\}\{user_input\}\{delimiter\}
    Agent response: \{delimiter\}\{final_response\}\{delimiter\}

    Does the response sufficiently answer the question?
    """
    messages = [
        \{'role': 'system', 'content': system_message\},
        \{'role': 'user', 'content': user_message\}
    ]
    evaluation_response = get_completion_from_messages(messages)
    if debug: print("Step 6: Model evaluated the response.")

它的 debug 能力也明显下滑了。:(

GPT-4 Turbo 推理能力看起来比 Gpt-3.5 或 GPT-4 更差

我具体指什么？

和很多人一样，我很期待试 GPT-4 Turbo，因为它比 GPT-4 便宜很多，而且上下文窗口更长。前面提过，由于成本，我没法在我的 chatbot 上长期用 GPT-4 API。我最近给 chatbot 加了一个自评步骤：在回复用户前先判断 “Does the response sufficiently answer the user question?”

在这个步骤里，GPT-4 Turbo 会反复失败，而 GPT-3.5 和 GPT-4 都表现正常。我用的是完全相同的代码与提示词，唯一改变就是 API 模型。我在多个问题/提示上重复测试过。

那我最后怎么选？目前先继续用 GPT-3.5，等 GPT-4 Turbo 的“推理”能力更稳定或更可靠再说。

那我为什么要写这些？

基于我在真实场景里使用 chatGPT 与 OpenAI API 的有限经验，我觉得这些模型和功能仍有非常多可优化空间。如果你只看开发者大会，可能会觉得 OpenAI 已经把所有人甩开，没有追赶机会。但我认为这场竞赛仍然非常激烈。是的，OpenAI 的确有巨大先发优势，因为他们靠口碑增长和现有规模（每周 1 亿活跃用户）基本“解决了”分发问题。但只要你产品真的更好，仍有机会做到大规模。按 No priors 主持人的说法，目前可把模型表现再拉到 10X 或 100X 的关键改进方向包括：

1. Multi-modality

2. Long context window

3. Model customization

4. Memory: AI remembers what it was doing

5. Recursion

6. AI router: smaller/specialized models being controlled/orchestrated by the main/larger model.

最后补一句：虽然这篇语气看起来偏负面，但我仍然是 chatGPT plus 订阅者，也仍在用 OpenAI API 驱动这个博客的 chatbot。 :)

我希望接下来几周，随着 GPT-4 Turbo 正式全面上线、OpenAI 持续修复问题，我们可以拿回之前那种质量。我也怀疑这波性能回撤和“太多人同时使用 API/网页版”有关。

就先写到这里。

你最近也感觉 chatGPT Plus 有类似性能问题吗？如果有，你找到好的编程替代方案了吗？我目前对 Phind 印象不错，但还在早期观察中 :D

致敬，

Chandler

过去 4-6 周 chatGPT Plus/GPT-4 表现下滑？

过去 4-6 周，chatGPT 4.0 在写作与编程任务上的表现明显变差

对写作任务

对编程任务

GPT-4 Turbo 推理能力看起来比 Gpt-3.5 或 GPT-4 更差

那我为什么要写这些？

继续阅读

我“作弊”了：Sydney 现在能读懂 10-K 年报里的叙事内容

S&P500 Agent MVP 上线：基于 SEC 数据回答金融问题

对我当前聊天机器人的一次升级

Chatbot v2.10 发布：通过更快速度、更强扩展性与更简体验提升用户感受

我如何借助 AI Agent 从“编码流沙”中爬出来

一年后：我的搜索习惯印证了 AI 助手的崛起与 SEO 正在被重塑的未来

过去 4-6 周，chatGPT 4.0 在写作与编程任务上的表现明显变差

对写作任务

对编程任务

GPT-4 Turbo 推理能力看起来比 Gpt-3.5 或 GPT-4 更差

那我为什么要写这些？

继续阅读

我“作弊”了：Sydney 现在能读懂 10-K 年报里的叙事内容

S&amp;P500 Agent MVP 上线：基于 SEC 数据回答金融问题

对我当前聊天机器人的一次升级

Chatbot v2.10 发布：通过更快速度、更强扩展性与更简体验提升用户感受

我如何借助 AI Agent 从“编码流沙”中爬出来

一年后：我的搜索习惯印证了 AI 助手的崛起与 SEO 正在被重塑的未来

S&P500 Agent MVP 上线：基于 SEC 数据回答金融问题