Skip to content
··閱讀時間2分鐘

ChatGPT Plus/GPT-4 過去 4-6 個禮拜嘅表現下降?

我注意到 GPT-4 嘅表現喺 4-6 個禮拜內急劇下降——嚴重到我而家畀錢訂 Claude Pro。以下係乜嘢出咗問題同邊啲替代方案真正有用。

呢篇文章寫於2023年,部分內容可能已經有變化。

如果你密切關注 AI 領域,你可能讀過或睇過呢個禮拜較早前 OpenAI 第一次開發者大會。好難唔被佢哋宣佈嘅嘢震驚:無論係現有產品使用角度定新產品發佈角度。

呢篇文章唔係講嗰個。係講過去 4-6 個禮拜嘅表現下降。呢個純粹基於我個人經驗。(唔係,我冇做科學研究。)

TL;DR:

  1. ChatGPT 4.0(網頁版)喺寫作同 coding 任務嘅表現喺過去 4-6 個禮拜明顯變差
  2. GPT-4 Turbo 嘅推理能力似乎比 GPT-3.5 或 GPT-4 更差。
  3. 我仲係 ChatGPT Plus 訂閱用戶,仲係用 OpenAI API 做我嘅 chatbot

等我分享多啲

ChatGPT 4.0 嘅表現喺過去 4-6 個禮拜喺寫作同 coding 任務方面明顯變差

作為每日使用 ChatGPT Plus 網頁介面嘅人,我可以痛苦地感覺到表現問題,特別係過去 4-6 個禮拜。有咩症狀?

寫作方面

  • 寫作質素(特別係語氣同跟住詳細指示嘅能力)明顯變差
  • 佢反覆冇辦法跟住寫作修改要求。差到我開始畀錢 Anthropic 用 Claude Pro
  • 過去一年我養成咗大量依賴 ChatGPT 做寫作、校對等嘅習慣⋯⋯我曾經擔心呢個令我太懶去試新工具。好啦唔使再擔心,而家我越嚟越多用 Claude Pro 做 drafting、內容審查同其他寫作任務。
    • 我亦鍾意 Claude 比 ChatGPT 4 更長嘅 context window(暫時,直到 GPT-4 Turbo 廣泛推出)。
  • 不過 Claude 做基本數學仲係幾差 :P 例如我經常要為每篇 blog post 寫 meta description(為咗 SEO),所以我成日寫呢類嘢「Give me 5 different meta descriptions for the above blog post content, in different styles, with the purpose of encourage users to click and read the blog post content. The meta description has to have a maximum of 140 characters, including spaces」。
    • Claude 反覆畀我太長嘅 meta description,就算話佢縮短都係。
    • ChatGPT 以前做呢個任務做得好好但過去 4-6 個禮拜唔得。

附註:我亦注意到最近你叫 ChatGPT 幫你寫成篇文章嗰陣,佢拒絕咁做,我覺得呢個係好嘅一步。呢個有助於減少網上嘅垃圾內容。以前太容易叫 ChatGPT 寫一篇 4000 字關於特定題目嘅文章。佢先畀你大綱,問 feedback,然後寫成篇 4000 字文章。佢而家唔再做呢個。

Coding 方面

  • ChatGPT(網頁版)喺 coding 任務容易迷失,佢似乎記唔起幾分鐘前自己寫嘅 code,喺同一個 session。
  • 佢冇辦法跟住詳細指示去修正 coding 問題。例如我畀佢我整個應用嘅 code,再分享另一個項目嘅 function 作為例子。
    • 然後我叫 GPT 4 用個例子修改我嘅應用 code。佢嘅回覆差到對我完全冇用。我試過引導 ChatGPT 返去正確方向幾次但佢仲係做唔到。
    • 當我喺 https://www.phind.com/ 重複同樣嘅操作,部機一次就畀咗我需要做嘅嘢。(注意:我剛開始試 Phind 所以我唔知佢整體同 ChatGPT 比較 coding 表現點,但第一印象幾好。)
    • 對於鍾意具體嘅人,我畀 ChatGPT 嘅例子係呢個。我話佢我鍾意例子入面嘅 step 6,即模型被要求評估佢嘅回覆係咪充分回答咗用戶嘅查詢。ChatGPT 冇辦法用呢個例子修改我嘅應用 code 去包含呢個功能。
# Step 6: Ask the model if the response answers the initial user query well
    user_message = f"""
    Customer message: \{delimiter\}\{user_input\}\{delimiter\}
    Agent response: \{delimiter\}\{final_response\}\{delimiter\}

    Does the response sufficiently answer the question?
    """
    messages = [
        \{'role': 'system', 'content': system_message\},
        \{'role': 'user', 'content': user_message\}
    ]
    evaluation_response = get_completion_from_messages(messages)
    if debug: print("Step 6: Model evaluated the response.")
  • 佢嘅 debug 能力明顯變差。:(

GPT-4 Turbo 嘅推理能力似乎比 GPT-3.5 或 GPT-4 更差

我講嘅係乜意思?

同好多人一樣,我好心急想試 GPT-4 Turbo 因為佢比 GPT-4 平好多而且有更長嘅 context window。正如之前提到,我冇辦法用 GPT-4 API 做我嘅 chatbot 因為太貴。我最近為 chatbot 加咗一個自我評估步驟,喺回覆展示畀用戶之前。問題係「Does the response sufficiently answer the user question?」

GPT-4 Turbo 反覆喺呢個步驟失敗,而 GPT-3.5 同 GPT-4 做得冇問題。我用完全一樣嘅 code 同 prompt。唯一嘅改變係 API 模型。我喺多個問題/prompt 測試過。

所以我最終用咩?繼續用 GPT-3.5 直到 GPT-4 Turbo 嘅「推理」能力變好或者更可靠。

噉我點解要分享呢啲?

基於我有限嘅同 ChatGPT 同 OpenAI API 合作嘅實際經驗,我覺得仲有好多機會去改進呢啲模型同功能。如果你淨係睇開發者大會,你可能會覺得 OpenAI 遙遙領先到冇人追得上。但我覺得競爭仲係好激烈。冇錯 OpenAI 有巨大優勢因為佢哋「解決」咗分發問題——靠口碑增長同佢哋嘅規模(每週 1 億活躍用戶)。但如果你有真正更好嘅產品,你仲有好好嘅機會達到大規模。根據 No Priors 主持人,呢啲係而家要 10X 或 100X 模型表現嘅改進領域:

1. Multi-modality

2. Long context window

3. Model customization

4. Memory:AI 記得佢做緊乜

5. Recursion

6. AI router:較細/專門化嘅模型被主/較大模型控制/協調。

最後但好重要,雖然呢篇文章嘅語氣可能睇嚟幾負面,我仲係 ChatGPT Plus 訂閱用戶,仲係用 OpenAI API 做呢個 blog 嘅 chatbot。:)

我希望接下來幾個禮拜,隨住 GPT-4 Turbo 正式推出同所有問題被 OpenAI 解決,我哋可以恢復返同樣嘅質素。同埋我懷疑佢哋出現呢個表現下降係因為太多人喺用或者試用 API/網頁版。

我就講到呢度。

你有冇注意到 ChatGPT Plus 最近類似嘅表現問題?如果有,你搵到好嘅 coding 替代方案未?我到而家幾鍾意 Phind 但仲係早期 :D

祝好,

Chandler

繼續閱讀

我嘅旅程
聯繫
語言
偏好設定