過去4-6週間におけるchatGPT Plus/GPT-4のパフォーマンス低下について
GPT-4のパフォーマンスが4-6週間にわたって急激に低下しているのを実感し、Claude Proに 課金するようになりました。何が壊れているのか、実際に使える代替手段は何かをお伝えします。
この記事は2023年に書かれたものです。一部の情報が変更されている可能性があります。
AIの世界をフォローしている方なら、今週初めのOpenAI初の開発者カンファレンスを読んだり観たりしたかもしれません。発表された内容は、現在の製品利用の観点からも、新製品発表の観点からも、驚くばかりでした。
この記事はそれについてではありません。過去4-6週間のパフォーマンス低下についてです。これは純粋に私の個人的な体験に基づいています。(いいえ、科学的な研究は行っていません。)
TL;DR:
- chatGPT 4.0(Web版)のパフォーマンスは、ライティングとコーディングの両方で過去4-6週間で明らかに悪化しています。
- GPT-4 Turboの推論能力はGpt-3.5やGPT-4より悪いように見えます。
- 私はまだchatGPT Plusのサブスクライバーであり、チャットボットにはOpenAI APIを使用しています。
もう少し詳しく共有します
chatGPT 4.0のパフォーマンスは、過去4-6週間でライティングとコーディングの両方で明らかに悪化しています
chatGPT Plusのウェブインターフェースを毎日使用している者として、特に過去4-6週間のパフォーマンス問題を痛切に感じています。症状は何か?
ライティングについて
- ライティングの品質(特に文体の再現度と詳細な指示への追従性)が明らかに悪化
- 修正リクエストを繰り返し守れません。ひどくなったので、Anthropicに課金してClaude Proを使い始めました。
- 過去1年間、ChatGPTにライティング、校正などを大幅に頼る習慣をつけてきたので、新しいツールを試すのが面倒になっていたのではと心配していました。でももうそんなことはありません。今では下書き、コンテンツレビュー、その他のライティングタスクにClaude Proをどんどん使っています。
- Claudeのはるかに長いコンテキストウィンドウも気に入っています(GPT-4 Turboが広く展開されるまでは)。
- ただしClaudeは基本的な計算がまだかなり苦手です。:P 例えば、各ブログ記事のメタディスクリプション(SEO目的)を書く必要があるので、「上記のブログ記事コンテンツの5つの異なるメタディスクリプションを、異なるスタイルで、ユーザーがクリックしてブログ記事を読みたくなるような目的で書いてください。メタディスクリプションはスペースを含めて最大140文字にしてください」とよく書きます。
- Claudeは繰り返しはるかに長いメタディスクリプションを返してきて、短くするよう指示した後でもそうでした。
- ChatGPTは以前このタスクをうまくこなしていましたが、過去4-6週間はそうではありません。
サイドノート:最近chatGPTに記事全体を書くように頼むと拒否するようになったことにも気づきました。これは良い一歩だと思います。ネット上のスパムコンテンツの削減に役立つでしょう。以前はchatGPTに特定のトピックについて4,000語の記事を書くよう頼むのがあまりにも簡単でした。まずアウトラインを提示し、フィードバックを求め、そして4,000語の記事全体を書いてくれました。もうそうはしなくなりました。
コーディングについて
- chatGPT(Web版)はコーディングタスクで簡単に迷子になります。数分前に自分で書いたコードを、同じセッション中でも思い出せないようです。
- コーディングの問題を修正するための詳細な指示に従えません。例えば、アプリケーション全体のコードと、追加したい機能を持つ別のプロジェクトの例を共有しました。
- その例を使ってアプリケーションのコードを修正するようGPT 4に頼みましたが、回答があまりにも的外れで使い物になりませんでした。chatGPTを正しい方向に戻そうと何度か試みましたが、それでもできませんでした。
- 同じ演習をhttps://www.phind.comで繰り返したところ、1回で必要なことを正確に教えてくれました。(注意:Phindを使い始めたばかりなので、コーディング全体でchatGPTと比較してどうかはまだわかりませんが、Phindの第一印象は良いです。)
- 具体的に知りたい方のために、chatGPTに与えた例はこちらです。例のステップ6が気に入ったと伝えました。モデルが自分の回答がユーザーのクエリに十分に答えているかを評価するステップです。chatGPTはこの例を使ってアプリケーションコードにこの機能を追加することができませんでした。
# Step 6: Ask the model if the response answers the initial user query well
user_message = f"""
Customer message: \{delimiter\}\{user_input\}\{delimiter\}
Agent response: \{delimiter\}\{final_response\}\{delimiter\}
Does the response sufficiently answer the question?
"""
messages = [
\{'role': 'system', 'content': system_message\},
\{'role': 'user', 'content': user_message\}
]
evaluation_response = get_completion_from_messages(messages)
if debug: print("Step 6: Model evaluated the response.")
- デバッグ能力が明らかに悪化しています。:(
GPT-4 Turboの推論能力はGpt-3.5やGPT-4より悪いように見える
どういう意味か?
多くの人と同じように、GPT-4 TurboはGPT-4よりずっと安価で、はるかに長いコンテキストウィンドウを持っているので、試すのを楽しみにしていました。前述の通り、高すぎるためにチャットボットにGPT-4 APIを使えませんでした。最近、チャットボットの回答がユーザーに表示される前の自己評価ステップを実装しました。質問は「回答はユーザーの質問に十分に答えていますか?」です。
GPT-4 Turboはこのステップで繰り返し失敗しますが、GPT-3.5とGPT-4は問題なく動作しています。全く同じコードとプロンプトを使用しています。唯一の変更はAPIモデルです。複数の質問/プロンプトでテストしました。
結局何を使うことにしたか?GPT-4 Turboの「推論」能力がより良くなるか、より信頼性が高くなるまで、今のところGPT-3.5を引き続き使用します。
なぜこれらすべてを共有しているのか?
chatGPTとOpenAI APIでの限られた実体験に基づくと、これらのモデルや機能を改善する機会はまだたくさんあると思います。開発者カンファレンスを見るだけだと、OpenAIが他の全員よりはるかに先を行っていて追いつくチャンスがないと感じるかもしれません。しかし、競争はまだ大いに生きていると思います。はい、OpenAIは口コミによる成長と現在のスケール(週間アクティブユーザー1億人)によって流通の問題を「解決」したことで大きなリードを持っています。しかし、本当に優れた製品があれば、大規模に到達するチャンスはまだ十分にあります。No priorsのホストによると、モデルパフォーマンスを10倍または100倍にするための改善領域は以下の通りです:
1. マルチモダリティ
2. ロングコンテキストウィンドウ
3. モデルのカスタマイゼーション
4. メモリ:AIが何をしていたかを記憶する
5. 再帰
6. AIルーター:小さい/特化したモデルがメイン/大きなモデルによって制御/オーケストレーションされる
最後に、このブログ記事のトーンはかなりネガティブに見えるかもしれませんが、私はまだchatGPT Plusのサブスクライバーであり、このブログのチャットボットにはまだOpenAI APIを使用しています。:)
今後数週間で、GPT-4 Turboが正式にリリースされ、すべての問題がOpenAIによって対処されれば、同じ品質に戻ることを期待しています。また、あまりにも多くの人がAPI/ウェブ版を使用または使用しようとしているため、このパフォーマンスの低下を経験しているのではないかと思います。
以上です。
chatGPT Plusで最近同じようなパフォーマンスの問題に気づきましたか?もしそうなら、コーディングタスクの良い代替手段は見つかりましたか?Phindは今のところ気に入っていますが、まだ始めたばかりです :D
よろしくお願いします、Chandler





