पिछले 4-6 हफ्तों में chatGPT Plus/GPT-4 की घटती performance?
मैंने देखा है कि GPT-4 की performance 4-6 हफ्तों में तेज़ी से गिरी है — इतनी कि अब मैं Claude Pro के लिए पैसे देता हूँ। यहाँ बताता हूँ क्या टूट रहा है और कौन से alternatives वाकई काम करते हैं।
यह पोस्ट 2023 में लिखी गई थी। तब से कुछ जानकारी बदल सकती है।
अगर आप AI space को करीब से follow करते हैं, तो शायद आपने इस हफ्ते OpenAI का पहला developer conference पढ़ा या देखा हो। जो उन्होंने announce किया उससे amazed न हों यह मुश्किल है: मौजूदा product usage दृष्टिकोण और नए product announcement दोनों से।
यह post उसके बारे में नहीं है। यह पिछले 4-6 हफ्तों में हाल की performance decline के बारे में है। यह पूरी तरह मेरे निजी अनुभव पर आधारित है। (और नहीं, मैंने इसके बारे में वैज्ञानिक शोध नहीं किया।)
तो TL;DR क्या है:
- पिछले 4-6 हफ्तों में writing और coding दोनों tasks के लिए chatGPT 4.0 (web version) की performance ध्यान देने योग्य रूप से बदतर हुई है।
- GPT-4 Turbo की reasoning क्षमता Gpt-3.5 या GPT-4 से बदतर लगती है।
- मैं अभी भी chatGPT plus subscriber हूँ और अपने chatbot के लिए OpenAI API का उपयोग कर रहा हूँ।
मुझे और बताने दें।
पिछले 4-6 हफ्तों में writing और coding दोनों tasks के लिए chatGPT 4.0 की performance ध्यान देने योग्य रूप से बदतर हुई है
रोज़ chatGPT plus web interface उपयोग करने वाले के रूप में, मैं performance की समस्या को दर्दनाक रूप से notice कर सकता हूँ, खासकर पिछले 4-6 हफ्तों में। लक्षण क्या हैं?
Writing के लिए
- Writing quality (खासकर tone of voice और detailed instructions follow करने की क्षमता) ध्यान देने योग्य रूप से बदतर है
- यह writing के लिए revision asks को बार-बार follow करने में विफल होता है। यह इतना बुरा हो गया कि मैंने Claude Pro के लिए Anthropic को पैसे देना शुरू किया।
- पिछले 1 साल में, मैंने writing, proofreading, आदि के लिए ChatGPT पर व्यापक रूप से निर्भर रहने की आदत विकसित की है और मुझे डर था कि इसने मुझे नए tools आज़माने के लिए बहुत आलसी बना दिया। अब नहीं, अब मैं drafting, content review और अन्य writing tasks के लिए Claude Pro का उपयोग ज़्यादा से ज़्यादा करता हूँ।
- मुझे Claude का chatGPT 4 बनाम बहुत लंबा context window भी पसंद है (GPT-4 turbo के व्यापक rollout तक के लिए।)
- हालाँकि basic math में Claude अभी भी काफी कमज़ोर है। :P उदाहरण के लिए, मुझे अक्सर हर blog post के लिए meta description की ज़रूरत होती है (SEO उद्देश्यों के लिए) इसलिए मैं अक्सर ऐसा कुछ लिखता हूँ "उपरोक्त blog post content के लिए 5 अलग meta descriptions दें, विभिन्न styles में, users को click करके blog post content पढ़ने के लिए प्रोत्साहित करने के उद्देश्य से। Meta description में अधिकतम 140 characters, spaces सहित होने चाहिए।"
- Claude बार-बार बहुत लंबी meta descriptions देता था, यहाँ तक कि उन्हें छोटा करने के बाद भी।
- ChatGPT यह task अच्छे से करता था लेकिन पिछले 4-6 हफ्तों में नहीं।
Side note: मैंने हाल ही में notice किया कि जब आप chatGPT से पूरा article लिखने के लिए कहते हैं, तो यह मना करता है, जो मुझे लगता है एक अच्छा कदम है। यह online spammy content को कम करने में मदद करेगा। पहले एक specific topic पर 4000-word article लिखने के लिए chatGPT से कहना बहुत आसान था। यह पहले outline देता था, feedback माँगता था, फिर पूरा 4000-word article लिखने में आगे बढ़ता था। यह अब नहीं कर रहा।
Coding के लिए
- chatGPT (web version) coding tasks में आसानी से खो जाता है, इसे उसी session के दौरान, कुछ मिनट पहले लिखे code को याद नहीं रहता।
- Coding issue को correct करने के लिए detailed instructions follow करने में विफल होता है। उदाहरण के लिए, मैंने इसे अपने application का पूरा code दिया, और फिर एक function के साथ किसी दूसरे project का example share किया जिसे मैं include करना चाहता था।
- फिर मैंने GPT 4 से example का उपयोग करके मेरे application के लिए code revise करने के लिए कहा। इसका जवाब इतना off the mark था कि मेरे लिए कोई उपयोग नहीं था। मैंने chatGPT को कई बार सही दिशा में steer करने की कोशिश की लेकिन यह फिर भी नहीं कर सका।
- जब मैंने https://www.phind.com/ पर यही exercise repeat की, machine ने 1 try के बाद मुझे exactly वो दे दिया जो करना था। (Caveat: मैंने Phind try करना अभी शुरू किया है इसलिए नहीं जानता overall coding के लिए यह chatGPT के मुकाबले कैसे perform करेगा, लेकिन Phind के लिए पहला impression अच्छा है।)
- जो लोग specifics पसंद करते हैं उनके लिए, मैंने chatGPT को जो example दिया वो यह है। मैंने उसे बताया कि मुझे example में step 6 पसंद है जहाँ model से पूछा गया कि उसका response user की query का पर्याप्त जवाब देता है या नहीं। chatGPT इस example का उपयोग करने में विफल रहा और मेरे application code को revise करके इस function को include किया।
# Step 6: Ask the model if the response answers the initial user query well
user_message = f"""
Customer message: \{delimiter\}\{user_input\}\{delimiter\}
Agent response: \{delimiter\}\{final_response\}\{delimiter\}
Does the response sufficiently answer the question?
"""
messages = [
\{'role': 'system', 'content': system_message\},
\{'role': 'user', 'content': user_message\}
]
evaluation_response = get_completion_from_messages(messages)
if debug: print("Step 6: Model evaluated the response.")
- इसकी debugging क्षमता ध्यान देने योग्य रूप से बदतर है। :(
GPT-4 Turbo की reasoning क्षमता Gpt-3.5 या GPT-4 से बदतर लगती है
इससे मेरा क्या मतलब है?
खैर बहुत लोगों की तरह, मैं GPT-4 Turbo try करने के लिए eager था क्योंकि यह GPT-4 से बहुत सस्ता है और context window काफी लंबा है। जैसा पहले mention किया, मैं अपने chatbot के लिए GPT-4 API नहीं उपयोग कर सका क्योंकि यह बहुत महँगा है। मैंने हाल ही में chatbot के लिए users को reply दिखाने से पहले एक self-evaluation step implement की। सवाल है "क्या response user के सवाल का पर्याप्त जवाब देता है?"
GPT-4 Turbo इस step पर बार-बार fail होता है जबकि GPT-3.5 और GPT-4 ठीक करते हैं। मैं बिल्कुल वही code और prompts उपयोग कर रहा हूँ। एकमात्र बदलाव API model है। मैंने इसे कई questions/prompts पर test किया।
तो मैं आखिर क्या उपयोग कर रहा हूँ? खैर, GPT-3.5 के साथ continue, जब तक GPT-4 Turbo की "reasoning" क्षमता बेहतर या ज़्यादा reliable नहीं हो जाती।
तो मैं यह सब क्यों share कर रहा हूँ?
chatGPT और OpenAI API के साथ काम करने के मेरे सीमित वास्तविक जीवन के अनुभवों के आधार पर, मुझे लगता है इन models और functions को बेहतर बनाने के अभी भी बहुत सारे अवसर हैं। अगर आप बस developer conference देखते हैं, तो आप महसूस कर सकते हैं कि OpenAI बाकी सबसे इतना आगे है कि पकड़ना संभव नहीं। लेकिन मुझे लगता है race अभी भी बहुत ज़िंदा है। हाँ, OpenAI के पास word-of-mouth growth और उनके मौजूदा scale (10 करोड़ weekly active users) को देखते हुए distribution problem को "solve" करने की विशाल बढ़त है। लेकिन अगर आपके पास वाकई बेहतर product है, तो आपके पास अभी भी बड़े scale तक पहुँचने का बहुत अच्छा मौका है। No priors hosts के अनुसार model performance को 10X या 100X करने के ये improvement areas अभी हैं:
-
Multi-modality
-
Long context window
-
Model customization
-
Memory: AI को याद रहता है कि वह क्या कर रहा था
-
Recursion
-
AI router: smaller/specialized models को main/larger model द्वारा control/orchestrated किया जाना।
आखिर में, हालाँकि इस blog post का tone काफी negative लग सकता है, मैं अभी भी chatGPT plus subscriber हूँ और इस blog chatbot के लिए OpenAI API का उपयोग कर रहा हूँ। :)
मुझे उम्मीद है कि अगले कुछ हफ्तों में, जैसे-जैसे GPT-4 Turbo officially बाहर आएगा और सभी issues OpenAI द्वारा काम किए जाएंगे, हम वही quality वापस पा सकते हैं। साथ ही, मुझे लगता है कि वे performance में इस negative bump का अनुभव कर रहे हैं क्योंकि बहुत अधिक लोग API/web version का उपयोग करने या try करने की कोशिश कर रहे हैं।
बस इतना मेरी तरफ से।
क्या आपने हाल ही में chatGPT Plus के साथ similar performance issues notice किए हैं? और अगर हाँ, तो क्या coding tasks के लिए कोई अच्छा alternative मिला? अभी तक Phind पसंद आ रहा है लेकिन अभी शुरुआत है :D
शुभकामनाओं सहित,
Chandler





