Ang Bumababang Performance ng chatGPT Plus/GPT-4 sa Nakaraang 4-6 na Linggo?

Kung malapit mong sinusubaybayan ang AI space, maaaring nabasa o napanood mo ang unang developer conference ng OpenAI nitong linggo. Mahirap na hindi mamangha sa mga inanunsyo nila: parehong mula sa perspektiba ng kasalukuyang produkto at mula sa bagong product announcement.

Ang post na ito ay hindi tungkol doon. Ito ay tungkol sa kamakailang pagbagsak ng performance sa nakaraang 4-6 na linggo. Ito ay purong base sa aking personal na experience. (at hindi, hindi ako gumawa ng scientific research tungkol dito.)

Kaya ano ang TL;DR:

Ang performance ng chatGPT 4.0 (web version) ay kapansin-pansing mas masama para sa parehong pagsulat at coding tasks sa nakaraang 4-6 na linggo.
Ang GPT-4 Turbo reasoning capability ay mukhang mas masama kaysa sa Gpt-3.5 o GPT-4.
Subscriber pa rin ako ng chatGPT plus at gumagamit ng OpenAI API para sa aking chatbot.

Hayaan mong ibahagi ko pa

Ang performance ng chatGPT 4.0 ay kapansin-pansing mas masama para sa parehong pagsulat at coding tasks sa nakaraang 4-6 na linggo

Bilang isang tao na gumagamit ng chatGPT plus web interface araw-araw, masakit kong napapansin ang performance issue, lalo na sa nakaraang 4-6 na linggo. Ano ang mga sintomas?

Para sa pagsulat

Ang quality ng pagsulat (lalo na ang tone of voice, at kakayahang sumunod sa detalyadong mga instructions) ay kapansin-pansing mas masama
Paulit-ulit itong nabibigo na sumunod sa mga revision requests para sa pagsulat. Naging sapat na masama ito na nagsimula akong magbayad sa Anthropic para gamitin ang Claude Pro.
Sa nakaraang 1 taon, nalinang ko ang ugali na umasa nang malaki sa ChatGPT para sa pagsulat, proofreading, atbp... at natatakot ako na ginawa ako nito na masyadong tamad para subukan ang mga bagong tools. Well wala na, ngayon, mas ginagamit ko ang Claude Pro para sa drafting, content review, at iba pang writing tasks.
- Gusto ko rin ang mas mahabang context window ng Claude kumpara sa chatGPT 4 (sa ngayon hanggang sa malawakang i-roll out ang GPT-4 turbo.)
Masama pa rin ang Claude sa basic math. :P Halimbawa, madalas akong kailangan ng meta description para sa bawat blog post (para sa SEO) kaya ganito ang madalas kong sinusulat "Give me 5 different meta descriptions for the above blog post content, in different styles, with the purpose of encourage users to click and read the blog post content. The meta description has to have a maximum of 140 characters, including spaces".
- Paulit-ulit na nagbibigay ang Claude ng mas mahabang meta descriptions, kahit sinabihan na itong paikliin.
- Dati maganda ang ChatGPT sa task na ito pero hindi na sa nakaraang 4-6 na linggo.

Side note: Napansin ko rin na kamakailan, kapag hinihiling mo sa chatGPT na isulat ang buong artikulo para sa'yo, tumatanggi na itong gawin, na sa tingin ko ay isang magandang hakbang. Makakatulong ito na bawasan ang spammy content online. Dati napakadaling hilingin sa chatGPT na magsulat ng 4000-word article tungkol sa isang specific na paksa. Binibigyan ka muna nito ng outline, humingi ng feedback, tapos sumulat ng buong 4000-word article. Hindi na nito ginagawa iyon.

Para sa coding

Ang chatGPT (web version) ay madaling naliligaw sa coding tasks, mukhang hindi nito maalala ang code na sinulat nito ilang minuto lang ang nakalipas, sa parehong session.
Nabibigo itong sumunod sa detalyadong instructions para itama ang isang coding issue. Halimbawa, ibinigay ko ang buong code ng aking application, at pagkatapos ay nagbahagi ng halimbawa ng isa pang project na may function na gusto kong isama.
- Pagkatapos ay hiniling ko sa GPT 4 na gamitin ang halimbawa at i-revise ang code para sa aking application. Ang sagot nito ay sobrang off the mark na walang silbi sa akin. Sinubukan kong ibalik ang chatGPT sa tamang direksyon ng ilang beses pero hindi pa rin nito magawa.
- Noong inulit ko ang parehong ehersisyo sa https://www.phind.com/, ang makina ay nagbigay sa akin ng eksaktong kailangan kong gawin pagkatapos ng 1 try. (Caveat: nagsisimula pa lang akong mag-try ng Phind kaya hindi ko pa alam kung paano ito performance kumpara sa chatGPT para sa coding sa kabuuan, pero maganda ang first impression para sa Phind.)
- Para sa mga gusto ng specifics, ang halimbawang ibinigay ko sa chatGPT ay ito. Sinabi ko na gusto ko ang step 6 sa halimbawa kung saan hinihiling sa model na suriin ang sagot nito upang makita kung sapat na nasagot nito ang query ng user. Nabigo ang chatGPT na gamitin ang halimbawang ito at i-revise ang application code ko para isama ang function na ito.

# Step 6: Ask the model if the response answers the initial user query well
    user_message = f"""
    Customer message: \{delimiter\}\{user_input\}\{delimiter\}
    Agent response: \{delimiter\}\{final_response\}\{delimiter\}

    Does the response sufficiently answer the question?
    """
    messages = [
        \{'role': 'system', 'content': system_message\},
        \{'role': 'user', 'content': user_message\}
    ]
    evaluation_response = get_completion_from_messages(messages)
    if debug: print("Step 6: Model evaluated the response.")

Ang kakayahan nitong mag-debug ay kapansin-pansing mas masama. :(

Ang GPT-4 Turbo reasoning capability ay mukhang mas masama kaysa sa Gpt-3.5 o GPT-4

Ano ang ibig sabihin ko nito?

Well tulad ng maraming tao, sabik akong subukan ang GPT-4 Turbo dahil mas mura ito kaysa sa GPT-4 at mas mahaba ang context window. Gaya ng nabanggit kanina, hindi ko magamit ang GPT-4 API para sa aking chatbot dahil masyadong mahal ito. Kamakailan lang kong nag-implement ng self-evaluation step para sa chatbot bago ipakita ang sagot nito sa mga users. Ang tanong ay "Does the response sufficiently answer the user question?"

Paulit-ulit na nabibigo ang GPT-4 Turbo sa hakbang na ito habang maayos naman ang GPT-3.5 at GPT-4. Gumagamit ako ng eksaktong parehong code at prompts. Ang tanging pagbabago ay ang API model. Na-test ko ito sa maraming tanong/prompts.

Kaya ano ang ginamit ko? Well, patuloy na GPT-3.5 sa ngayon hanggang bumuti o maging mas reliable ang "reasoning" capability ng GPT-4 Turbo.

Kaya bakit ko ibinabahagi ang lahat ng ito?

Base sa aking limitadong real-life experiences sa pagtrabaho sa chatGPT at OpenAI API, sa tingin ko napakarami pa ring oportunidad para pagbutihin ang mga models at functions na ito. Kung pinanood mo lang ang developer conference, maaaring maramdaman mo na napakalayo ng naunahan ng OpenAI sa lahat at walang pag-asang makahabol. Pero sa tingin ko buhay pa ang karera. Oo, malaking advantage ng OpenAI mula nang "nalutas" nila ang distribution problem dahil sa word-of-mouth growth at kasalukuyang scale nila (100M weekly active users). Pero kung mayroon kang talagang mas magandang produkto, may napakagandang pagkakataon ka pa ring maabot ang napakalaking scale. Ito ang mga improvement areas ngayon para 10X o 100x ang model performance ayon sa No priors hosts:

1. Multi-modality

2. Long context window

3. Model customization

4. Memory: Naalala ng AI kung ano ang ginagawa nito

5. Recursion

6. AI router: mas maliliit/specialized na mga models na kinokontrol/orchestrate ng pangunahing/mas malaking model.

Sa wakas, habang maaaring makita bilang negatibo ang tone of voice ng blog post na ito, subscriber pa rin ako ng chatGPT plus at gumagamit pa rin ako ng OpenAI API para sa blog chatbot na ito. :)

Umaasa ako na sa susunod na ilang linggo, habang opisyal na lalabas ang GPT-4 Turbo at ginagawa ang lahat ng issues ng OpenAI, mababalik natin ang parehong quality. Gayundin, sa tingin ko nararanasan nila ang negatibong pagbagsak na ito sa performance dahil masyadong maraming tao ang gumagamit o sinusubukang gamitin ang API/web version.

Iyon na muna mula sa akin.

Napansin mo ba ang katulad na performance issues sa chatGPT Plus kamakailan? At kung oo, nakahanap ka ba ng magandang alternatibo para sa coding tasks? Nagugustuhan ko ang Phind hanggang ngayon pero early days pa lang :D

Maraming salamat,

Chandler

Ang Bumababang Performance ng chatGPT Plus/GPT-4 sa Nakaraang 4-6 na Linggo?

Ang performance ng chatGPT 4.0 ay kapansin-pansing mas masama para sa parehong pagsulat at coding tasks sa nakaraang 4-6 na linggo

Para sa pagsulat

Para sa coding

Ang GPT-4 Turbo reasoning capability ay mukhang mas masama kaysa sa Gpt-3.5 o GPT-4

Kaya bakit ko ibinabahagi ang lahat ng ito?

Ipagpatuloy ang Pagbasa

Nandaya Ako: Kaya Na Ni Sydney Basahin ang Narrative sa 10-K Reports

Na-launch na ang S&P500 Agent MVP: Sumasagot ng mga Financial Questions na Naka-ground sa SEC Data

Isang Upgrade sa Aking Kasalukuyang Chatbot

Chatbot v2.10 Inilabas: Pag-angat ng User Experience gamit ang Enhanced Speed, Scalability, at Simplicity

Paano Ako Nakaahon sa Coding Quicksand Gamit ang isang AI Agent

Isang taon na ang nakalipas: Kinukumpirma ng aking search habits ang pag-angat ng AI assistants at ang nagbabagong kinabukasan ng SEO