Penurunan Performa chatGPT Plus/GPT-4 Selama 4-6 Minggu Terakhir?
Saya menyadari performa GPT-4 menurun tajam selama 4-6 minggu — sampai saya sekarang membayar Claude Pro. Ini yang rusak dan alternatif mana yang benar-benar berhasil.
Posting ini ditulis pada tahun 2023. Beberapa detail mungkin sudah berubah sejak saat itu.
Kalau kamu mengikuti dunia AI dengan dekat, kamu mungkin sudah membaca atau menonton konferensi developer pertama OpenAI awal minggu ini. Sulit untuk tidak takjub dengan apa yang mereka umumkan: baik dari perspektif penggunaan produk saat ini maupun dari perspektif pengumuman produk baru.
Postingan ini bukan tentang itu. Ini tentang penurunan performa baru-baru ini selama 4-6 minggu terakhir. Ini murni berdasarkan pengalaman pribadi saya. (dan tidak, saya belum melakukan penelitian ilmiah tentang ini.)
Jadi apa TL;DR-nya:
- Performa chatGPT 4.0 (versi web) terasa lebih buruk untuk tugas menulis dan coding selama 4-6 minggu terakhir.
- Kemampuan reasoning GPT-4 Turbo tampaknya lebih buruk dari Gpt-3.5 atau GPT-4.
- Saya masih berlangganan chatGPT plus dan menggunakan OpenAI API untuk chatbot saya.
Mari saya ceritakan lebih detail
Performa chatGPT 4.0 terasa lebih buruk untuk tugas menulis dan coding selama 4-6 minggu terakhir
Sebagai seseorang yang menggunakan interface web chatGPT plus setiap hari, saya bisa merasakan masalah performa dengan jelas, terutama selama 4-6 minggu terakhir. Apa gejalanya?
Untuk menulis
- Kualitas tulisan (terutama tone of voice, dan kemampuan mengikuti instruksi detail) terasa lebih buruk
- Dia berulang kali gagal mengikuti permintaan revisi untuk menulis. Cukup parah sampai saya mulai membayar Anthropic untuk menggunakan Claude Pro.
- Selama setahun terakhir, saya sudah mengembangkan kebiasaan mengandalkan ChatGPT secara ekstensif untuk menulis, proofreading, dll... dan saya khawatir ini membuat saya terlalu malas untuk mencoba tools baru. Sekarang tidak lagi, saya menggunakan Claude Pro semakin banyak untuk drafting, review konten, dan tugas menulis lainnya.
- Saya juga menyukai context window Claude yang jauh lebih panjang vs chatGPT 4 (untuk sekarang sampai GPT-4 turbo diluncurkan secara luas.)
- Claude masih cukup buruk dengan matematika dasar :P Misalnya, saya sering perlu meta description untuk setiap postingan blog (untuk keperluan SEO) jadi saya sering menulis seperti ini "Berikan 5 meta description berbeda untuk konten blog post di atas, dalam gaya berbeda, dengan tujuan mendorong pengguna untuk klik dan membaca konten blog post. Meta description harus memiliki maksimum 140 karakter, termasuk spasi".
- Claude berulang kali memberikan meta description yang jauh lebih panjang, bahkan setelah disuruh memotong pendek.
- ChatGPT dulu bisa melakukan tugas ini dengan baik tapi tidak dalam 4-6 minggu terakhir.
Catatan: Saya juga memperhatikan bahwa baru-baru ini, ketika kamu meminta chatGPT menulis seluruh artikel untukmu, dia menolak, yang menurut saya adalah langkah bagus. Ini akan membantu mengurangi konten spam online. Sebelumnya terlalu mudah untuk minta chatGPT menulis artikel 4000 kata tentang topik tertentu. Dia dulu memberikan outline, minta feedback, lalu menulis seluruh artikel 4000 kata. Dia tidak lagi melakukan itu.
Untuk coding
- chatGPT (versi web) mudah tersesat dalam tugas coding, dia tidak bisa mengingat kode yang baru saja ditulisnya beberapa menit lalu, dalam sesi yang sama.
- Dia gagal mengikuti instruksi detail untuk memperbaiki masalah coding. Misalnya, saya memberinya seluruh kode untuk aplikasi saya, lalu membagikan contoh proyek lain dengan fungsi yang ingin saya sertakan.
- Lalu saya minta GPT 4 menggunakan contoh itu dan merevisi kode untuk aplikasi saya. Responsnya sangat meleset sehingga tidak berguna bagi saya. Saya mencoba mengarahkan chatGPT kembali ke arah yang benar beberapa kali tapi dia tetap tidak bisa.
- Ketika saya mengulangi latihan yang sama di https://www.phind.com/, mesinnya memberikan persis apa yang perlu saya lakukan setelah 1 percobaan. (Catatan: Saya baru mulai mencoba Phind jadi saya tidak tahu bagaimana performanya vs. chatGPT untuk coding secara keseluruhan, tapi kesan pertama bagus untuk Phind.)
- Bagi yang suka detail, contoh yang saya berikan ke chatGPT adalah ini. Saya bilang bahwa saya suka langkah 6 dalam contoh di mana model diminta untuk mengevaluasi responsnya untuk melihat apakah sudah cukup menjawab query pengguna. chatGPT gagal menggunakan contoh ini dan merevisi kode aplikasi saya untuk menyertakan fungsi ini.
# Step 6: Ask the model if the response answers the initial user query well
user_message = f"""
Customer message: \{delimiter\}\{user_input\}\{delimiter\}
Agent response: \{delimiter\}\{final_response\}\{delimiter\}
Does the response sufficiently answer the question?
"""
messages = [
\{'role': 'system', 'content': system_message\},
\{'role': 'user', 'content': user_message\}
]
evaluation_response = get_completion_from_messages(messages)
if debug: print("Step 6: Model evaluated the response.")
- Kemampuan debug-nya terasa lebih buruk. :(
Kemampuan reasoning GPT-4 Turbo tampaknya lebih buruk dari Gpt-3.5 atau GPT-4
Apa maksud saya?
Sama seperti banyak orang, saya antusias mencoba GPT-4 Turbo karena jauh lebih murah dari GPT-4 dan punya context window yang jauh lebih panjang. Seperti yang disebutkan sebelumnya, saya tidak bisa menggunakan GPT-4 API untuk chatbot saya karena terlalu mahal. Baru-baru ini saya mengimplementasikan langkah self-evaluation untuk chatbot sebelum jawabannya bisa ditampilkan ke pengguna. Pertanyaannya adalah "Apakah respons ini cukup menjawab pertanyaan pengguna?"
GPT-4 Turbo gagal berulang kali di langkah ini sementara GPT-3.5 dan GPT-4 berjalan baik. Saya menggunakan kode dan prompt yang persis sama. Satu-satunya perubahan adalah model API. Saya menguji ini di beberapa pertanyaan/prompt.
Jadi apa yang akhirnya saya gunakan? Tetap dengan GPT-3.5 untuk saat ini sampai kemampuan "reasoning" GPT-4 Turbo menjadi lebih baik atau lebih reliable.
Jadi kenapa saya membagikan semua ini?
Berdasarkan pengalaman dunia nyata saya yang terbatas bekerja dengan chatGPT dan OpenAI API, menurut saya masih ada begitu banyak peluang untuk meningkatkan model dan fungsi ini. Kalau kamu hanya menonton konferensi developer, kamu mungkin merasa OpenAI sudah jauh di depan semua orang dan tidak ada kesempatan untuk mengejar. Tapi menurut saya perlombaannya masih sangat hidup. Ya, OpenAI punya keunggulan besar karena mereka "memecahkan" masalah distribusi mengingat pertumbuhan word-of-mouth dan skala mereka saat ini (100M pengguna aktif mingguan). Tapi kalau kamu punya produk yang benar-benar lebih baik, kamu masih punya peluang bagus untuk mencapai skala masif. Ini adalah area peningkatan saat ini untuk 10X atau 100x performa model menurut host No priors:
1. Multi-modality
2. Long context window
3. Model customization
4. Memory: AI mengingat apa yang sedang dilakukannya
5. Recursion
6. AI router: model yang lebih kecil/terspesialisasi dikontrol/diorkestrasi oleh model utama/lebih besar.
Terakhir tapi tidak kalah penting, meskipun tone of voice postingan blog ini bisa dilihat cukup negatif, saya masih berlangganan chatGPT plus dan masih menggunakan OpenAI API untuk chatbot blog ini. :)
Saya berharap dalam beberapa minggu ke depan, saat GPT-4 Turbo resmi keluar dan semua masalah sedang dikerjakan oleh OpenAI, kita bisa mendapatkan kualitas yang sama kembali. Juga, saya menduga mereka mengalami penurunan performa negatif ini karena terlalu banyak orang menggunakan atau mencoba menggunakan API/versi web.
Itu saja dari saya.
Apakah kamu memperhatikan masalah performa serupa dengan chatGPT Plus baru-baru ini? Dan kalau iya, apakah kamu menemukan alternatif yang bagus untuk tugas coding? Saya sudah mulai menyukai Phind sejauh ini tapi masih tahap awal :D
Salam,
Chandler





