Hiệu suất suy giảm của ChatGPT Plus/GPT-4 trong 4-6 tuần qua?

Nếu bạn theo dõi lĩnh vực AI sát sao, bạn có thể đã đọc hoặc xem hội nghị nhà phát triển đầu tiên của OpenAI đầu tuần này. Thật khó để không ấn tượng với những gì họ công bố: cả từ góc độ sử dụng sản phẩm hiện tại và từ góc độ sản phẩm mới.

Bài viết này không phải về điều đó. Nó về sự suy giảm hiệu suất gần đây trong 4-6 tuần qua. Đây hoàn toàn dựa trên trải nghiệm cá nhân của tôi. (và không, tôi chưa làm nghiên cứu khoa học về nó.)

Vậy TL;DR là:

Hiệu suất ChatGPT 4.0 (phiên bản web) giảm rõ rệt cho cả tác vụ viết lẫn lập trình trong 4-6 tuần qua.
Khả năng suy luận của GPT-4 Turbo có vẻ kém hơn GPT-3.5 hoặc GPT-4.
Tôi vẫn là người dùng ChatGPT Plus và dùng OpenAI API cho chatbot của tôi.

Để tôi chia sẻ thêm

Hiệu suất ChatGPT 4.0 giảm rõ rệt cho cả tác vụ viết lẫn lập trình trong 4-6 tuần qua

Với tư cách người dùng giao diện web ChatGPT Plus hàng ngày, tôi có thể nhận ra rõ ràng vấn đề hiệu suất, đặc biệt trong 4-6 tuần qua. Các triệu chứng là gì?

Về viết

Chất lượng viết (đặc biệt giọng văn, và khả năng tuân theo hướng dẫn chi tiết) giảm rõ rệt
Nó liên tục không thể tuân theo yêu cầu chỉnh sửa viết. Tệ đến mức tôi bắt đầu trả tiền cho Anthropic để dùng Claude Pro.
Trong suốt 1 năm qua, tôi đã phát triển thói quen dựa vào ChatGPT nhiều cho việc viết, hiệu đính, v.v... và tôi sợ rằng điều này đã khiến tôi quá lười để thử công cụ mới. Không còn nữa, giờ tôi dùng Claude Pro ngày càng nhiều cho soạn thảo, review nội dung, và các tác vụ viết khác.
- Tôi cũng thích cửa sổ ngữ cảnh dài hơn nhiều của Claude so với ChatGPT 4 (hiện tại cho đến khi GPT-4 Turbo được triển khai rộng rãi.)
Claude vẫn khá tệ với toán cơ bản. :P Ví dụ, tôi thường cần meta description cho mỗi bài blog (cho mục đích SEO) nên tôi viết kiểu này rất thường xuyên "Cho tôi 5 meta description khác nhau cho nội dung blog trên, với các phong cách khác nhau, mục đích khuyến khích người dùng click và đọc nội dung blog. Meta description phải có tối đa 140 ký tự, bao gồm dấu cách".
- Claude liên tục cho tôi meta description dài hơn nhiều, ngay cả sau khi yêu cầu rút ngắn.
- ChatGPT từng làm tác vụ này tốt nhưng không trong 4-6 tuần qua.

Lưu ý phụ: Tôi cũng nhận thấy gần đây, khi bạn yêu cầu ChatGPT viết toàn bộ bài viết, nó từ chối, điều mà tôi nghĩ là bước tiến tốt. Nó sẽ giúp giảm nội dung spam trực tuyến. Trước đây quá dễ để yêu cầu ChatGPT viết bài 4000 từ về một chủ đề cụ thể. Nó đưa dàn ý trước, xin ý kiến, rồi viết toàn bộ bài 4000 từ. Giờ nó không còn làm vậy nữa.

Về lập trình

ChatGPT (phiên bản web) dễ bị lạc trong các tác vụ lập trình, nó không thể nhớ code nó viết chỉ vài phút trước, trong cùng một phiên.
Nó không tuân theo hướng dẫn chi tiết để sửa lỗi code. Ví dụ, tôi cho nó toàn bộ code ứng dụng, rồi chia sẻ ví dụ từ dự án khác có chức năng tôi muốn thêm vào.
- Rồi tôi yêu cầu GPT-4 dùng ví dụ đó và sửa code cho ứng dụng của tôi. Phản hồi của nó sai đến mức không thể dùng được. Tôi cố dẫn ChatGPT về đúng hướng vài lần nhưng nó vẫn không làm được.
- Khi tôi lặp lại bài tập tương tự trên https://www.phind.com/, máy cho tôi chính xác những gì cần làm sau 1 lần thử. (Lưu ý: Tôi mới bắt đầu thử Phind nên chưa biết nó so với ChatGPT cho lập trình tổng thể như thế nào, nhưng ấn tượng đầu tiên tốt cho Phind.)
- Với những ai thích chi tiết, ví dụ tôi cho ChatGPT là này. Tôi nói rằng tôi thích bước 6 trong ví dụ nơi model được yêu cầu đánh giá phản hồi xem nó có trả lời đầy đủ câu hỏi người dùng không. ChatGPT không thể dùng ví dụ này và sửa code ứng dụng của tôi để bao gồm chức năng này.

# Step 6: Ask the model if the response answers the initial user query well
    user_message = f"""
    Customer message: \{delimiter\}\{user_input\}\{delimiter\}
    Agent response: \{delimiter\}\{final_response\}\{delimiter\}

    Does the response sufficiently answer the question?
    """
    messages = [
        \{'role': 'system', 'content': system_message\},
        \{'role': 'user', 'content': user_message\}
    ]
    evaluation_response = get_completion_from_messages(messages)
    if debug: print("Step 6: Model evaluated the response.")

Khả năng debug giảm rõ rệt. :(

Khả năng suy luận của GPT-4 Turbo có vẻ kém hơn GPT-3.5 hoặc GPT-4

Tôi muốn nói gì?

Giống như nhiều người, tôi háo hức thử GPT-4 Turbo vì nó rẻ hơn nhiều so với GPT-4 và có cửa sổ ngữ cảnh dài hơn nhiều. Như đã đề cập, tôi không thể dùng GPT-4 API cho chatbot vì quá đắt. Gần đây tôi thêm bước tự đánh giá cho chatbot trước khi phản hồi hiển thị cho người dùng. Câu hỏi là "Phản hồi có trả lời đầy đủ câu hỏi người dùng không?"

GPT-4 Turbo liên tục thất bại ở bước này trong khi GPT-3.5 và GPT-4 hoạt động tốt. Tôi dùng cùng code và prompt. Thay đổi duy nhất là model API. Tôi đã test qua nhiều câu hỏi/prompt.

Vậy tôi dùng gì? Tiếp tục với GPT-3.5 cho đến khi khả năng "suy luận" của GPT-4 Turbo tốt hơn hoặc đáng tin cậy hơn.

Vậy tại sao tôi chia sẻ tất cả những điều này?

Dựa trên trải nghiệm thực tế hạn chế của tôi với ChatGPT và OpenAI API, tôi nghĩ vẫn còn rất nhiều cơ hội để cải thiện các model và chức năng này. Nếu bạn chỉ xem hội nghị nhà phát triển, bạn có thể cảm thấy OpenAI đang dẫn trước rất xa và không có cơ hội bắt kịp. Nhưng tôi nghĩ cuộc đua vẫn rất sôi động. Đúng, OpenAI có lợi thế khổng lồ vì họ đã "giải quyết" vấn đề phân phối nhờ tăng trưởng truyền miệng và quy mô hiện tại (100 triệu người dùng hoạt động hàng tuần). Nhưng nếu bạn có sản phẩm thực sự tốt hơn, bạn vẫn có cơ hội rất tốt để đạt quy mô lớn. Đây là các lĩnh vực cải thiện để tăng 10X hoặc 100x hiệu suất model theo hosts của No Priors:

1. Multi-modality (Đa phương thức)

2. Long context window (Cửa sổ ngữ cảnh dài)

3. Model customization (Tùy chỉnh model)

4. Memory: AI nhớ những gì nó đang làm

5. Recursion (Đệ quy)

6. AI router: các model nhỏ/chuyên biệt được điều khiển/phối hợp bởi model chính/lớn hơn.

Cuối cùng, dù giọng văn của bài viết này có vẻ khá tiêu cực, tôi vẫn là người dùng ChatGPT Plus và vẫn dùng OpenAI API cho chatbot blog này. :)

Tôi hy vọng trong vài tuần tới, khi GPT-4 Turbo chính thức ra mắt và tất cả vấn đề được OpenAI xử lý, chúng ta có thể lấy lại chất lượng tương tự. Ngoài ra, tôi nghi ngờ rằng họ đang gặp sụt giảm hiệu suất vì quá nhiều người đang dùng hoặc cố dùng API/phiên bản web.

Đó là tất cả từ tôi.

Bạn có nhận thấy vấn đề hiệu suất tương tự với ChatGPT Plus gần đây không? Và nếu có, bạn đã tìm được giải pháp thay thế tốt cho tác vụ lập trình chưa? Tôi đang thích Phind nhưng còn sớm :D

Thân mến,

Chandler

Hiệu suất suy giảm của ChatGPT Plus/GPT-4 trong 4-6 tuần qua?

Hiệu suất ChatGPT 4.0 giảm rõ rệt cho cả tác vụ viết lẫn lập trình trong 4-6 tuần qua

Về viết

Về lập trình

Khả năng suy luận của GPT-4 Turbo có vẻ kém hơn GPT-3.5 hoặc GPT-4

Vậy tại sao tôi chia sẻ tất cả những điều này?

Đọc tiếp

Tôi gian lận: Sydney giờ có thể đọc phần narrative trong báo cáo 10-K

S&P500 Agent MVP ra mắt: Trả lời câu hỏi tài chính dựa trên dữ liệu SEC

Nâng cấp chatbot hiện tại của tôi

Chatbot v2.10 ra mắt: Nâng cao trải nghiệm người dùng với tốc độ, khả năng mở rộng và sự đơn giản

Cách tôi thoát khỏi vũng lầy lập trình nhờ AI Agent

Một năm sau: Thói quen tìm kiếm của tôi xác nhận sự trỗi dậy của trợ lý AI và tương lai đang thay đổi của SEO