지난 4-6주간 chatGPT Plus/GPT-4의 성능 저하?
4-6주에 걸쳐 GPT-4의 성능이 급격히 저하되는 것을 경험했습니다 — 결국 Claude Pro를 결제하게 되었습니다. 무엇이 문제이고 어떤 대안이 실제로 효과가 있는지 정리했습니다.
이 글은 2023에 작성되었습니다. 이후 일부 내용이 달라졌을 수 있습니다.
AI 분야를 밀접하게 따라오셨다면, 이번 주 초 OpenAI 첫 번째 개발자 컨퍼런스를 읽거나 시청하셨을 것입니다. 현재 제품 사용 관점과 새로운 제품 발표 관점 모두에서 그들이 발표한 내용에 놀라지 않기 어렵습니다.
이 글은 그것에 대한 것이 아닙니다. 지난 4-6주간의 최근 성능 저하에 대한 것입니다. 이것은 순전히 제 개인적인 경험에 기반한 것입니다. (아니요, 이에 대해 과학적 연구를 하지는 않았습니다.)
TL;DR은 다음과 같습니다:
- chatGPT 4.0(웹 버전)의 성능이 지난 4-6주간 글쓰기와 코딩 작업 모두에서 눈에 띄게 저하되었습니다.
- GPT-4 Turbo의 추론 능력이 GPT-3.5나 GPT-4보다 떨어지는 것 같습니다.
- 저는 여전히 chatGPT plus 구독자이며 제 챗봇에 OpenAI API를 사용하고 있습니다.
더 자세히 공유하겠습니다.
chatGPT 4.0 성능이 지난 4-6주간 글쓰기와 코딩 작업에서 눈에 띄게 저하됨
chatGPT plus 웹 인터페이스를 매일 사용하는 사람으로서, 성능 문제를 뼈저리게 느낄 수 있습니다. 특히 지난 4-6주간 그렇습니다. 증상은 무엇인가요?
글쓰기
- 글쓰기 품질(특히 톤 오브 보이스와 상세한 지시를 따르는 능력)이 눈에 띄게 저하되었습니다.
- 글쓰기에 대한 수정 요청을 반복적으로 따르지 못합니다. Anthropic의 Claude Pro 결제를 시작할 정도로 심각해졌습니다.
- 지난 1년간 글쓰기, 교정 등에 ChatGPT를 광범위하게 의존하는 습관을 들였고, 이것이 저를 너무 게으르게 만들어 새 도구를 시도하지 않게 한 것은 아닌지 걱정했습니다. 이제 더 이상 아닙니다. 이제 초안 작성, 콘텐츠 리뷰 및 기타 글쓰기 작업에 Claude Pro를 점점 더 많이 사용하고 있습니다.
- Claude의 훨씬 긴 컨텍스트 윈도우도 chatGPT 4보다 좋습니다(GPT-4 turbo가 널리 출시될 때까지는).
- 하지만 Claude는 기본적인 수학에서 아직 꽤 약합니다. :P 예를 들어, 각 블로그 게시물의 메타 디스크립션(SEO 목적)이 자주 필요해서 이런 식으로 자주 작성합니다: "위 블로그 게시물 콘텐츠에 대해 5개의 다른 메타 디스크립션을 다른 스타일로 작성해 주세요. 사용자가 클릭하고 블로그 게시물을 읽도록 유도하는 목적으로요. 메타 디스크립션은 공백 포함 최대 140자여야 합니다".
- Claude는 반복적으로 훨씬 긴 메타 디스크립션을 제공했으며, 줄이라고 말해도 마찬가지였습니다.
- ChatGPT는 이전에 이 작업을 잘 수행했지만 지난 4-6주간은 그렇지 않습니다.
참고: 최근 chatGPT에게 전체 기사를 대신 써달라고 하면 거부하는 것도 눈치챘는데, 이것은 좋은 방향이라고 생각합니다. 온라인 스팸성 콘텐츠를 줄이는 데 도움이 될 것입니다. 이전에는 특정 주제에 대해 4000단어 기사를 써달라고 하기가 너무 쉬웠습니다. 먼저 아웃라인을 제시하고 피드백을 구한 후 전체 4000단어 기사를 작성했습니다. 더 이상 그렇게 하지 않습니다.
코딩
- chatGPT(웹 버전)는 코딩 작업에서 쉽게 혼란에 빠집니다. 같은 세션에서 불과 몇 분 전에 작성한 코드를 기억하지 못하는 것 같습니다.
- 코딩 문제 수정을 위한 상세한 지시를 따르지 못합니다. 예를 들어, 제 애플리케이션의 전체 코드를 제공하고, 포함하고 싶은 기능이 있는 다른 프로젝트의 예시를 공유했습니다.
- 그런 다음 GPT 4에게 예시를 사용해 제 애플리케이션 코드를 수정하라고 요청했습니다. 응답이 너무 빗나가서 전혀 쓸모가 없었습니다. chatGPT를 올바른 방향으로 몇 번 유도해 보았지만 여전히 못했습니다.
- 같은 작업을 https://www.phind.com/ 에서 반복했더니, 기계가 1번 만에 정확히 필요한 것을 제공했습니다. (주의: Phind를 이제 막 사용해 보기 시작했으므로 전반적으로 코딩에서 chatGPT 대비 어떻게 수행하는지는 아직 모르지만, 첫인상은 Phind에 좋습니다.)
- 구체적인 내용을 좋아하시는 분들을 위해, chatGPT에 제공한 예시는 이것입니다. 예시의 6단계에서 모델이 사용자의 질의에 충분히 답했는지 자체 응답을 평가하는 부분이 마음에 든다고 말했습니다. chatGPT는 이 예시를 사용해 제 애플리케이션 코드를 수정하고 이 기능을 포함하는 데 실패했습니다.
# Step 6: Ask the model if the response answers the initial user query well
user_message = f"""
Customer message: \{delimiter\}\{user_input\}\{delimiter\}
Agent response: \{delimiter\}\{final_response\}\{delimiter\}
Does the response sufficiently answer the question?
"""
messages = [
\{'role': 'system', 'content': system_message\},
\{'role': 'user', 'content': user_message\}
]
evaluation_response = get_completion_from_messages(messages)
if debug: print("Step 6: Model evaluated the response.")
- 디버깅 능력이 눈에 띄게 저하되었습니다. :(
GPT-4 Turbo의 추론 능력이 GPT-3.5나 GPT-4보다 떨어지는 것 같습니다
무슨 뜻인가요?
많은 사람들과 마찬가지로, GPT-4보다 훨씬 저렴하고 훨씬 긴 컨텍스트 윈도우를 가진 GPT-4 Turbo를 사용해 보고 싶었습니다. 앞서 언급했듯이, 제 챗봇에 GPT-4 API를 사용할 수 없었습니다. 너무 비쌌기 때문입니다. 최근 사용자에게 답변을 보여주기 전에 챗봇의 자체 평가 단계를 구현했습니다. 질문은 "응답이 사용자의 질문에 충분히 답하는가?"입니다.
GPT-4 Turbo는 이 단계에서 반복적으로 실패하는 반면 GPT-3.5와 GPT-4는 잘 수행합니다. 동일한 코드와 프롬프트를 사용하고 있습니다. 유일한 변경은 API 모델입니다. 여러 질문/프롬프트에 걸쳐 테스트했습니다.
그래서 결국 무엇을 사용했나요? GPT-4 Turbo의 "추론" 능력이 더 좋아지거나 안정될 때까지 당분간 GPT-3.5를 계속 사용합니다.
그래서 왜 이 모든 것을 공유하나요?
chatGPT와 OpenAI API를 다룬 제한된 실제 경험을 바탕으로, 이러한 모델과 기능을 개선할 기회가 아직 매우 많다고 생각합니다. 개발자 컨퍼런스만 보면 OpenAI가 다른 모든 경쟁자보다 훨씬 앞서 있어 따라잡을 기회가 없다고 느낄 수 있습니다. 하지만 경쟁은 여전히 매우 치열하다고 생각합니다. 네, OpenAI는 입소문 성장과 현재 규모(주간 활성 사용자 1억 명)를 감안할 때 유통 문제를 "해결"했기에 거대한 선두를 가지고 있습니다. 하지만 진정으로 더 나은 제품이 있다면 대규모 성장을 달성할 매우 좋은 기회가 있습니다. No priors 진행자에 따르면, 모델 성능을 10배 또는 100배 향상시키기 위한 개선 영역은 다음과 같습니다:
1. 멀티모달리티
2. 긴 컨텍스트 윈도우
3. 모델 커스터마이제이션
4. 메모리: AI가 하고 있던 것을 기억함
5. 재귀
6. AI 라우터: 메인/큰 모델이 더 작은/전문화된 모델을 제어/오케스트레이션
마지막으로, 이 블로그 게시물의 톤이 다소 부정적으로 보일 수 있지만, 저는 여전히 chatGPT plus 구독자이며 이 블로그 챗봇에 OpenAI API를 여전히 사용하고 있습니다. :)
앞으로 몇 주 안에 GPT-4 Turbo가 공식 출시되고 모든 문제가 OpenAI에 의해 해결되면서 같은 품질을 되찾을 수 있기를 바랍니다. 또한 너무 많은 사람들이 API/웹 버전을 사용하거나 사용하려고 하기 때문에 이러한 성능 저하를 경험하고 있는 것이 아닐까 의심합니다.
여기까지입니다.
최근 chatGPT Plus에서 비슷한 성능 문제를 경험하셨나요? 그리고 그렇다면 코딩 작업에 좋은 대안을 찾으셨나요? 저는 Phind이 지금까지 마음에 들지만 아직 초기입니다 :D
감사합니다,
Chandler





