Skip to content
··2분 읽기

"Bing AI를 신뢰할 수 없다"에 대한 반응

Bing AI가 재무 데이터를 조작한다는 팩트체커의 주장을 제가 직접 팩트체크해 봤습니다 — 결과적으로 수치를 지어내는 문제는 실재하며 제가 바랐던 것보다 심각했습니다.

이 글은 2023에 작성되었습니다. 이후 일부 내용이 달라졌을 수 있습니다.

오늘 Bing AI를 신뢰할 수 없다라는 기사를 접했고, 당연히 관심이 갔습니다. 새로운 Bing Chat이 사실적 정보에 대해 많은 날조된 사실을 포함하고 있음을 팩트체크로 보여주는 좋은 기사입니다. 비교적 짧은 글이니 직접 읽어보시기 바랍니다.

저의 몇 가지 빠른 반응입니다:

놀랍기도 하고 놀랍지 않기도 합니다

대규모 언어 모델(LLM)의 한계에 대해 일반적으로 알고 있으며, ChatGPT도 그 중 하나입니다. 세 가지 주요 한계는 다음과 같습니다:

  1. 텍스트 데이터 이외의 웹을 인덱싱하지 못합니다 (비디오, 오디오, 이미지 등)
  2. ChatGPT 데이터셋은 정말 오래되었습니다 (2021년)
  3. 이 모델들은 어떤 정보 출처가 다른 것보다 더 권위 있고 신뢰할 수 있는지 모르기 때문에 단어를 지어냅니다.

그래서 Bing & OpenAI 통합으로 Bing 검색 엔진이 위의 모든 한계를 해결할 수 있기를 바랐습니다. 글쎄요, Dmitri의 기사에 따르면 Bing은 아직 해결하지 못한 것 같습니다. 전혀요.

기사를 다시 팩트체크하기

Dmitri가 언급한 내용이 사실이 아니라면 그것도 좋지 않을 것입니다. 그래서 직접 몇 가지 팩트체크를 진행했습니다. Gap 재무제표로 시작했는데, 가장 직접적으로 확인할 수 있을 것 같았기 때문입니다. 이 과정을 반복하지 않아도 되도록 출처와 스크린샷을 아래에 포함합니다:

  • 이것은 Gap 2022년 3분기 실적 발표입니다.
  • 아래 Gap 보고서에서 스크린샷을 찍고 핵심 수치를 빨간색으로 강조했습니다. Dmitri가 옳았습니다. Bing Chat이 조정 매출총이익률, 영업이익률 등의 수치를 지어냈습니다.

bing chat got basic information from Gap financial statement wrong

Lululemon 수치는 어떨까요?

  • 이것은 Lululemon의 2022년 3분기 재무 보고서입니다. 마찬가지로 Dmitri의 기사에서 언급된 핵심 수치를 아래 스크린샷에서 강조했습니다. 그가 옳았습니다. Bing 검색이 수치를 지어냈습니다.

Bing chat gets the lululemon gross margin wrong feb 2023

Bing chat gets the lululemon operating margin wrong feb 2023

멕시코시티 여행 일정에 대해서는 이 주제의 전문가가 아니라서 신중하게 팩트체크할 수 없습니다. 예를 들어 "Primer Nivel Night Club - Antro"를 검색했을 때 이 Facebook 페이지를 찾았습니다. 하지만 Bing 검색의 제안이 유효한지 100% 확실하게 검증할 방법이 없습니다.

여기서 어디로 갈 수 있을까요?

현 시점에서 Bing & OpenAI 통합이 대규모 언어 모델(LLM)이 그냥 내용을 지어내는 문제를 아직 해결하지 못한 것은 분명해 보입니다.

이 문제를 해결하는 것이 기술적으로 얼마나 어려운지 이해할 만큼 기술적이지 않습니다. 사실적 데이터에서 이렇게 부정확하다면, 최고의 레스토랑/배관공/지역 서비스, 개인 재정, 건강, 관계 등과 같은 더 주관적인 주제에 대해서는 조심해야 합니다.

공정하게 말하자면, Bing과 OpenAI는 프레젠테이션 중에 새 기술이 많은 것을 틀릴 수 있다는 것을 이해한다고 말했고, 그래서 사용자가 쉽게 피드백을 줄 수 있도록 "좋아요/싫어요" 인터페이스를 설계했습니다. 사용자 피드백이 더 많아지면 기계가 더 나아지기를 바랍니다.

LLM 출력을 팩트체크하는 알고리즘?

LLM이 종종 잘못된 출력을 생성하므로, 출력을 지속적으로 팩트체크하는 알고리즘을 만드는 것은 어떨까요? 이것은 Microsoft가 Prometheus에 구축한 안전 알고리즘, 즉 악의적 행위자의 프롬프트를 기계에 시뮬레이션하는 것과 유사합니다.

microsoft Bing and OpenAI prevents misuse

인간의 역할

이 기술은 아직 초기 단계에 있는 것 같으며, 발전은 기하급수적이지만, 인간의 역할이 중요합니다. Bing & OpenAI 통합에도 불구하고 아직 출력을 신뢰할 수 없습니다. 기계가 원하는 결과의 50%(다소 차이는 있지만)를 도와줄 수 있지만, 나머지 50%는 우리가 투입해야 합니다.

우리가 이 기술의 강점한계적응하고 배우며 효과적으로 활용할 수 있는 충분한 시간이 있는 것 같습니다.

이런 시스템을 설계하는 엔지니어들에게는, 기계가 확신하지 못하는 데이터 포인트와 문장을 최종 사용자에게 더 잘 강조해 줄 필요가 있을 것 같습니다. 우리의 인간 두뇌는 지름길을 좋아하므로, 많은 사람들이(저 포함) 게으른 방법을 택하고 기계가 말하는 것을 진실로 받아들일 것이 확실합니다 :P 항상 100% 경계하기는 어렵습니다.

AI가 생성한 답변 중 자신 있게 틀린 것을 발견한 적이 있으신가요? 구체적인 예시를 들어주시면 좋겠습니다.

감사합니다,

Chandler

계속 읽기

나의 여정
연결
언어
환경설정