Reaksi terhadap "Bing AI Can't Be Trusted"

Saya menemukan artikel ini hari ini Bing AI can't be trusted, dan tentu saja, ini memicu ketertarikan saya. Ini adalah artikel bagus yang penuh dengan fact-check untuk menunjukkan bahwa Bing chat yang baru menyertakan banyak fakta karangan tentang informasi faktual. Postingannya relatif pendek, jadi silakan baca langsung.

Jadi beberapa reaksi cepat dari saya:

Kaget dan tidak kaget pada saat bersamaan

Saya secara umum mengetahui keterbatasan large language model (LLM) yang mana chatGPT adalah salah satunya. Tiga keterbatasan utamanya adalah:

Model ini tidak mengindeks web di luar data teks (seperti video, audio, gambar, dll…)
Dataset chatGPT sudah sangat lama (2021)
Model-model ini mengarang kata-kata karena mereka tidak tahu sumber informasi mana yang lebih otoritatif/terpercaya dari yang lain.

Jadi saya berharap bahwa dengan integrasi Bing & OpenAI, mesin pencari Bing bisa mengatasi semua keterbatasan di atas. Yah, sepertinya berdasarkan artikel Dmitri, Bing belum menyelesaikannya. Masih jauh dari itu.

Fact-check artikel itu lagi

Tidak bagus juga kalau apa yang disebutkan Dmitri ternyata tidak akurat secara faktual. Jadi saya melanjutkan dan melakukan beberapa fact-check sendiri. Saya mulai dengan laporan keuangan Gap karena sepertinya paling mudah untuk diperiksa. Saya menyertakan sumber dan screenshot di bawah supaya kamu tidak perlu mengulangi latihan ini:

Ini adalah rilis pendapatan Q3 2022 Gap.
Saya mengambil screenshot di bawah dari laporan Gap dan meng-highlight angka-angka kunci dengan warna merah. Dmitri benar, Bing chat mengarang angka-angka seperti adjusted gross margin, operating margin, dll…

Bagaimana dengan angka-angka Lululemon?

Ini adalah laporan keuangan Q3 2022 Lululemon. Sama, saya meng-highlight angka-angka kunci yang disebutkan dalam artikel Dmitri di screenshot di bawah. Dia benar, Bing search mengarang angka-angka.

Mengenai itinerary Mexico City, saya bukan ahli di topik ini, jadi saya tidak bisa melakukan fact-check dengan cermat. Misalnya, ketika saya mencari "Primer Nivel Night Club - Antro", saya menemukan halaman Facebook ini. Tapi saya tidak punya cara untuk memverifikasi dengan kepastian 100% apakah saran dari Bing Search valid atau tidak.

Lalu apa selanjutnya?

Tampak jelas bahwa pada saat ini, integrasi Bing & OpenAI belum mampu memperbaiki masalah large language model (LLM) yang suka mengarang seenaknya.

Saya tidak cukup teknis untuk memahami seberapa sulit menyelesaikan masalah ini. Kalau sudah seakurat ini salahnya dengan data faktual, kita perlu berhati-hati dengan topik yang lebih subjektif seperti restoran/tukang ledeng/layanan lokal terbaik, keuangan pribadi, kesehatan, hubungan, dll.

Sekarang untuk bersikap adil terhadap Bing dan OpenAI, mereka memang mengatakan selama presentasi bahwa mereka memahami bahwa teknologi baru ini bisa salah dalam banyak hal, jadi mereka mendesain antarmuka "thumb up/thumb down" supaya pengguna bisa memberikan feedback dengan mudah. Semoga, dengan lebih banyak feedback pengguna, mesinnya akan menjadi lebih baik.

Algoritma untuk fact-check output LLM?

Karena LLM sering menghasilkan output yang salah, bagaimana kalau membuat algoritma untuk fact-check output tersebut secara terus-menerus? Ini mirip dengan apa yang Microsoft bicarakan tentang algoritma keamanan yang mereka bangun ke dalam Prometheus, mensimulasikan prompt dari aktor jahat ke mesin.

Peran manusia

Teknologi ini sepertinya masih di tahap awal, dan meskipun kemajuannya eksponensial, peran manusia sangat kritis. Kita belum bisa mempercayai outputnya, bahkan dengan integrasi Bing & OpenAI. Mesin bisa membantu kita dengan 50% dari hasil yang diinginkan (kurang lebih), tapi kita perlu memasukkan 50% sisanya.

Sepertinya ada cukup waktu bagi kita untuk menyesuaikan diri, mempelajari kelebihan dan keterbatasan teknologi ini, dan menggunakannya secara efektif.

Bagi para engineer yang mendesain sistem ini, kalian mungkin perlu melakukan pekerjaan yang lebih baik dalam menyorot kepada pengguna akhir titik data dan kalimat yang mesin tidak yakin tentangnya. Otak manusia kita suka jalan pintas jadi saya yakin banyak dari kita (termasuk saya sendiri) akan mengambil jalan malas dan menerima apa yang dikatakan mesin sebagai kebenaran :P Sulit bagi kita untuk selalu waspada 100% sepanjang waktu.

Pernahkah kamu menemukan jawaban yang dihasilkan AI yang salah tapi penuh percaya diri? Saya ingin mendengar contohmu — semakin spesifik, semakin baik.

Salam,

Chandler

Reaksi terhadap "Bing AI Can't Be Trusted"

Kaget dan tidak kaget pada saat bersamaan

Fact-check artikel itu lagi

Lalu apa selanjutnya?

Algoritma untuk fact-check output LLM?

Peran manusia

Lanjutkan Membaca

Potensi Dampak Chat terhadap SEO dan Publisher: Retrospektif Tiga Bulan

Potensi Peran Kecerdasan Buatan dalam Membentuk Geopolitik Modern: Perspektif Seimbang dengan Contoh Dunia Nyata

Menghubungkan Titik-Titik: "Masa Depan Kerja dengan AI" dan Makalah Teknis GPT 4

Saya sudah melihat iterasi pertama iklan di Bing Chat, dan begini tampilannya

Potensi Dampak Chat terhadap Pendapatan Paid Search dan SEO

Melangkah ke Masa Depan: Integrasi OpenAI & ChatGPT dengan Office 365