Menghubungkan Titik-Titik: "Masa Depan Kerja dengan AI" dan Makalah Teknis GPT 4

Sekitar lima minggu lalu, saya menulis artikel untuk membuat beberapa tebakan terdidik tentang bagaimana fungsionalitas OpenAI & ChatGPT dapat diintegrasikan ke Microsoft Office 365. Kemarin, selama acara "The future of work with AI" oleh Microsoft, mereka menunjukkan iterasi awal bagaimana integrasi teknologi OpenAI (lebih tepatnya Large language model) dengan Office 365 dan Microsoft Graph dapat bekerja.

Awal pekan ini, OpenAI juga secara publik memperkenalkan GPT4. Jika Anda belum menonton video live stream-nya, saya sarankan untuk menontonnya. Video itu menunjukkan apa lagi yang bisa dilakukan GPT4 dan bagaimana kemampuan ini akan segera diintegrasikan ke ekosistem Microsoft, mengingat hubungannya dengan OpenAI.

Dalam posting blog ini, saya akan berbagi reaksi saya terhadap apa yang bisa dilakukan Microsoft 365 Copilot lalu mendalami makalah teknis GPT 4, terutama tentang risiko dan keamanan. Jika Anda ingin membaca tentang risiko "Potensi perilaku yang muncul yang berisiko" (seperti perencanaan jangka panjang, pencarian kekuasaan, dan perilaku yang semakin "agentik"), Anda bisa menggunakan daftar isi dan langsung ke bagian itu di bawah.

Berbagai kemampuan Copilot

Semua kasus penggunaan yang saya sebutkan di posting asli ada di video demo Microsoft dan lebih banyak lagi. Anda bisa menonton berbagai kemampuan Copilot di bawah ini:

Copilot di Excel
Outlook alias Email
Copilot di meeting Teams
Copilot rekap meeting
Copilot di Powerpoint

Dua kemampuan/produk yang mengejutkan saya dan sangat saya sukai adalah:

Business chat: ini bisa sangat berguna karena, di organisasi besar, satu masalah konstan adalah transfer pengetahuan dan manajemen pengetahuan. Jika saya memahami demo dengan benar, sekarang Anda bisa meminta chatbot bisnis untuk menemukan informasi untuk Anda di seluruh data organisasi menggunakan bahasa natural dan itu luar biasa! Ini seperti chatGPT tapi menggunakan semua data enterprise Anda
Solusi low code menggunakan AI: pengguna bisa mewujudkan ide menggunakan bahasa natural. Ini cara yang bagus untuk mendemokratisasi kemampuan membuat aplikasi skala kecil untuk mengotomatisasi tugas tertentu. Tidak perlu mengajukan proposal ke atasan Anda, atau tim engineering, melewati proses prioritas untuk mendapatkan persetujuan dan dibangun. Dengan solusi low code, lebih banyak orang bisa membangun aplikasi kecil, menggunakan data enterprise untuk menyelesaikan masalah niche mereka :)

Apakah Anda merasa kita bergerak terlalu cepat?

Makalah teknis GPT 4 ada di sini. Saya harus mengakui, ini adalah dokumen yang cukup padat untuk pembaca non-teknis (seperti saya) tapi saya ingin mengarahkan perhatian Anda ke halaman 4 - 20 di mana OpenAI membahas berbagai tantangan keamanan. Saya menghabiskan cukup banyak waktu membaca bagian ini dan menurut saya layak dibaca. Contoh risiko yang mulai mereka eksplorasi adalah:

Halusinasi
Konten berbahaya
- Bahaya representasi, alokasi, dan kualitas layanan
- Disinformasi dan operasi pengaruh
Proliferasi senjata konvensional dan non-konvensional
Privasi
Keamanan siber
Potensi perilaku yang muncul yang berisiko
Dampak ekonomi
Akselerasi
Ketergantungan berlebihan

Berikut adalah ringkasan chatGPT 4 tentang masing-masing risiko dari makalah teknis dan komentar saya.

Halusinasi

Ringkasan: Potensi GPT-4 untuk "berhalusinasi," yang berarti menghasilkan konten yang tidak masuk akal atau tidak benar dalam kaitannya dengan sumber tertentu.

Seiring model-model ini menjadi semakin meyakinkan dan dapat dipercaya, pengguna mungkin menjadi terlalu bergantung padanya, yang bisa sangat berbahaya. Artikel ini membahas metode yang digunakan untuk mengukur potensi halusinasi GPT-4 dalam konteks domain tertutup dan terbuka, dan bagaimana model dilatih untuk mengurangi kecenderungannya berhalusinasi. Evaluasi internal menunjukkan bahwa GPT-4 berkinerja secara signifikan lebih baik daripada model GPT-3.5 terbaru dalam menghindari halusinasi domain terbuka (peningkatan 19%) dan domain tertutup (peningkatan 29%).

Komentar saya: Ini berarti chatGPT 4 seharusnya lebih baik dalam meringkas konten dari dokumen (yaitu situasi domain tertutup)

Bahaya representasi, alokasi, dan kualitas layanan

Ringkasan: Artikel menyatakan bahwa model bahasa seperti GPT-4 dapat memperkuat bias dan melanggengkan stereotip, karena terus memperkuat bias sosial dan pandangan dunia. Proses evaluasi menemukan bahwa GPT-4 memiliki potensi untuk mereproduksi bias dan pandangan dunia tertentu, termasuk asosiasi stereotip yang berbahaya dan merendahkan untuk kelompok marginal tertentu. Beberapa jenis bias dapat dimitigasi melalui pelatihan penolakan, tapi penting untuk dicatat bahwa penolakan dan mitigasi lainnya juga dapat memperburuk bias dalam beberapa konteks. Selain itu, sistem AI seperti GPT-4 memiliki potensi untuk memperkuat seluruh ideologi, pandangan dunia, kebenaran, dan ketidakbenaran, dan mengokohkan atau menguncinya, tanpa kerja antisipatif untuk mengatasi bagaimana mengatur sistem ini secara adil dan berbagi akses secara setara.

Anda bisa melihat beberapa contoh di bawah dari makalah tersebut.

Disinformasi dan operasi pengaruh

Ringkasan: Artikel membahas bagaimana GPT-4 dapat menghasilkan konten yang realistis dan tertarget secara meyakinkan, termasuk artikel berita, tweet, dialog, dan email.

Kemampuan ini bisa disalahgunakan untuk mengeksploitasi individu atau untuk disinformasi dan operasi pengaruh. Kinerja GPT-4 dalam tugas bahasa terkait menjadikannya lebih baik dari GPT-3 dalam menghasilkan konten yang menyesatkan tapi persuasif, meningkatkan risiko bahwa aktor jahat bisa menggunakannya untuk membuat konten menyesatkan dan membentuk pandangan epistemik masyarakat di masa depan. Artikel mencatat bahwa GPT-4 dapat menyaingi propagandis manusia di banyak domain, terutama jika bekerja sama dengan editor manusia, tapi halusinasi dapat mengurangi efektivitasnya bagi propagandis di area di mana keandalan itu penting. GPT-4 juga mampu menghasilkan konten diskriminatif yang menguntungkan pemerintah otokratis di berbagai bahasa. Membanjirnya informasi palsu dari model bahasa berpotensi menimbulkan keraguan terhadap seluruh lingkungan informasi, mengancam kemampuan kita membedakan fakta dari fiksi, yang bisa secara tidak proporsional menguntungkan mereka yang mendapat keuntungan dari ketidakpercayaan yang meluas.

Komentar saya: Saya tidak yakin berapa banyak orang yang akan membaca makalah teknis dari OpenAI atau benar-benar membaca bagian lampiran tentang risiko ini. Saya senang bahwa OpenAI relatif transparan tentang risiko dan apa yang mereka lakukan untuk memitigasinya, termasuk membicarakannya di makalah ini. Namun, ini tetap membuat saya merinding dan banyak bahan pemikiran.

Proliferasi Senjata Konvensional dan Non-Konvensional

Ringkasan: Artikel membahas bagaimana kemampuan GPT-4 memiliki potensi dual-use dan dapat digunakan untuk aplikasi komersial dan militer, termasuk pengembangan, akuisisi, dan penyebaran senjata nuklir, radiologis, biologis, dan kimia.

Pengujian red team menemukan bahwa GPT-4 dapat menghasilkan informasi yang sulit ditemukan dan mempersingkat waktu yang dihabiskan pengguna untuk riset, menjadikannya berpotensi berguna bagi individu dan aktor non-negara tanpa pelatihan ilmiah formal. Model ini dapat memberikan informasi umum tentang jalur proliferasi umum dan menyarankan target publik yang rentan, langkah keamanan, dan komponen fundamental yang diperlukan untuk merekayasa perangkat dispersi radiologis atau zat biokimia. Namun, output model seringkali terlalu samar, tidak praktis, atau rentan terhadap kesalahan faktual yang bisa menyabotase atau menunda pelaku ancaman. Artikel mencatat bahwa informasi yang tersedia online tidak cukup spesifik untuk mereproduksi zat dual-use.

Privasi

Ringkasan: Penting untuk dicatat bahwa masih ada potensi risiko terhadap privasi meskipun upaya-upaya ini telah dilakukan. Misalnya, bahkan jika informasi pribadi dihapus dari dataset pelatihan, model mungkin masih dapat menyimpulkan informasi pribadi melalui pola yang dipelajarinya. Selain itu, bahkan jika model di-fine-tune untuk menolak permintaan tertentu, mungkin masih mungkin menemukan cara untuk melewati batasan ini. Oleh karena itu, pemantauan dan upaya mitigasi yang berkelanjutan sangat penting untuk memastikan bahwa penggunaan GPT-4 tidak melanggar hak privasi.

Keamanan Siber

Ringkasan: Konten ini membahas kemampuan GPT-4 dalam operasi keamanan siber, khususnya dalam penemuan dan eksploitasi kerentanan, dan social engineering. Disorot bahwa GPT-4 memiliki beberapa keterbatasan di area ini, termasuk kecenderungannya menghasilkan "halusinasi" dan konteks jendela yang terbatas. Meskipun bisa berguna dalam sub-tugas tertentu dari social engineering dan dalam mempercepat beberapa aspek operasi siber, ia tidak meningkatkan tools yang sudah ada untuk reconnaissance, eksploitasi kerentanan, dan navigasi jaringan, dan kurang efektif dibanding tools yang ada untuk aktivitas kompleks dan tingkat tinggi seperti identifikasi kerentanan baru.

Potensi perilaku yang muncul yang berisiko

Ringkasan: Artikel membahas potensi risiko yang terkait dengan munculnya kemampuan baru di GPT-4, seperti perencanaan jangka panjang, pencarian kekuasaan, dan perilaku yang semakin "agentik". Alignment Research Center (ARC) diberikan akses awal untuk menilai risiko perilaku pencarian kekuasaan dalam model, khususnya kemampuannya untuk secara otonom bereplikasi dan memperoleh sumber daya. Tes awal menemukan bahwa GPT-4 tidak efektif dalam replikasi otonom tanpa fine-tuning spesifik tugas. ARC akan melakukan eksperimen lebih lanjut yang melibatkan versi final model dan fine-tuning mereka sendiri untuk menentukan kemampuan berisiko yang muncul.

Artikel membahas kebutuhan untuk memahami bagaimana GPT-4 berinteraksi dengan sistem lain untuk mengevaluasi potensi risiko dalam konteks dunia nyata. Red teamer mengevaluasi penggunaan GPT-4 yang diperkuat dengan tools lain untuk mencapai tugas yang bisa bersifat adversarial, seperti menemukan bahan kimia alternatif yang bisa dibeli. Artikel menekankan kebutuhan untuk mengevaluasi dan menguji sistem AI yang kuat dalam konteks untuk munculnya loop umpan balik sistem-sistem atau manusia-sistem yang berpotensi berbahaya. Juga menyoroti risiko yang diciptakan oleh pembuat keputusan berdampak tinggi yang independen yang bergantung pada bantuan keputusan dari model seperti GPT-4, yang mungkin secara tidak sengaja menciptakan risiko sistemik yang sebelumnya tidak ada.

Komentar saya: Bagus bahwa OpenAI meminta red team untuk menyelidiki area ini. Tapi rasanya terlalu penting bagi Microsoft atau perusahaan lain untuk tidak merilis informasi publik tentang upaya mereka di area ini setiap kali mereka merilis model baru.

Dampak ekonomi

Ringkasan: Artikel membahas dampak potensial GPT-4 pada ekonomi dan tenaga kerja, termasuk potensi perpindahan pekerjaan dan perubahan dalam organisasi industri dan struktur kekuasaan. Dicatat bahwa meskipun AI dan model generatif dapat menambah pekerja manusia dan meningkatkan kepuasan kerja, pengenalan mereka secara historis meningkatkan ketimpangan dan memiliki dampak yang berbeda pada kelompok yang berbeda. Artikel menekankan kebutuhan untuk memperhatikan bagaimana GPT-4 diterapkan di tempat kerja dari waktu ke waktu dan memantau dampaknya. Artikel juga membahas potensi GPT-4 untuk mempercepat pengembangan aplikasi baru dan laju keseluruhan pengembangan teknologi. Artikel diakhiri dengan menyoroti investasi penulis dalam upaya memantau dampak GPT-4, termasuk eksperimen kinerja pekerja dan survei pengguna dan perusahaan yang membangun di atas teknologi ini.

Akselerasi

Ringkasan: Artikel membahas kekhawatiran OpenAI tentang dampak potensial GPT-4 pada ekosistem riset dan pengembangan AI yang lebih luas, termasuk risiko dinamika akselerasi yang mengarah pada penurunan standar keamanan dan risiko sosial yang terkait dengan AI.

Untuk lebih memahami risiko akselerasi, OpenAI merekrut peramal ahli untuk memprediksi bagaimana berbagai fitur deployment GPT-4 dapat memengaruhi risiko akselerasi. Artikel mencatat bahwa menunda deployment GPT-4 selama enam bulan dan mengambil strategi komunikasi yang lebih tenang dapat mengurangi risiko akselerasi.

Artikel juga membahas evaluasi yang dilakukan untuk mengukur dampak GPT-4 pada stabilitas internasional dan mengidentifikasi faktor struktural yang mengintensifkan akselerasi AI. Artikel diakhiri dengan menyatakan bahwa OpenAI masih bekerja untuk meneliti dan mengembangkan estimasi akselerasi yang lebih andal.

Ketergantungan berlebihan

Ringkasan: Artikel membahas risiko ketergantungan berlebihan pada GPT-4, di mana pengguna terlalu mempercayai dan bergantung pada model, yang berpotensi menyebabkan kesalahan yang tidak terdeteksi dan pengawasan yang tidak memadai. Artikel mencatat bahwa ketergantungan berlebihan adalah mode kegagalan yang kemungkinan meningkat seiring kemampuan dan jangkauan model.

Untuk memitigasi ketergantungan berlebihan, artikel merekomendasikan agar pengembang menyediakan dokumentasi terperinci kepada pengguna akhir tentang kemampuan dan keterbatasan sistem, berhati-hati dalam cara mereka merujuk model/sistem, dan mengkomunikasikan pentingnya mengevaluasi output model secara kritis.

Artikel juga membahas perubahan tingkat model yang telah dilakukan OpenAI untuk mengatasi risiko ketergantungan berlebihan dan kurang bergantung, termasuk menyempurnakan perilaku penolakan model dan meningkatkan steerability. Namun, artikel mencatat bahwa GPT-4 masih menampilkan kecenderungan untuk berhati-hati dalam responsnya, yang mungkin secara tidak sengaja mendorong ketergantungan berlebihan.

CEO dan CTO OpenAI tentang risiko

Beberapa hari lalu, ABC News menerbitkan wawancara dengan CEO Open AI Sam Altman dan CTO saat itu Mira Murati. (Catatan: Mira Murati meninggalkan OpenAI pada September 2024.) Mereka banyak berbicara tentang risiko, dan Anda bisa menonton videonya di bawah

https://www.youtube.com/watch?app=desktop&v=540vzMlf-54

Kesimpulan

Integrasi model bahasa OpenAI di Microsoft Office 365 menyimpan potensi besar untuk meningkatkan produktivitas, transfer pengetahuan, dan otomatisasi di berbagai industri. GPT 4 tidak diragukan lagi jauh lebih mampu dari versi sebelumnya. Namun, yang paling mengejutkan saya adalah kecepatan OpenAI dan Microsoft mendorong maju — dan ini menyebabkan akselerasi keseluruhan pengembangan dan adopsi AI. Saya umumnya optimis tentang perkembangan AI, tapi menurut saya kita perlu memastikan bahwa diskusi tentang berbagai risiko menjadi arus utama. Saya mungkin salah, tapi rasanya laju pengembangan melampaui kemampuan kita untuk memikirkan implikasinya.

Bagaimana menurut Anda — apakah kita bergerak terlalu cepat dengan AI, atau ini laju yang tepat? Saya ingin mendengar perspektif Anda tentang ini.

Salam,

Chandler