点と点をつなぐ：「AIと仕事の未来」とGPT 4テクニカルペーパー

約5週間前、OpenAI & ChatGPTの機能がMicrosoft Office 365にどのように統合されるかについて、いくつかの根拠ある推測を行う記事を書きました。昨日のMicrosoftによる「The future of work with AI」イベントで、OpenAI技術（より正確には大規模言語モデル）のOffice 365およびMicrosoft Graphとの統合が何をできるかの初期バージョンが示されました。

今週初め、OpenAIはGPT4も一般公開しました。ライブストリーム動画をまだ見ていない場合は、視聴をお勧めします。GPT4が他に何ができるか、そしてOpenAIとの関係を考えると、これらの機能がまもなくMicrosoftのエコシステムに統合されることがわかります。

このブログ記事では、Microsoft 365 Copilotの機能に対する私の反応を共有し、GPT 4テクニカルペーパーの特にリスクと安全性について深堀りします。「潜在的にリスクのある創発的行動」（長期計画、権力追求、ますます「エージェント的」な行動など）のリスクについて読みたい場合は、以下の目次を使ってそのパートに直接ジャンプできます。

異なるCopilot機能

元の記事で言及したすべてのユースケースがMicrosoftのデモ動画に含まれており、それ以上のものもあります。以下で異なるCopilot機能を視聴できます：

Copilot in Excel
Outlook（メール）
Copilot in Teamsミーティング
Copilot ミーティングレキャップ
Copilot in Powerpoint

驚いて特に気に入った2つの機能/製品：

Business Chat：大規模な組織では、ナレッジトランスファーとナレッジマネジメントが常に課題です。デモを正しく理解していれば、ビジネスチャットボットに自然言語を使って組織のすべてのデータから情報を見つけてもらうことができます。これは素晴らしいことです！これはchatGPTのようなものですが、すべてのエンタープライズデータを使用しています。
AIを使ったローコードソリューション：ユーザーは自然言語を使ってアイデアを実現できます。これは特定のタスクを自動化する小規模アプリを作成する能力を民主化する素晴らしい方法です。上司やエンジニアリングチームに提案を出し、優先順位付けプロセスを経て承認・構築される必要はありません。ローコードソリューションにより、より多くの人がエンタープライズデータを使用して、ニッチな問題を解決する小さなアプリを構築できます :)

速すぎると感じませんか？

GPT 4テクニカルペーパーはこちらです。正直に言うと、技術的でない読者（私自身のような）にとってはかなり密度の高いドキュメントですが、OpenAIがさまざまな安全性の課題について議論している4〜20ページに注目していただきたいです。このセクションをかなり時間をかけて読みましたが、読む価値があると思います。探究を始めたリスクの例：

ハルシネーション
有害コンテンツ
- 表現、配分、サービス品質の害
- 偽情報と影響力操作
通常兵器および非通常兵器の拡散
プライバシー
サイバーセキュリティ
潜在的にリスクのある創発的行動
経済的影響
加速
過度の依存

以下はテクニカルペーパーの各リスクについてのchatGPT 4の要約と私のコメントです。

ハルシネーション

要約：GPT-4が「ハルシネーション」する可能性について。つまり、特定の情報源に対して無意味または事実と異なるコンテンツを生成する可能性です。

これらのモデルがますます説得力を持ち信頼性が高くなるにつれ、ユーザーは過度に依存する可能性があり、これは特に有害になり得ます。記事はさらに、閉じたドメインと開いたドメインの両方のコンテキストでGPT-4のハルシネーションの可能性を測定するために使用された方法と、ハルシネーションする傾向を減らすためにモデルがどのようにトレーニングされたかについて議論しています。内部評価では、GPT-4は最新のGPT-3.5モデルと比較して、オープン（19%改善）およびクローズドドメインのハルシネーション（29%改善）の両方で大幅に優れたパフォーマンスを示しました。

私のコメント：これはchatGPT 4がドキュメントからのコンテンツの要約（つまりクローズドドメインの状況）でより優れているはずであることを意味します。

表現、配分、サービス品質の害

要約：記事は、GPT-4のような言語モデルが偏見を増幅し、ステレオタイプを永続化する可能性があると述べています。評価プロセスでは、GPT-4が特定の偏見や世界観を再現する可能性があり、特定の疎外されたグループに対する有害なステレオタイプ的で軽蔑的な関連付けが含まれることがわかりました。一部のタイプの偏見は拒否のトレーニングを通じて軽減できますが、拒否やその他の軽減策が一部のコンテキストで偏見を悪化させる可能性もあります。さらに、GPT-4のようなAIシステムは、イデオロギー全体、世界観、真実と虚偽を強化し、定着させたりロックしたりする可能性があり、これらのシステムを公平に統治し、アクセスを平等に共有する方法に対処するための事前の取り組みなしにはそうなりかねません。

以下はペーパーからのいくつかの例です。

偽情報と影響力操作

要約：記事は、GPT-4がニュース記事、ツイート、対話、メールなど、もっともらしくリアルでターゲットを絞ったコンテンツを生成できることについて議論しています。

この機能は個人の搾取や偽情報・影響力操作に悪用される可能性があります。関連する言語タスクにおけるGPT-4のパフォーマンスは、誤解を招くが説得力のあるコンテンツの生成においてGPT-3よりも優れており、悪意のある人々がそれを使って誤解を招くコンテンツを作成し社会の将来の認識論的見解を形作るリスクを高めています。GPT-4は多くの分野で人間のプロパガンダ担当者に匹敵できますが、特に人間の編集者と組み合わせた場合に顕著です。ただし、ハルシネーションは信頼性が重要な分野でプロパガンダ担当者にとってその有効性を低下させる可能性があります。GPT-4は複数の言語にわたって独裁的な政府に有利な差別的コンテンツを生成することもできます。言語モデルからの虚偽情報の氾濫は、情報環境全体に疑いを投げかけ、事実とフィクションを区別する能力を脅かす可能性があり、これは広範な不信から利益を得る人々に不均衡に利益をもたらす可能性があります。

私のコメント：OpenAIのテクニカルペーパーのリスクに関する付録部分を何人の人が読むかわかりません。OpenAIがリスクとその軽減策について比較的透明であること、このペーパーでそれらについて語っていることは嬉しく思います。しかし、これは依然として鳥肌が立ち、多くの考えさせられることがあります。

通常兵器および非通常兵器の拡散

要約：記事は、GPT-4の能力がデュアルユースの可能性を持ち、核、放射性、生物、化学兵器の開発、取得、拡散を含む商業および軍事の両方の用途に使用できることについて議論しています。

レッドチームテストでは、GPT-4が見つけにくい情報を生成し、ユーザーの研究に費やす時間を短縮できることがわかり、正式な科学トレーニングを受けていない個人や非国家主体にとって潜在的に有用です。モデルは一般的な拡散経路に関する一般的な情報を提供し、脆弱な公的ターゲット、セキュリティ対策、放射性拡散装置や生化学物質を設計するために必要な基本的コンポーネントを提案できます。しかし、モデルの生成はしばしばあいまいすぎ、非実用的であるか、脅威行為者を妨害または遅延させる可能性のある事実の誤りを含む傾向がありました。オンラインで入手可能な情報は、デュアルユース物質の再現に十分に具体的ではないと記事は指摘しています。

プライバシー

要約：これらの努力にもかかわらず、プライバシーへの潜在的なリスクは依然として存在します。例えば、個人情報がトレーニングデータセットから除去されていても、モデルは学習したパターンを通じて個人情報を推測できる可能性があります。さらに、モデルが特定のリクエストを拒否するようにファインチューニングされていても、これらの制限を回避する方法が見つかる可能性があります。そのため、GPT-4の使用がプライバシー権を侵害しないよう、継続的なモニタリングと軽減努力が不可欠です。

サイバーセキュリティ

要約：このコンテンツは、サイバーセキュリティオペレーション、特に脆弱性の発見と悪用、およびソーシャルエンジニアリングにおけるGPT-4の能力について議論しています。GPT-4にはこれらの分野でいくつかの制限があり、「ハルシネーション」を生成する傾向や限られたコンテキストウィンドウが含まれます。ソーシャルエンジニアリングの特定のサブタスクやサイバーオペレーションの一部の側面を加速するのに役立つ一方で、偵察、脆弱性の悪用、ネットワークナビゲーションにおいて既存のツールを改善せず、新規脆弱性の特定のような複雑で高レベルの活動に対しては既存のツールよりも効果が低いです。

潜在的にリスクのある創発的行動

要約：記事は、GPT-4における新しい能力の出現に関連する潜在的なリスク、例えば長期計画、権力追求、ますます「エージェント的」な行動について議論しています。Alignment Research Center（ARC）は、モデルの権力追求行動のリスク、特に自律的な複製とリソース獲得の能力を評価するために早期アクセスを与えられました。予備テストでは、GPT-4はタスク固有のファインチューニングなしでは自律的な複製において効果的ではないことがわかりました。ARCはモデルの最終バージョンと独自のファインチューニングを使って、創発的なリスクのある能力を判断するためにさらなる実験を行う予定です。

記事は、実際のコンテキストでの潜在的なリスクを評価するために、GPT-4が他のシステムとどのようにインタラクトするかを理解する必要性について議論しています。レッドチームのメンバーは、代替的で購入可能な化学物質を見つけるなど、敵対的な性質を持つ可能性のあるタスクを達成するために他のツールで強化されたGPT-4の使用を評価しました。記事は、潜在的に有害なシステム間またはヒューマン-システム間のフィードバックループの出現を評価しテストする必要性を強調しています。また、GPT-4のようなモデルの意思決定支援に依存する独立した高影響力の意思決定者によって作り出される、以前は存在しなかったシステミックリスクの可能性も強調しています。

私のコメント：OpenAIがレッドチームにこの分野の調査を依頼していることは良いことです。しかし、Microsoftや他の企業が新しいモデルをリリースするたびに、この分野での取り組みについて公開情報を出さないのは、あまりにも重要な問題です。

経済的影響

要約：記事は、雇用の置き換えや産業組織と権力構造の変化を含む、GPT-4の経済と労働力への潜在的な影響について議論しています。AIと生成モデルは人間の労働者を補完し仕事の満足度を向上させることができる一方、その導入は歴史的に不平等を増大させ、異なるグループに不均衡な影響を与えてきました。記事は、GPT-4が時間の経過とともに職場にどのように展開されるかに注意を払い、その影響をモニタリングする必要性を強調しています。また、GPT-4が新しいアプリケーションの開発や技術開発の全体的なペースを加速する可能性についても議論しています。

加速

要約：記事は、AIの研究開発エコシステム全体への潜在的な影響に対するOpenAIの懸念について議論しています。これには、加速ダイナミクスが安全基準の低下やAIに関連する社会的リスクにつながるリスクが含まれます。

加速リスクをよりよく理解するために、OpenAIはGPT-4の展開のさまざまな特徴が加速リスクにどのように影響するかを予測するために専門の予測者を招集しました。記事は、GPT-4の展開を6か月遅らせ、より控えめなコミュニケーション戦略を取ることで、加速リスクを減少させることができると指摘しています。

記事はまた、国際的な安定性に対するGPT-4の影響を測定し、AI加速を強化する構造的要因を特定するために行われた評価についても議論しています。記事は、OpenAIがより信頼性の高い加速推定の研究と開発にまだ取り組んでいると述べて締めくくっています。

過度の依存

要約：記事は、GPT-4への過度の依存のリスクについて議論しています。ユーザーがモデルを過度に信頼し依存することで、ミスが見過ごされ、監視が不十分になる可能性があります。過度の依存は、モデルの能力とリーチが向上するにつれて増加する可能性が高い失敗モードです。

過度の依存を軽減するために、記事は開発者がシステムの能力と制限に関する詳細なドキュメントをエンドユーザーに提供し、モデル/システムの参照方法に注意を払い、モデルの出力を批判的に評価することの重要性を伝えることを推奨しています。

記事はまた、OpenAIが過度の依存と過少依存の両方のリスクに対処するために行ったモデルレベルの変更についても議論しています。これにはモデルの拒否行動の改善やステアラビリティの強化が含まれます。しかし、GPT-4にはまだ回答をヘッジする傾向があり、これが不注意に過度の依存を助長する可能性があると記事は指摘しています。

OpenAI CEO、CTOのリスクに関する発言

数日前、ABC newsがOpen AI CEOのSam Altmanと当時CTOのMira Muratiへのインタビューを公開しました。（注：Mira Muratiは2024年9月にOpenAIを退社しました。） 彼らはリスクについて多く語っており、以下の動画でご覧いただけます。

https://www.youtube.com/watch?app=desktop&v=540vzMlf-54

まとめ

Microsoft Office 365へのOpenAIの言語モデルの統合は、さまざまな業界における生産性、ナレッジトランスファー、自動化の強化に巨大な可能性を秘めています。GPT 4が以前のバージョンよりもはるかに能力が高いことは間違いありません。しかし、最も印象的なのは、OpenAIとMicrosoftの両方が前進するスピードであり、これはAIの開発と採用の全体的な加速につながっています。私は一般的にAI開発に楽観的ですが、さまざまなリスクに関する議論が主流になる必要があると思います。間違っているかもしれませんが、開発のペースがその意味を考え抜く私たちの能力を上回っているように感じます。

あなたはどう思いますか — AIの進歩は速すぎますか、それとも適切なペースですか？ぜひご意見をお聞かせください。

よろしくお願いします、Chandler

点と点をつなぐ：「AIと仕事の未来」とGPT 4テクニカルペーパー

異なるCopilot機能

速すぎると感じませんか？

ハルシネーション

表現、配分、サービス品質の害

偽情報と影響力操作

通常兵器および非通常兵器の拡散

プライバシー

サイバーセキュリティ

潜在的にリスクのある創発的行動

経済的影響

加速

過度の依存

OpenAI CEO、CTOのリスクに関する発言

まとめ

続きを読む

チャットがペイドサーチ収益とSEOに与える潜在的な影響

ゼロからチャットボットを構築：chatGPTをガイドに私がチャットボットを作った方法

ChatGPTプラグインでの私のAHAモーメント

GPT-4は有料検索とSEOに対するチャットの潜在的な影響についてどう考えているか？

アメリカでのChatGPTへの関心が過去2週間で倍増（2023年1月下旬〜2月上旬）

今、強力なマシンが100以上の言語にわたる人類のすべての公開知識にアクセスできるようになりました