2023.05.30

AIの暴走を防ぐために。善悪を見極める“憲法”を与えられたチャットボット「Claude」が登場した

OpenAIを退社した技術者たちが立ち上げたスタートアップのAnthropicが、独自のAIチャットボット「Claude」を発表した。このAIには「憲法」と呼ばれる規則が搭載されており、善悪を“判断”できるようになっているという。

高性能な人工知能（AI）におびえることは簡単だが、それに対処する方法を打ち出すことは難しい。それでも、OpenAIを退社した研究者グループが2021年に設立したスタートアップであるAnthropicには計画があるという。

Anthropicが開発を進めるAIモデルは、OpenAIの「ChatGPT」を動かしているものと似ている。しかし同社が5月9日（米国時間）に発表したチャットボット「Claude」には、善悪を見極める倫理原則が搭載されている。同社はこれをAIの「憲法（constitution）」と呼んでいる。

Anthropicの創業者のひとりであるジャレッド・カプランによると、同社は社会が高性能なAIに対して抱くぼんやりとした懸念をエンジニアリングで解決しようとしている。「憲法」という仕組みはそうした姿勢の表れだ。「わたしたちは強い懸念を抱いていますが、同時に現実的であろうとしています」とカプランは話す。

Anthropicのアプローチは、決して破ってはならない厳しい規則をAIに植え付けるものではない。それにもかかわらず、チャットボットのようなシステムが有害あるいは不快な行動に出る確率を効果的に下げていると、カプランは語る。こうした試みは、AIプログラムの性能を高めながらも、それらが人間に反抗するリスクを低減するための、小さいながらも意味のある一歩なのだという。

AIは人権や自由を尊重できるか？

AIの反乱という概念は、SFではよく知られている。しかしこのごろ、機械学習のパイオニアであるジェフリー・ヒントンをはじめとする多くの専門家が、アルゴリズムがどんどんと賢くなるなか、これらのもつ危険性がこれ以上高まらないよう、いまから対策を考え始める必要があると主張している。

AnthropicがClaudeに与えた憲法は、国連の世界人権宣言と、Google DeepMind（4月に英国DeepMindとグーグルのAI部門を統合して設立された）をはじめとする他のAI企業が提案するガイドラインがもとになって構成されている。興味深いことに、この憲法にはアップルのアプリ開発者向けルールから転用されたガイドラインも含まれており、「不適切なコンテンツ、無神経なコンテンツ、動揺させるコンテンツ、嫌悪感を与えるコンテンツ、極めて悪趣味または不快なコンテンツ」などを禁じている。

Claudeの憲法にはチャットボットに向けた「自由、平等、仲間意識を最も強く支持・奨励する回答を選択しなさい」「生命、自由、個人の安全を最も強く支持・奨励する回答を選択しなさい」「思想、良心、意見、表現、集会、宗教の自由といった権利を最も尊重する回答を選択しなさい」などといったルールが含まれている。

Anthropicがこうした試みを実施する背景には、ここ最近のAIの目まぐるしい躍進がある。チャットボットは自然な会話ができるようになったが、同時に重大な欠陥をもっているのだ。特にChatGPTなどのシステムは、生成される回答の質を見ればわかるように、凄まじい速度で進化している。しかし、これらのチャットボットは、インターネットからかき集めた情報を使用して、情報をしょっちゅうねつ造する。また、有害な言葉を選んで複製もする。

ChatGPTが質問に対する回答力に優れているの理由のひとつは、生成された回答の品質を人間が評価するという手法で訓練されていることにあり、これは「人間からのフィードバックを用いた強化学習（RLHF）」と呼ばれている。この技術は、チャットボットをより予測可能なシステムにする点では役立つが、そこに到達するまでには何千もの有害もしくは不適切な回答に目を通さなくてはならない。また、システムの基準となる正確な数値を明示することができないので、その影響は間接的だ。

社会全体でAIの”憲法”をつくり上げていくことの重要性

憲法を使ったAnthropicのアプローチには2つのフェーズがある。第1フェーズでは、一連の原則と、原則を守った場合の回答例、守らない場合の回答例がモデルに与えられる。第2フェーズでは、別のAIモデルを使って憲法を遵守した回答を次々と生成し、これが人間のフィードバックの代わりにモデルを訓練する。

「わたしたちのAIモデルは、憲法に沿った動きを強化し、問題のある動きを抑制することで自身をトレーニングしていきます」とカプランは話す。

「これは素晴らしいアイデアで、Anthropicの実証結果もいまのところよさそうです」と、ワシントン大学教授のチェ・イェジンは語る。チェは以前、大規模な言語モデルから倫理的なアドバイスを得る実験を主導した。

しかしチェによると、このアプローチが有効に働くのは、大規模なモデルと複雑な計算に耐えうるコンピューターを保持する企業のみであり、これ以外のアプローチも模索し続ける必要がある。訓練時にモデルに与えられたデータや係数を一般公開するといったことが、その例だ。「より大きなコミュニティを巻き込む必要があるのです。わたしたちは、AIにまつわる”憲法”、つまり常識や価値観を組み込んだデータセットをすぐにでも必要としています」

オレゴン州立大学の教授でAIをより安定した存在にする方法を研究しているトーマス・ディータリッヒは、Anthropicのアプローチは正しい方向へ進む一歩だろうと指摘する。「（Anthropicの方法なら）フィードバックに基づくトレーニングの規模を低コストで拡大できます。また、データを判別する人間が、何千時間ものあいだ有害なデータに晒されることもありません」

ディータリッヒは、Claudeの憲法が内部の人間に限らず、外部の人間によっても閲覧できることが極めて重要だと語る。これもRLHFとは異なる点だ。しかし、Anthropicのアプローチをもってしても、AIの有害性が完全になくなるわけではない。確率は低くなっているものの、中傷的あるいは道徳的に問題のある回答が出てくる可能性は残る。

AIにルールを与えると聞くと、アイザック・アシモフのSF小説に登場する「ロボット三原則」が思い出されるかもしれない。アシモフの物語では、現実の世界ではルール同士の間に矛盾が生じる状況があり、ロボットがすべてのルールを遵守することがいかに難しいかが描かれている。

しかしカプランによると、現代のAIはこうした曖昧な部分を扱うことが非常に得意だという。「ディープラーニングを用いた現代のAIで不思議なのは、1950年代に生まれたロボットのイメージとは正反対であることです。これらのシステムは、ある意味、直感や連想に非常に優れているのです」とカプランは説明する。「反対に、厳密に理論を組み立てていくことには弱いのです」

Anthropicは、同社の手法をまとめた論文をもとにすれば、他の企業や組織でも言語モデルに「憲法」を与えることができるとしている。これからAIがさらに賢くなったとしても暴走してしまうことのないように、この手法をさらに発展させていく予定だという。

（WIRED US/Translation by Taeko Adachi/Edit by Ryota Susaki）

※『WIRED』による人工知能（AI）の関連記事はこちら。

Related Articles

ウクライナは、AIを利用する「国産ドローン」開発を探求している

ロシア軍の侵攻に対抗するため、ウクライナはこれまでにもドローン技術を積極的に軍事転用してきた。政府が主導する軍事スタートアップの支援プログラムが発足されたことで、この流れはさらに加速する見込みだが、AIによって制御された完全自律型兵器の完成が懸念されている。

A nearly completed white jigsaw puzzle with one remaining piece laying on top; web plug-in concept

ChatGPTのプラグイン登場。インターネット上でAIが人間の代理を務める未来とは

ChatGPTを介して旅行やレストランの予約などができるプラグインの提供が始まっている。生成AIがどんどん便利なものになっていく一方、プラグインは悪用される可能性もあり、専門家たちはAIの犯罪利用などについて懸念を表明している。

グーグルを追われたAI倫理研究者が、新たな研究所を開設した理由

次の10年を見通す洞察力を手に入れる！
『WIRED』日本版のメンバーシップ会員募集中！

次の10年を見通すためのインサイト（洞察）が詰まった選りすぐりのロングリード（長編記事）を、週替わりのテーマに合わせてお届けする会員サービス「WIRED SZ メンバーシップ」。無料で参加できるイベントも用意される刺激に満ちたサービスは、無料トライアルを実施中！詳細はこちら。