2021.08.30

学習して進化するAIに“忘れさせる”ことは可能なのか？研究者たちの取り組みと課題

人工知能（AI）が機械学習によって個人情報を取り込んで“賢く”なっていくなかで、プライヴァシーを巡る懸念が世界的に高まっている。こうしたなか研究者たちは、アルゴリズムに組み込まれた個人の情報を、機械に“忘れさせる”という難題に取り組んでいる。

機械学習を利用して人々の好みを分析したり、顔のデータから個人を認識したりすることは、いまやあらゆる業種の企業にとって当たり前になっている。こうしたなか研究者たちは、新たな問いに取り組み始めた。「機械に“忘れさせる”ことはできるのか？」という課題だ。

この「マシン・アンラーニング」と呼ばれるコンピューターサイエンスの最新分野では、人工知能（AI）のプログラムに選択的健忘を起こさせる方法の研究が進められている。機械学習システムのパフォーマンスに影響を及ぼさずに、特定の人物やデータセットの痕跡をすべて消し去ることが目的だ。

実用化されれば、消費者は個人データやそこから生じる価値をより細かく管理できるようになる。ユーザーからのデータ削除要請を受け入れている企業もあるが、そのデータを使って訓練もしくは調整されたアルゴリズムについては、大半は闇に包まれたままだ。AIのアンラーニングが可能になれば、データの削除と同時に、企業がそこから利益を得る能力を奪うこともできる。

ピンポイントで“忘れる”ことの難しさ

オンラインでのデータ共有を後悔したことのある人なら、直感的にわかるだろう。コンピューターサイエンスの世界で人為的な“忘却”を起こすには、まったく新しいアイデアが必要になるのだ。

企業は数百万ドル規模を費やし、顔認識やSNS投稿の優先順位づけを目的としたAIプログラムを開発している。これは機械学習のアルゴリズムが多くの場合において、人間が書いたコードよりも早く問題を解決できるからだ。

ところが、訓練が完了した機械学習システムに変更を加えることは難しい。それどころか、アルゴリズムが実際に何をしているのか理解することも容易ではない。もし特定のデータセットの影響を排除しようとするなら、これまではシステムを完全に再構築しなければならなかった。当然ながらコストがかかることもある。

「この研究においては妥協点を見出すことを目指しています」と、ペンシルヴェニア大学教授でマシン・アンラーニングを研究するアーロン・ロスは語る。「データの削除を求められたとき、個人のデータの影響をすべて消し去ることはできるのでしょうか。しかも、ゼロから訓練をやり直すコストを避けながらです」

指摘されるプライヴァシー侵害の可能性

マシン・アンラーニングの研究が進められている背景には、ひとつはAIによってプライヴァシーの侵害が起きる事例への関心が高まっていることが挙げられる。

世界のデータ規制当局は以前から、不正入手した情報を削除するよう企業に命令する権限を保持してきた。欧州連合（EU）やカリフォルニア州など一部の地域では、消費者がどのような情報を提供するかについて考えを改めた場合、企業にデータの削除を求めることもできる。また、最近になって米国と欧州の規制当局は、個人情報などを含む機密性の高いデータを用いて訓練されたAIシステムの所有者は、システム全体を削除しなければならないこともあるとの見解を示している。

これに対して英国のデータ規制当局である英国個人情報保護監督機関（ICO）は昨年、機械学習を活用したソフトウェアの一部は欧州の一般データ保護規則（GDPR）の対象になりうると、企業に警告した。これはAIシステムに個人データが含まれていることがあるからだという。

実際にセキュリティ分野の研究では、アルゴリズムが訓練に使われた機密データを漏洩させてしまう場合があると示されている。米連邦取引委員会（FTC）は今年に入って、顔認識システムを手がけるスタートアップのParavisionに、不適切な方法で取得した顔写真のデータセットとそれを使って訓練された機械学習のアルゴリズムを削除するよう命じている。FTC委員のロヒット・チョプラは、データ関連の規則に違反している企業の「詐欺の成果を剥奪する」方法として、この新しい戦略を称賛していた。

“忘れる”ことの影響について進む検証

マシン・アンラーニングの一分野では、このような当局の対応の変化を受けて生じた実用的かつ数学的な問題への取り組みも進められている。研究者たちは特定の条件下で機械学習のアルゴリズムにデータを忘れ去れさせることに成功したが、この技術はまだ実用化されていない。「最新の研究分野では普通ですが、目指していることと、現時点でそれをどう実現するかについてわたしたちが知っていることとの間にギャップがあるのです」と、ペンシルヴェニア大学のロスは語る。

こうしたなかトロント大学とウィスコンシン大学マディソン校の研究者たちは、訓練に使われるデータセットを複数の部分に分割し、最終的なアウトプットである機械学習システムに統合する前にそれぞれの部分を個別に処理する手法を19年に提示した。これなら、あとからデータの一部を削除する必要が生じた場合でも、再処理が必要になる部分は限られる。このやり方は実際に機能することを、研究者たちは100万枚以上の画像とネットショッピングの購入データを使った実験で確認している。

ただし、ロスがペンシルヴェニア大学、ハーヴァード大学、スタンフォード大学の研究者らと実施した共同研究では、このアプローチに問題があることが示された。データ削除のリクエストが偶然もしくは故意に特定の順序で起きた場合に、アンラーニングのシステムがうまくいかなくなるというのだ。ロスたちの研究は、この問題を軽減する方法も提案している。

ロスたちが発見した問題とその解消方法は、研究者の好奇心を超えたレヴェルでマシン・アンラーニングを実現していく上で残された数多くの未解決の問題の一例であると、カナダのウォータールー大学教授のゴータム・カマスは指摘する。カマスも機械学習のアンラーニングに取り組む研究者のひとりで、複数のデータ集合を削除することでシステムの精度がどれだけ低下するのか研究チームで調べている。

カマスはまた、システムが削除されたはずのデータを本当に忘れたのか、企業や当局が検証する方法にも関心をもっている。「まだ先のことに思えるかもしれませんが、そのうちにこうしたことを確認するための“監査役”が必要になるかもしれません」と、カマスは語る。

技術力の誇示に終わらせないために

FTCをはじめとする当局がアルゴリズムの力に注意を払うようになっているなか、規制という観点からもアンラーニングの可能性を探る理由が増えていくだろう。オックスフォード大学教授でデータ保護を専門とするルーベン・ビンスは、個人が自らのデータの行方や利用の仕方について口を出す権利があるという考え方は、米国でも欧州でも比較的最近のものであると指摘する。

アンラーニングを実用化し、テック企業が消費者に個人データをきちんと管理する手段を提供できるようにするには、技術的な“離れ業”が必要になる。また仮にそうなっても、AIの時代においてプライヴァシーに関するリスクに大きな変化は起きないかもしれない。

その一例が「差分プライヴァシー」だろう。これはシステムが個人について知る内容に数学的な限界を設けられる優れた技術で、アップルやグーグル、マイクロソフトはいずれも採用している。ただ、実装されることはまれで、プライヴァシーを巡る危険は依然として多い。

ビンスは差分プライヴァシーについて、非常に有効に機能するケースはあると指摘する。その上で、「それ以外では、企業は革新性を誇示する目的で使っているにすぎません」と語る。

アンラーニングも同じことになりかねないと、ビンスは考えている。データ保護に向けた大きな動きというよりは、技術力のデモンストレーションに終わってしまうというのだ。それに機械が忘れることを学んだとしても、人間は誰と情報を共有するかについて常に注意を払うことを覚えておかなければならない。

※『WIRED』による人工知能（AI）の関連記事はこちら。

人間の知能に近づくために、AIが超えるべき壁：山川宏×岡田浩之×石井敦鼎談（後編）

あるスタートアップが掲げた「完全な記憶」のデータ化という野望の現実味

SHORT
AIが覚えるべきは「忘れる」ことだ：データプライヴァシーの次なるハードル解消に必要なこと

限定イヴェントにも参加できるWIRED日本版「メンバーシップ」会員募集中！

次の10年を見通すためのインサイト（洞察）が詰まった選りすぐりのロングリード（長編記事）を、週替わりのテーマに合わせてお届けする会員サーヴィス「WIRED SZ メンバーシップ」。毎週開催の会員限定イヴェントにも参加可能な刺激に満ちたサーヴィスは、1週間の無料トライアルを実施中！詳細はこちら

TEXT BY TOM SIMONITE

TRANSLATION BY CHIHIRO OKA