AIの乳がん検出は医師による診断とどう違うのか：自分のマンモグラフィー画像で試してわかったこと

Content Subheads

● AIは担当医の診断に同意するか？
●「CDに焼いて送りましょうか」
● 想像よりはるかに平凡な仕組み
● AIモデルががんを検知
● 大事なのは数字の背景
● 直感をもたないコンピューター

2019年の終わりごろ、毎年受けることにしているマンモグラフィー検査に出かけた。わたしの画像を見た放射線技師は「少し気になる部分があります」と言い、診断のために超音波検査の予約をするよう指示された。数日後に超音波検査に行くと、技師はわたしの左胸の一部をしばらく念入りに観察し、画面に向かって眉をひそめた。どうもあまり芳しい結果ではないようだ。もう一度マンモグラフィーを受け、さらに何人かの医師に診てもらったあと、診断は確定した。乳がんだった。

がんを宣告されて取り乱さない人はいないだろうが、どのくらい取り乱すかはその人の性格による。そのショックに対抗する手段としてわたしが実行したのは、自分の状態に関する知識を可能な限りかき集めることだった。そして、電子カルテシステムのユーザーインターフェース設計がまったくひどいもので、医療の専門家たちの間で意志の疎通に問題が生じる恐れがあると感じたわたしは、ネット上にある自分のカルテを常にくまなくチェックするようにした。

メレディス・ブルサード

ニューヨーク大学アーサー・L・カーター・ジャーナリズム・インステチュート准教授、およびニューヨーク大学アライアンス・フォー・パブリック・インタレスト・テクノロジー主任研究員。著書に『More than a Glitch: Confronting Race, Gender, and Ability Bias in Tech（些細でないミス：テクノロジーに潜む人種・ジェンダー・能力バイアスをさぐる）』および『Artificial Unintelligence: How Computers Misunderstand the World（人工無知能：世界を誤解するコンピューター）』［共に未邦訳］がある。

すると、病院で行なったマンモグラフィーの結果に、奇妙な一文が書かれているのに気づいた。「この画像により診断を実施したのは誰々医師、およびAIである」。人工知能（AI）がわたしの画像を読んだって？そんなことに同意した覚えはないのに？それで、AIはどんな診断を下したの？

次の日、セカンド・オピニオンをもらうための診察に行く予定があったので、わたしはそこでAIが何を見つけたのか聞いてみようと思った。訪れた外科医のもとで、わたしはこんな質問をした。「AIがわたしの画像を読んだんですか？」

「そんなこと知っても時間の無駄ですよ」と外科医は言った。なんて無意味なことを聞くんだ、と鼻で笑うような響きがあった。「あなたのがんは肉眼でも見えます。AIに読んでもらうまでもありません」

医師はそばにあるコンピューターの画面に注意を促した。画面にはわたしの乳房の内部が映っている。その黒い背景のうえに映しだされた半円形の物体にはクモの巣のように腺が走り、白い鮮やかなバーベル型の印が生検部位を示していた。がんの疑いのある部位は、不気味な物体の塊のように見えた。この医師はこんなよくわからない塊の中から、恐ろしいがんの気配を見つけだしてくれたのだ。

この記事はメレディス・ブルサード著『More than a Glitch: Confronting Race, Gender, and Ability Bias in Tech』から抜粋したものである。

COURTESY OF THE MIT PRESS

この熟練した医師の鋭い眼光に、わたしは心から感服した。これこそが経験豊かなプロの医師を選ぶ理由だ。この人こそ自分が命を預けるに足る外科医だと即座に判断し、8時間に及ぶ手術を受けるための同意書にサインした。

わたしの手術を担当してくれた医師も、看護師も、スタッフも、みな素晴らしかった。全員がすぐれた技術をもつ完璧なプロばかりだった。がんになるなんて恐怖に押しつぶされてもしかたない経験だが、医師たちのおかげでわたしはがんをなんとか乗り越えることができた。

幸いにも数カ月でわたしの身体からがんは消え、ほぼ健康を取り戻した。1年後には医師から完全に健康になったとのお墨付きをもらったが、わたしの画像を診断したAIのことがどうしても心に引っかかったままになっていた。そこで、乳がんのAI画像診断の実態がどうなっているのか、詳しく調べてみようと思いたった。

AIは担当医の診断に同意するか？

わたしががん検出AIのことを知ったのは、画像に書いてあった細かい注意書きを読んだからだった（昔から詮索好きな性格なのだ）。現時点で、自分の治療にAIシステムが使われていることを知っている患者は多いとはいえない。これは患者が治療に対して完全な同意を与えているかどうか、という問題にかかわってくる。

そもそも、治療の前にサインを求められる医療措置同意書をきちんと読む人などほとんどいない。ネット上にアカウントを開設する際に、サービス契約書を読む人がほとんどいないのと同じことだ。自分のデータが知らないうちにAIの訓練用に使われていたり、人間の代わりにアルゴリズムが医療上の決定を左右したりしていると知って、素直にすごいと感動できる人ばかりではないだろう。

「われわれがこういった方法を使っていることに、やがて患者も気づくと思います」とジャスティン・サンダースはStatNews［編註：スタットニュース：アメリカの健康関連のニュースサイト］に語っている。サンダースはボストンにあるダナ・ファーバー／ブリガム＆ウィメンズ癌センターに所属する緩和ケア医だ。「そういった事実は、われわれが実現しようとしていることについて不必要な誤解を招き、信頼を損なう恐れがありますが、対策を取ることはできるはずです」

はたしてAIはわたしの担当医の診断に同意するだろうか？医師はわたしを早すぎる死から救ってくれたが、AIも同じようにわたしのがんを検知することができるのだろうか？わたしはある実験を行なってみることにした。

すでに多数存在するオープンソースの乳がん検出AIのひとつを利用して、わたし自身のスキャン画像を読ませ、がんを検知できるかどうか見てみればいいのだ。科学的な専門用語で言うと、この手法は「再現研究」と呼ばれる。科学者が別の科学者の研究を再現した際に同じ結果が得られれば、その研究の有効性が立証できるというしくみだ。

奇しくもニューヨーク大学データサイエンス学部に、乳がん検出AIを用いて目覚ましい研究成果を出している同僚がいた。同僚に乳房の話題を振るという奇妙な状況ではあったが、わたしは感情を抑えて自分の医療記録画像を同僚のがん検出プログラムにかけ、AIがどんな診断を下すのか調べることにした（同僚の名はクシシュトフ・ジェラス、AIプログラムは2018年に発表された論文「High-Resolution Breast Cancer Screening with Multi-View Deep Convolutional Neural Networks（多視点深部回旋ニューラルネットワークを用いた高解像度乳がん・スクリーニング検査）」で使用されたものだ）。

「CDに焼いて送りましょうか」

だがこの計画はあっという間に暗礁に乗りあげた。

わたしは自分のスキャン画像を電子カルテ（EMR）上で見た。ダウンロードしようとしたが、エラーが出る。そこでオプションにより、画像データを匿名化してダウンロードを試みた。すると電子カルテは、別の人の名前のついたダウンロードデータを提示してきた。その画像はわたしのものなのか、その別の人のものなのかわからない。そのダウンロードパッケージには、わたしの使用マシンであるMacで開けるファイルがついていないのだ。

数日後、わたしはそのダウンロードデータが壊れていると結論を出し、病院に電話して、ポータルシステムの技術サポートサービスにつないでもらった。電話口で何人かのサポート係と話をし、最高レベルの担当者にまで行き着いたが、データの修復や調査には誰も関心をもってくれなかった。

画像をCDに焼いて送りましょうか、と親切なサポート担当者は申し出てくれたが、「すみません、うちにはCDドライブがないんです」と伝えざるをえなかった。「いまどきCDドライブをもっている人なんていませんよ。どうしてすんなりダウンロードできる方法がないのかしら？」

「診療所には画像を読みこむためのCDドライブがいまでもあるんですよ」と担当者は言った。この時点で、わたしは我慢の限界に達しようとしていた。

結局わたしは自分のオフィスで、最高にローテクな方法に訴えることにした。Mac上に表示された電子カルテの画像のスクリーンショットを撮ったのだ。まったく電子カルテのテクノロジーにはガッカリだ。わたしはそのスクリーンショットを研究アシスタントのアイザック・ロビンソンに送った。ロビンソンはコードシェアリング用プラットフォームのGitHub上にあるゲラスのリポジトリから、検出プログラムのコードをダウンロードしてくれている。数日にわたる試行錯誤の後、ロビンソンはなんとかコードの入手に成功した。

想像よりはるかに平凡な仕組み

わたしは最初、医師が患者の医療記録全体を見るように、AIソフトウェアもわたしのカルテ全体を精査して、わたしががんにかかっているのかどうか評価してくれるものだとばかり思っていた。

だがそうではなかった。がん検出プログラムはプログラムごとに少しずつ仕組みが異なり、それぞれが違った一連の変数を使用する。ジェラスのプログラムは乳房をふたつの異なる方向から解析する。その画像では、半円形の物体の中に明るい色の球体がたくさん詰まっているのが見える。「なんか粘液っぽいですね」と、ソフトウェアをセットアップするためにこの手の画像を何枚も見せられたロビンソンは言った。

AIはわたしの画像のすべてを見たうえで診断を下してくれる、というのはわたしの勝手な思い込みだったことに気づいた。わたしが期待していたのは、TVドラマ『グレイズ・アナトミー』の一場面のように、なんだかドラマチックな画像が徐々に姿を表し、そこに大きな腫瘍ができて厄介な合併症を引き起こしているのをAIが発見して、エピソードの終わりには問題が解決されてめでたしめでたし、という展開だ。

かつて、そういう現象についての文章を書いたことがある。ハリウッドのAIに対する非現実的な解釈が、AIの実際の働きを理解しようとするときに誤った判断をもたらす恐れがある、という内容だ。実際の医療現場におけるAIは想像よりはるかに平凡なもので、人間のドクターのようにがんを「診断」してくれたりはしない。

放射線科医は患部のさまざまな写真を見て患者の病歴を読み取ったり、異なる視点から撮った複数のビデオを見て判断したりする。AIは静止画像を取り込むと、訓練データ中の数学的パターンと比較して評価を行ない、画像の中に示されたある部分が（人間の指示により）訓練データに示されていた部位と数学的に類似しているという予測を立てる。医師はエビデンスを見て結論を導きだすが、コンピューターは予測を立てるだけ。予測はあくまで予測であり、診断とは異なる。

人間は一連の標準検査を見て診断を下すが、AIは数学的な診断プロセスの上に組み立てられている。この標準検査には、自己検診、マンモグラフィー、超音波検査、針生検、遺伝子検査、外科生検などが含まれる。検査の後に、今度はがん治療が始まり、外科手術、放射線治療、化学療法、治療用麻薬といった選択肢が与えられる。たいていの人が、こういった検査や治療をいくつか組み合わせて受けている。

わたしの場合は、マンモグラフィー、超音波検査、針生検、遺伝子検査、外科手術だった。同じ頃にがんと診断された友人は、自己検診でしこりに気づき、その後マンモグラフィー、超音波検査、針生検、遺伝子検査、外科生検、化学療法、外科手術、放射線療法、さらに2回目の化学療法、治療用麻薬と続いた。どのような治療をするかは、がんの種類と部位、0から4で表されるステージ数によって決まる。

現在米国の病院で受けられる検査と治療と投薬は、これまでの世界の歴史のなかで最も優れたものだ。ありがたいことに、いまではがんの診断を受けても、それがそのまま死につながるわけではなくなってきた。

AIモデルががんを検知

ジェラスと共同研究者たちがAIモデルをあらかじめ訓練しておいてくれたおかげで、わたしとロビンソンはそのAIモデルに自分たちのコードをつなぎ、わたしのスキャン画像を読み込ませるだけでいいはずだった。

わたしたちは準備を整え、AIに画像を読み込ませた……が、何も出なかった。がんらしきものがあるという結果は、何ひとつ得られなかった。おかしな話だ。だってそこには実際に乳がんがあったのだから。ついこの間、医師たちが乳房全体を切除して、わたしをがんから救ってくれたところなのだ。

わたしたちは調査を進めた。そして手がかりとして、ある論文にこんな記述があるのを見つけた。「われわれは実験により、高解像度画像を用いるのが必須であることを示した」。マンモグラフィーのスクリーンショットでは、どう考えても解像度が低すぎる。やはり高解像度画像を入手しなければ。

ロビンソンは、画像ファイルの奥深くに隠されたさらなる問題を見つけだした。わたしの撮ったスクリーンショットは、ごくふつうのX線画像と同じようにモノクロに見える。だがコンピューターは、そのスクリーンショットをフルカラー画像（RGB画像）として認識していた。

カラー画像中のピクセルにはすべて、赤・緑・青の3原色が含まれている。この3原色を絵の具のように混ぜ合わせることにより、さまざまな色が表される。青の単位100ユニットと赤の単位100ユニットを混ぜ合わせてひとつのピクセルをつくれば、紫のピクセルができる。その紫ピクセルの画素値はR（赤）100、G（緑）0、B（青）100ということになる。

デジタルのカラー写真は、実際にはRGB画素値を持ったピクセルの集合体なのだ。このピクセルをきれいに並べると、人間の脳はピクセルの集合体をひとつの画像として認識するわけだ。

ジェラスのAIコードが使用しているのもその点描状のピクセル・グリッドだが、正確に言うとシングルチャンネル・モノクロ画像と呼ばれる点描状のピクセル・グリッドを使用している。このシングルチャンネル・モノクロ画像においては、各ピクセルの画素は1種類しかなく、0から255の画素値で表される色は0が白、255が黒ということになる。だが、わたしのスクリーンショットのRGB画像では、各ピクセルに3種類の画素が含まれていた。

ここから高解像度画像を手に入れるための涙ぐましい努力が始まった。再び医療画像会社の技術サポート担当者とストレスのたまる会話を長いこと交わしたあと、わたしはあきらめのため息とともにCDを郵送してもらうよう頼んだ。そしてそのファイルを読むためにCDドライブを買った。まるで不条理劇の一場面のようだ。

それからロビンソンにもう一度、適切に変換されたモノクロの高解像度画像をAI検知プログラムにかけてもらった。今度は、問題のある箇所に赤い四角形のしるしがついていた。そこは確かにがんができていた場所だった。成功だ！ AIはやっと、わたしにがんがあることを教えてくれた。

大事なのは数字の背景

だが、問題の部位の病変が悪性のものである確率は非常に低いようだった。AIシステムが生成する評価スコアには2種類あり、ひとつは良性、ひとつは悪性の可能性を0から1の間の数字で示す。わたしの左胸の悪性スコアは0.213だった。つまり、画像の病変ががんである可能性は20％しかないということになる。

わたしは同僚のジェラスにビデオ通話で話を聞いてみることにした。ジェラスは大学の同僚で、解析に利用させてもらったAIコードの作者でもある。「それはかなり高い数字ですね」。わたしが先ほどのスコアを告げると、ジェラスは心配そうに言った。

「いえ、実際にがんだったんです。もう寛解しましたけど」とわたしは告げた。

「では、わたしのプログラムの出来は上々だということですね」とジェラスは冗談っぽく言った。彼はホッとしているようだった。「実際、あのAIモデルは正確だと思いますよ。じつは、あなたががんではないのに、プログラムがあなたに誤った陽性の情報を伝えてしまったのではないかと心配になったんです」

今回わたしがもたらした知らせは、データ科学者が誰も想定していないケースだったようだ。誰かがいきなり連絡してきて、「あなたのAIがん検出モデルにこちらのスキャンデータを読みこんでもらいました」と言ってくることなどめったにない。理論上は、オープンサイエンスを実施することにより、誰でもほかの人の研究を再現し、その結果を検証することができるようになる。だが実際には、人が他人の研究コードを検証してみるケースなど、ほとんどない。それが同じ大学の同僚のような近しい関係の研究者同士であれば、なおさらそんな状況は期待できない。

ジェラスの説明によると、彼のAIモデルのスコアはがんになる割合を示しているわけではなく、単にある数値を0から1までの目盛りで表そうとしただけなのだという。そういう点数システムの常として、ふつう問題に対する基準値が設定される。ジェラスは基準値の数値をはっきりとは覚えていなかったが、0.2よりは低かった。

最初わたしは、そのスコアが割合ではなく、任意の数値だというのが変な気がした。プログラムとしては、「この画像の赤い四角形で示された部分の病変には、悪性の可能性が20％あります」のような表現で結果を出したほうが役に立ちそうな感じがする。だがよく考えてみると、大事なのは割合ではなく、数字の背景なのだとわかってきた。

医療は膨大な数の訴訟と、膨大な量の法的責任がついてまわる世界だ。例えば産科医は、生まれた子どもが21歳になるまで、出生時の外傷により訴えられる可能性がある。もしあるAIプログラムが「特定の部位にがんが発生している可能性が20％ある」と言ったはいいが、その診断が間違っていたとしたら、そのAIプログラムやプログラムの作成者、プログラムを使用した病院、あるいはプログラムに対する出資者は法的責任を問われるかもしれないのだ。

任意の基準値による表示のほうが割合で診断を下すより科学的であり、したがって研究の段階で医療過誤を招くような事態も起きにくいというわけだ。

直感をもたないコンピューター

小さい頃から負けず嫌いだったわたしは、AIモデルの出した結果に少々不満だった。0から1のうちの0.2というのは、やはりスコアが低すぎるように思える。自分のがんは、なんとなくもっと高いスコアを記録するはずだと期待していた。何しろあれは本当にがんだったのだし、下手をしたらわたしは死んでいたかもしれない。これまでにもがんは母をはじめ、わたしの家族や友人たちを何人も死に至らしめてきたのだ。

コンピューターによるがんの評価と、医師によるがん重症度診断の違いは、人間の脳とコンピューターはそれぞれ何が得意で、何が不得意なのかという事実にかかわってくる。わたしたちはついコンピューターに人間のような人格をもたせたがるし、コンピューターの計算プロセスに脳の働きと同じ名前をつけているが、結局のところコンピューターは脳ではない。

コンピューターの「ニューラルネット」は、人間の脳の働きを思い起こさせることから、人間の神経プロセスにちなんでつけられた名だ。だがそれは、いろんな面で間違っていた。脳は単なる機械よりはるかに複雑なものであり、神経科学という分野は多くのことがわかってきてはいるものの、基本的に解明されていない部分が依然として存在する学問だ。それでも「ニューラルネット」という名前はそのまま使われている。

異常を検知する能力というのは、医師がX線写真に写った塊の中から悪性の部位を見つけだす能力の中心となるものだ。わたしの担当医は、さまざまな悪性腫瘍がどういうふうに見えるのか、ということについて多くの経験を積んでいる。医師たちは毎日そういった画像を何十枚と見て、がんを見つけだす専門家なのだ。

だがコンピューターの働き方は、それとはまったく違う。コンピューターには「異常な」ものを直感的に検知する能力はない。コンピューターには直感がないからだ。

コンピューターの視覚は、グリッドに基づく数学的なプロセスと言える。デジタル・マンモグラフィー画像は、固定された境界とピクセル密度に基づいて構成されたグリッド画像である。ピクセルの一つひとつがグリッド上での位置と色を示す数値をもち、それが集合体となってひとつの物体の形をつくり上げる。その物体と、グリッド上におけるほかの物体との距離を測定することにより、その物体のうちのひとつが悪性のものである可能性を計算することができる。

要するにそれは数学的な手続きであって、生存本能による直感とは何の関係もないのだ。だが生存本能こそが、いま存在する力のなかで最も強い力のひとつだと言える。コンピューターには少しばかり謎めいた部分が残るが、それもよしとしよう。年々、科学や人類学や社会学といった学問分野が進歩を遂げていくうちに、わたしたちの理解は着実に深まっていくだろう。

AIによる診断とその可能性の未来について、わたしの意見に同意しかねるというハイテクな人たちもいるかもしれない。しかしわたしはあくまで、今回試したようなAIモデルやほかのAIプログラムが、ごく限られた環境下だけでなく、広く医師の代わりに使われるようになるという未来については懐疑的だ。いつの日か実現する可能性はあるかもしれない。だが、近い将来ということはないだろう。

わたし自身が試してみてわかったように、機械学習モデルは実験段階では上々の結果を出せても、一歩実験室の外に出ると、その信頼性は急激に下がるのだ。それでもAIモデルは、情報の流通においては非常に効果的なツールだと言える。

わたしがワクチン接種後のリンパ節の腫れに関する情報を得られたのは、『ニューヨーク・タイムズ』のサイトのAIによる推薦エンジンに薦められた記事を読んだからだった。記事を読んだ数カ月後、コロナウイルス予防の追加接種を受けた際、脇の下に大きなしこりができた。だがわたしは、「またがんができたのかも」と真っ青になったりはしなかった。人間が書いて、AIがお薦めしてくれた記事を読んでいたからだ。

（WIRED/Translation by Terumi Kato, LIBER/Edit by Michiaki Matsushima）

AIの乳がん検出は医師による診断とどう違うのか：自分のマンモグラフィー画像で試してわかったこと

RELATED ARTICLES

乳がんの早期発見に、AIが活用される時代がやってきた

がん細胞のほうから姿を現す新手法、早期発見技術の確立を目指す科学者たち

病気の診断は血液ではなく皮膚から──間質液のバイオマーカーを検出するパッチテストの未来