AIの「創発性」は幻影に過ぎない ── 大規模言語モデルの新たな測定で判明

最新の研究により、大規模言語モデル(LLM)の性能が突然飛躍することは驚きでも予測不能でもなく、実際には人工知能(AI)の性能を測る方法に関係していることが示された。
AIの「創発性」は幻影に過ぎない──大規模言語モデルの新たな測定で判明
COURTESY OF KRISTINA ARMITAGE/QUANTA MAGAZINE

2年前、BIGベンチこと「Beyond the Imitation Game benchmark」というプロジェクトで、450名の研究者がChatGPTなどのチャットボットに用いられている大規模言語モデル(LLM)の性能を検証するためにデザインされた204のタスクをリストアップした。そのほとんどのタスクで、モデルが拡大するにともない、パフォーマンスも予測可能なかたちで徐々に向上していた。つまり、モデルが大きくなるにしたがい、性能も同様に少しずつ上がるということだ。しかし、一部のタスクでは、こうした性能のスムーズな向上が見られなかった。ずっとほぼゼロだったパフォーマンスが、突然飛躍的に向上するのだ。ほかの研究でも、同じような飛躍が確認された。

同研究論文の執筆陣は、この飛躍を「ブレイクスルー」挙動と呼び、ほかの研究者は水が氷に変わるようなものとして、物理学で言うところの「相転移」になぞらえた。研究者は2022年8月に発表された論文において、こうした行動は驚きであるばかりでなく予測も不可能であり、人工知能(AI)の安全性、可能性、リスクなどに関する議論で考慮されるべきだと指摘した。そしてこの能力を「創発性」と名付けた。特定のシステムの複雑さが高いレベルに達したときにのみ生じる集団的な挙動を意味する用語だ。

しかし、実際にはそれほど単純な話ではないのかもしれない。スタンフォード大学の3名の研究者が新たに論文を発表し、そうした能力が突然生じるように見えるのは、LLMのパフォーマンスを測定する方法の問題だと指摘したのだ。そのような能力は、予測が不可能でもなければ、突然でもないと、彼らは主張した。「この変化は人々が考えるよりもはるかに予測しやすいものだ」と、スタンフォード大学のコンピューターサイエンティストで、同論文の筆頭著者であるサンミ・コイエジョは語る。「創発的な能力が存在するという強力な主張は、モデルが何をするかという点と同じぐらい、それを測定する方法の選択とも関係しています」

創発的ではなく、漸次的

いまになってAIのそのような挙動が明らかになり、研究され始めたのは、LLMが本当に大規模になったからだ。LLMは、書籍、ウェブ検索、ウィキペディアなどといったオンラインソースから集めた大量のテキストを分析し、同一文脈内で頻繁に用いられる単語間のつながりを見つけることで、自らをトレーニングする。そのサイズはパラメーターで測定される。パラメーターとは、大ざっぱに言えば、単語をつなぐ方法のことだ。パラメーターが多ければ多いほど、LLMは単語のつながりを多く発見できる。GPT-2は15億、ChatGPTに使われているLLMのGPT-3.5は3,500億のパラメーターをもつ。23年3月にデビューし、マイクロソフトのCopilotの基盤をなすGPT-4は1兆7,500億のパラメーターを使っていると言われている。

このような急成長により、性能も能率も驚くほど向上した。本当に大規模になったLLMは、小規模なモデルにはできない、あるいはトレーニングされていないタスクも実行できるようになった。スタンフォード大学の3人は「創発性」を「幻影」とみなすが、LLMは規模が増すにつれて、効率が上がることは認めている。それどころか、大型のモデルの複雑さが増せば、より困難で多様な問題にうまく対処できるようになるとも考えている。しかしその一方で、そうした性能の向上がスムーズで予測可能か、あるいは突発的な急成長になるかは、モデルそのものの仕組みではなく、測定基準の選択、あるいは場合によっては検証不足によって決まると主張する。

創発的能力の発生
BIGベンチ・プロジェクトは、大規模言語モデルは特定のサイズに達したときに予測不能なかたちで突然、小規模なモデルにはできなかったタスクを完了できるようになると示唆した。しかし、別の指標を用いれば、そのような性能向上は突然に起こるわけではない。


COURTESY OF MERRILL SHERMAN/QUANTA MAGAZINE

例として、3桁の足し算を見てみよう。22年のBIGベンチ調査では、パラメーターが少ない場合、GPT-3も、別のLLMであるLAMDAも、足し算の問題を正確に解くことができなかったと報告されている。しかし、130億のパラメーターでトレーニングされたGPT-3では、まるでスイッチが入ったかのように精度が向上した。足し算が突然できるようになったのだ。LAMDAも同じで、680億のパラメーターでトレーニングしてからは、足し算が得意になった。この事実から、特定の閾値を超えたことで、足し算が創発的にできるようになったと考えられた。

しかし、スタンフォード大学の研究チームは、両LLMが正確さだけを基準に評価されたと指摘する。つまり、計算できたか、できなかったか。ほとんどの桁が正しくても、間違いは計算ミスとみなされる。だが、これは正当な評価ではないともいえる。例えば、100+278を376と答えるのは間違いではあるが、-9.34よりははるかに正確だといえるからだ。

そこでコイエジョらは、同じタスクを部分的な正解も考慮に入れて検証し直してみた。「つまり、こう問いかけたのです。このモデルは1桁目を予測できた? 2桁目は? 3桁目は?」と彼は説明する。

ブランド・ミランダ(左)とサンミ・コイエジョ、そしてライラン・シェーファー(写真なし)は、大規模言語モデルの「創発的」能力は予測が可能で漸次的だと指摘する。

COURTESY OF KRIS BREWER; ANANYA NAVALE

コイエジョによると、そのような新たな研究をするきっかけをつくったのは大学院生のライラン・シェーファーだったそうだ。シェーファーが性能の測定方法を変えるとLLMのパフォーマンスに変化が生じることに気づいた。もうひとりのスタンフォード大学院生のブランド・ミランダとともに、新たな指標を用いると、LLMはパラメーター数が増えるにつれて、足し算でも正確に予測できる桁数が徐々に増えていくことを証明した。この結果は、足し算の能力が予測できないかたちで突然向上するわけではないことを意味している。要するに、創発的ではなく、漸次的で予測可能な向上なのだ。異なる尺度を用いると、創発性が消えてなくなることに彼らは気づいた。

次世代モデルにも当てはまるか

しかし、彼らの研究を通じても、創発性という概念が完全に払拭されることはないと指摘する科学者もいる。例えば、3人の論文では、いつ、そしてどの指標が突然向上するのかを予測する方法は示されていないと、ノースイースタン大学のコンピューターサイエンティストであるティアンシー・リーは主張している。「この意味では、これら能力は予測不可能だと言えます」とリーは述べる。BIGベンチ論文の共著者として創発的能力のリストをまとめ、いまはOpenAIに勤めるコンピューターサイエンティストのジェイソン・ウェイは、計算のような問題では解の正しさだけが重要であるため、創発性を指摘した当時の論文はいまだに有効であると考えている

「これが興味深い議題であることは間違いありません」と、AI系スタートアップのAnthropicで研究員として活動するアレックス・タムキンは言う。そして、今回の論文はマルチステップタスクを巧妙に分解し、個別コンポーネントの貢献度を測っていると付け足した。「ですが、それで終わりではありません。すべての飛躍的進化が幻影だったとは言えないでしょう。今回の論文は、たとえワンステップ型の予測を用いても、あるいは連続型の指標を使っても、確かに不連続性が見つかり、モデルのサイズを大きくすれば、飛躍的に性能が向上することが可能である事実を示していると、わたしは理解しています」

そして、たとえさまざまな計測ツールを用いることで現行のLLMには創発性がないことが説明できたとしても、将来のより大きくて、より複雑なLLMにも創発性が宿らない理由にはならない。「LLMを次のレベルに成長させれば、それらは必然的にほかのタスクやほかのモデルから知識を吸収することになります」と、ライス大学でコンピューターサイエンスを研究するシア(ベン)・フーは指摘する。

創発性に関する考え方が変わりつつある問題は、研究者だけが注目すべき抽象的な問題ではない。タムキンに言わせれば、この問題は、今後のLLMがどのように機能するかを予測する取り組みに直結してくる。「これら技術は非常に幅広く、応用範囲も制限されません。今回の議論をスタート地点とみなして、今後もこれらの予測性の研究を行なうことが重要であると、業界が強調し続けることをわたしは望んでいます。次世代のモデルに驚かされないようにするために、われわれは何をすべきでしょうか?」

※本記事は、サイモンズ財団が運営する『Quanta Magazine』(編集については同財団から独立)から許可を得て、転載されたオリジナルストーリーである。同財団は、数学および物理・生命科学の研究開発と動向を取り上げることによって、科学に対する一般の理解を深めることを使命としている。

(Originally published on QUANTA MAGAZINE, translated by Kei Hasegawa/LIBER, edited by Michiaki Matsushima)

※『WIRED』による大規模言語モデルの関連記事はこちら


Related Articles
Illustration of a robot eating public domain text
OpenAIは、著作権で保護されたコンテンツを使うことなしに優れたAIモデルをつくるのは「不可能」だと主張する。だが著作権侵害のない大規模言語モデル(LLM)の登場や、パブリックドメインのデータセットの活用が進む現状は、逆の事実を示している。
article image
コードを書くだけでなく、問題解決の計画からコードの検証、実装までできるAIエージェントが登場した。スタートアップや大手企業の開発の焦点は、「質問に答えるだけのチャットボット」から「実際にタスクをこなせるAIエージェント」へと移っている。

雑誌『WIRED』日本版 VOL.52
「FASHION FUTURE AH!」

ファッションとはつまり、服のことである。布が何からつくられるのかを知ることであり、拾ったペットボトルを糸にできる現実と、古着を繊維にする困難さについて考えることでもある。次の世代がいかに育まれるべきか、彼ら/彼女らに投げかけるべき言葉を真剣に語り合うことであり、クラフツマンシップを受け継ぐこと、モードと楽観性について洞察すること、そしてとびきりのクリエイティビティのもち主の言葉に耳を傾けることである。あるいは当然、テクノロジーが拡張する可能性を想像することでもあり、自らミシンを踏むことでもある──。およそ10年ぶりとなる『WIRED』のファッション特集。詳細はこちら