SZ MEMBERSHIP

2024.04.25

AIの歴史を変えた「トランスフォーマー」と8人のグーグル社員たち

8人は偶然出会い、ひとつのアイデアに惹かれ、いまや伝説ともいえる「トランスフォーマー」の論文を共に書いた。その研究が、近年のテクノロジー史上最も重要なブレイクスルーとなったのだ。

A collage of portraits of the 8 authors of the Transformers paper

2017年の春に書かれた科学論文「Attention Is All You Need（アテンションこそはすべて）」には、著者として8人の名前が記載されている。ひとりは発表時にすでに退社していたが、全員がグーグルの研究者だった。同社での在籍期間が最も長いノーム・シャジアは、初期の草稿を見たときに自分の名前が最初に書かれていて驚いたという。慣例では、研究への貢献度が最も大きいことを示すからだ。「予想外でした」と彼は言う。

/ NAME: NOAM SHAZEER / OCCUPATION: COFOUNDER AND CEO OF CHARACTER AI

名前の掲載順というものは、いつでも微妙なバランス関係の上で決められる──憧れの筆頭著者の座を誰が獲得し、誰が最後に追いやられるのか。特に、グループがまさに一体となって作業を進め、各メンバーが確かな結果を残している今回のようなケースでは決定が難しい。論文の完成を急いだ8人は最終的に、研究への貢献度で掲載する慣例を壊すことにした。それぞれの名前の横にアスタリスクをつけ、脚注に「貢献度はみな同じ。掲載順はランダム」と記したのだ。論文は権威ある人工知能研究学会に期限ぎりぎりで提出され、革命を起こした。

発表からもうすぐ7年になるこの「アテンション」論文は、いまや伝説的な地位にある。著者たちは、ニューラルネットワークと呼ばれるAIの一種、成長を続けていたそのテクノロジーを土台に、まったく新しいものをつくり出したのだ──まるで未知の知能の産物のように感じられる出力を生む、超高性能のデジタルシステムである。「トランスフォーマー」と名づけられたこのアーキテクチャは、ChatGPT、およびDall-EやMidjourneyなどの画像生成ツールをはじめとする刺激的な人工知能（AI）製品の背後にある、それほど機密でもないソースとなる。論文がこれほど有名になることを知っていたら「名前の順番にもっと気を使っていたかもしれません」とシャジアは冗談まじりに言う。いまや8人全員がちょっとした有名人だ。「一緒に写真を撮ってくださいと頼まれることもあるんです。あの論文の著者だからって！」と、5番目（もちろん順番はランダム）に名前が載っているリオン・ジョーンズは言う。

/ NAME: LLION JONES / OCCUPATION: COFOUNDER OF SAKANA AI

「トランスフォーマーがなかったら、わたしたちのいまは違っていたでしょう」と、この論文の著者ではないが、おそらく世界一著名なAI科学者であるジェフリー・ヒントンは言う。彼がここで言う「いま」とは、OpenAIなどの企業によって構築されるシステムが人間の能力に匹敵し、ときに凌駕する、この大変動の時代だ。

現在、8人の著者は全員グーグルを去っている。この業界で働く数多くの人々と同じく、17年に自分たちが開発したものを動力源とするシステムに何らかのかたちで関わる仕事をしている。このブレイクスルーの全貌、つまり、人間の頭脳が集結して、いずれ人間を従属させるかもしれない機械をつくり上げた経緯を明らかにするため、わたしはこの“トランスフォーマー・エイト”に取材をした。

/ NAME: JAKOB USZKOREIT / OCCUPATION: COFOUNDER AND CEO OF INCEPTIVE

あまりにも異端な考え

トランスフォーマーの物語は、4番目に名前が記載されているヤコブ・ウスコライトから始まる。

ウスコライトは、著名なコンピューター言語学者ハンス・ウスコライトの息子である。1960年代後半、高校生だったハンスは、ソ連によるチェコスロバキア侵攻に抗議した罪で母国の東ドイツで15カ月間投獄された。釈放後は西ドイツに逃れ、ベルリンでコンピューターと言語学を学んだ。その後、米国に渡り、カリフォルニア州メンローパークの研究機関であるSRIの人工知能研究所で働いていたときにヤコブが生まれた。

一家はやがてドイツに戻り、ヤコブは大学に進学した。言語学を専門にするつもりはなかったが、大学院に進学する際にグーグルのマウンテンビュー・オフィスにて翻訳チームでのインターンシップを経験した。父親と同じ分野に進んだのだ。それから博士号取得の計画を捨て、12年、他のウェブサイトにユーザーを誘導することなく検索ページ内で質問に答えられるシステムを研究するグーグルのチームへの参加を決めた。少し前にはアップルが簡単な会話に短い答えを返せると謳うバーチャルアシスタントSiriを発表したばかりで、グーグル幹部は競合企業による大きな脅威の匂いを嗅ぎ取っていた。Siriに検索トラフィックを奪い取られるかもしれない、と。そうして、ウスコライトが所属する新興チームへの注目が一気に集まった。

「結局は空騒ぎでした」とウスコライトは言う。Siriがグーグルを脅かすことはなかった。それでも彼は、人間と対話のようなものをするコンピューターの開発に携わるチャンスを歓迎した。かつては進歩の遅い研究分野だった回帰型ニューラルネットワークが、AI工学の手法としてたちまちほかを追い抜き始めた。この種のネットワークは多くの層で構成されており、層の間で情報を何度もやり取りすることで最適な反応を特定する。ニューラルネットワークは画像認識などの分野で大きな成果を上げ、突如としてAIのルネッサンスが幕を開けた。グーグルはこの技術を取り入れるために急いで従業員の配置換えをした。メール文章の自動補完や、比較的単純なカスタマーサービスを担うチャットボットなど、人間のような応答を生成できるシステムの開発を目指した。

しかし、この分野は壁にぶつかっていた。回帰型ニューラルネットワークは長い文章をうまく分析できなかった。例えばこんな文章を考えてみよう。野球選手のジョーは、おいしい朝食を食べた後、公園に行ってヒットを2本打った。ここで「ヒットを2本」という言葉の意味を理解するためには、言語モデルは野球に関する部分を記憶していなければならない。擬人化した表現で言えば、その部分に注意を払っていなければならない。その点の改善のために採用された「長・短期記憶（LSTM）」は、言語モデルによる長く複雑な文章の処理を可能にするイノベーションだった。しかし、そのネットワークも結局は単語を一つひとつ処理しているだけで、のちの文章の手がかりになりうる文脈を捉えられなかった。「採用されていた手法はおおむね応急処置的なものでした」とウスコライトは言う。「大規模な運用に適したものはまだ開発できていませんでした」

2014年頃、ウスコライトは別のアプローチの考案に乗り出し、その機構を「セルフアテンション（自己注意）」と呼んだ。この種のネットワークは文章のほかの部分を参照しながら単語を解釈することができる。文中のほかの部分を考慮することで、単語に込められた意味を明確にとらえて優れた出力が可能になるのだ。「すべての要素を考慮し、多くの入力を同時に取り入れて、非常に絞った出力を効率的に生み出せます」と彼は言う。AI科学者たちはニューラルネットワークの働きを実際の脳の働きと混同しないよう比喩表現に注意するが、ウスコライトはセルフアテンションが人間の言語処理方法にいくらか似ていると考えているようだ。

セルフアテンション・モデルはスピードと性能の両面で回帰型ニューラルネットを上回るかもしれない、と彼は考えた。また、そのモデルによる情報の扱い方は、機械学習ブームを支えるために大量生産されていた高性能並列処理チップにまさしく適するものだった。1語ずつ順番に見ていく直線的なアプローチではなく、複数の単語を一緒に見る並列的なアプローチをとるからだ。適切に使えば、セルフアテンションモデルだけでいかなる既存のモデルよりも優れた結果を得られるのではないか、とウスコライトは考えた。

このアイディアが世界を揺るがすと誰もが信じたわけではなく、彼がグーグルに勤めている間にグーグル・ファカルティ・リサーチ・アワードを二度受賞していた父親も懐疑的だった。「みんな眉をひそめました。既存のニューラルアーキテクチャをすべて捨て去るものでしたから」とヤコブ・ウスコライトは言う。回帰型ニューラルネットに別れを告げるなど、あまりにも異端な考えだった。「夕食の席で父と話したとき、必ずしも互いの意見は一致しませんでした」

ウスコライトは数人の同僚を説得し、セルフアテンションに関する実験を共に行なった。実験結果には将来性が見え、チームは16年に論文を発表した。ウスコライトは研究をさらに突き詰めたいと思った（その実験ではほんの短い文章しか使わなかった）が、共同研究者たちは誰も興味を示さなかった。そこそこの儲けで満足してカジノを去る人のように、得られた見識を外で活かすほうに目を向けたのだ。「モデルはすぐに実用できるものでした。論文に関わった人たちはそこから実際の成果を得たいと考え、検索、ひいては広告など、グーグルのさまざまな事業分野にこのモデルを実装しました。あの研究は多くの面で大成功でしたが、わたしはそのまま終わりたくなかったんです」とウスコライトは言う。

セルフアテンション・モデルならはるかに大きなタスクもこなせるはずだとウスコライトは感じていた。耳を貸す人にもそうでない人にも、機械学習には別のアプローチがあると訴えた。グーグルキャンパスの北端、チャールストン・ロード沿いのその場所の住所にちなんで名づけられた「1945棟」のホワイトボードに自らのビジョンを描きながら。

/ NAME: ILLIA POLOSUKHIN / OCCUPATION: COFOUNDER OF NEAR

16年のある日、ウスコライトはイリア・ポロスキンという名の科学者とグーグルのカフェでランチをしていた。ウクライナ生まれのポロスキンは、グーグルに入社してからもうすぐ3年だった。彼が配属されたチームは、検索フィールドに入力された直接的な質問に対する回答の提供を担当していた。だが、いろいろと壁はあった。「Google.com上で質問に答えるためには、非常に安価かつ高性能なシステムが必要です。数ミリ秒内に回答しなければなりませんから」とポロスキンは言う。彼の愚痴を聞いたウスコライトにとって、解決策を導き出すのはたやすかった。「セルフアテンション・モデルを使ってみてはどうか、と提案されました」とポロスキンは言う。

ポロスキンはアシシュ・ヴァスワニという名の同僚と共同で作業することもあった。インドで生まれ、主に中東で育ったヴァスワニは、南カリフォルニア大学に進学し、同校精鋭の機械翻訳グループに所属して博士号を取得した。その後、グーグル、なかでも「グーグル・ブレイン」という比較的新しい組織に加わるためにマウンテンビューに移った。彼はグーグル・ブレインについて、「ニューラルネットワークが人知を前進させる」と信じる「急進的な集団」だったと語る。それでも、ヴァスワニは大きなプロジェクトに関わる機会を探していた。彼のチームはポロスキンの言語チームが入る1945棟の隣の「1965棟」で働いており、セルフアテンションの構想はヴァスワニの耳にも入っていた。これが自分の求めるプロジェクトになりうるだろうか。彼は研究への参加に同意した。

/ NAME: ASHISH VASWANI / OCCUPATION: COFOUNDER AND CEO OF ESSENTIAL AI

3人は共同で設計書を作成し、「Transformers: Iterative Self-Attention and Processing for Various Tasks（トランスフォーマー：反復的セルフアテンションと、多様なタスクに適用されうるその処理）」と名づけた。「トランスフォーマー」という名前は「ゼロ日目」から皆で決めていたとウスコライトは言う。その構想は、取り込んだ情報をトランスフォームする（＝大きく変容させる）メカニズムによって、セルフアテンション・モデルが人間と同程度に文章を理解する（少なくともそう錯覚させる）というものだ。また、ウスコライトには子どものころにハズブロ社製のアクションフィギュアで遊んだ思い出があった。「幼いころ、『トランスフォーマー』の小さなおもちゃをふたつもっていました」と彼は言う。設計書の最後には、山地で6体のトランスフォーマーがレーザーを撃ち合っているイラストが添えられた。

冒頭の1文も威勢がいい ──「ぼくらは最高だ」

人生最大の外れ予測

2017年前半、ポロスキンはグーグルを退社して自身の会社を立ち上げた。そのころには新たな協力者が加わっていた。インド人エンジニアのニキ・パーマーは米国のソフトウェア企業のインド拠点で働いていたが、米国に移住することになった。彼女は2015年に南カリフォルニア大学で修士号を取得し、ビッグテック企業のすべてから内定を得た。そこから選んだのはグーグルだった。入社したパーマーはウスコライトのチームに入り、グーグル検索の機能向上を目的とするモデルバリアント開発に携わった。

/ NAME: NIKI PARMAR / OCCUPATION: COFOUNDER OF ESSENTIAL AI

もうひとりの新メンバーはリオン・ジョーンズだ。英国のウェールズで生まれ育った彼は、その地では「普通のものじゃなかったから」コンピューターに魅せられたという。バーミンガム大学でAIをテーマにした講義を受け、古い時代のおもしろいテクノロジーとして紹介されたニューラルネットワークに興味をもった。09年7月に修士号を取得したが、不況下で職に就けず、数カ月間は生活保護を受けて暮らした。それから地元の会社に就職したが、「神頼み」でグーグルにも応募した。最終的にグーグル・リサーチで単発の案件に携わることになり、ポロスキンが上司になった。ある日、ジョーンズは同僚のマット・ケルシーからセルフアテンションの構想について聞き、のちにトランスフォーマーのチームに加わった（その後、ジョーンズはケルシーに会ったときにトランスフォーマー計画の状況を簡単に話した。ケルシーはその将来性を信じなかった。「あのときは『うまくいくとは思えないけど』と彼に言いました。人生最大の外れ予測でしたね」とケルシーは語る）。

トランスフォーマーの研究は、同じく大規模言語モデルの改良に取り組んでいたグーグル・ブレインの研究者たちを引きつけた。この段階でチームに加わったのは、ポーランド出身で理論コンピューター科学を専門とするルカシュ・カイザーと、彼の下でインターンをしていたエイダン・ゴメスだ。ゴメスはカナダのオンタリオ州にある小さな農村で育ち、毎年春になると一家でカエデの木からメープルシロップを採取していた。トロント大学の3年生のときに彼はAIに「恋をし」、機械学習研究グループに加わった──ジェフリー・ヒントンの研究室である。それから彼は、興味深い論文を書いたグーグルの人たちを見つけては連絡を取り、研究をさらに発展させるアイデアをもちかけた。それにカイザーが食いつき、彼をインターンに誘ったのだ。そのインターンシップが本来自分のような学部生ではなく博士課程の学生を対象とするものであることをゴメスが知ったのは数カ月後だった。

カイザーとゴメスは、自分たちが取り組んでいる問題に対してセルフアテンション・モデルが有望かつ根本的な解決策になりそうだとすぐに理解した。「このふたつのプロジェクトを統合すべきかどうか、慎重に話し合いました」とゴメスは言う。辿り着いた答えはイエスだった。

トランスフォーマー・チームは、ある言語から別の言語へ文章を翻訳するセルフアテンション・モデルの構築に取りかかった。性能の測定には、機械の出力と人間の作業による翻訳を比較する評価尺度「BLEU」を用いた。この新たなモデルは最初から優れたパフォーマンスを見せた。「机上の空論でしかない状態からスタートして、当時LSTMに代わる最良のアプローチとされていたモデルと同等以上のものができたのです」とウスコライトは語る。しかし、LSTMそのものと比べれば、「より優れているというわけではなかった」

魔法使いの登場

チームはそこで行き詰まった──17年のある日、ノーム・シャジアが偶然そのプロジェクトを耳にするまでは。シャジアは00年にグーグルに入社したベテラン社員で、入社時は初期の広告システム開発に携わり、いまや社内では有名な人物だった。5年前から深層学習の研究に取り組んでいた彼は、最近では大規模言語モデル（LLM）に興味をもっていた。しかしどのモデルの性能も、シャジアが実現を目指すレベルの自然な会話を生み出すにはほど遠かった。

1965棟の廊下を歩いていたとき、シャジアはカイザーのワークスペースを通りかかった。そこから熱い会話が聞こえてきた。「アシシュがセルフアテンション・モデルを使う構想について話していて、ニキがとても興奮していたのを覚えています。わたしも、おお、これはすごいアイデアだ、と思いました。楽しくて頭のいい人たちが将来有望なことをやっているグループみたいだ、と」。シャジアは既存の回帰型ニューラルネットワークに「苛立ち」を感じていたので、「代わりになるものをつくってしまおう！」と考えた。

彼のグループ入りは決定的な一歩だった。「セルフアテンションのような理論的あるいは直感的なメカニズムが少しでも生命の兆候を示すためには、ひと握りの経験豊富な『魔術師』などが本気で実装に取り組む必要があります」とウスコライトは言う。シャジアはすぐに魔術を始めた。まずはトランスフォーマー・チームが作成したコードを自分なりに書き直すことにした。「基本的なアイデアを取り入れ、自分で改めて書いてみました」と彼は言う。ときにカイザーに質問することもあったが、たいていは「しばらくいじってみて、『ほら、うまくいった』と言いに行った」という。のちにチームメンバーが「魔法」「錬金術」「付加機能」などと表現するその手腕で、彼はシステムを新たなレベルへと引き上げたのだ。

「そこから猛ダッシュが始まりました」とゴメスは言う。士気が上がり、さらに5月19日に迫る期限にも間に合わせたかった。12月に開催される年最大のAIイベント、「ニューラル情報処理システム学会」で発表する論文の提出日である。シリコンバレーの冬が過ぎ、春になると、実験のペースは上がった。チームは2種類のトランスフォーマーモデルをテストした。12時間学習させて完成させたものと、3日半かけて学習させた高性能版の「Big」である。それらに英語からドイツ語への翻訳を行なわせた。

前者の基本モデルはあらゆる競合モデルを上回るパフォーマンスを見せ、Bigは既存モデルの記録を決定的に塗り替えるBLEUスコアを獲得しながら効率性も他を上回った。「ほかのどのモデルよりも短時間で翻訳を実行させられました。しかも、それはまだ始まりに過ぎませんでした。数値はその後も改善し続けたのですから」とパーマーは言う。この報告を聞いたウスコライトは、キャンピングカーに置きっぱなしにしていた古いシャンパンボトルを取り出した。

締め切り前の最後の2週間、チームは必死だった。一部のメンバーの正式な職場は1945棟だったが、マイクロキッチンのエスプレッソマシンが充実していたのでたいていは1965棟にいた。「みんな寝ていませんでした」とゴメスは言う。彼はインターンとして、毎日ひたすらバグを修正しながら論文用の図表も作成した。この種のプロジェクトではアブレーション［編註：モデルの構成要素の一部分を取り除いて実験結果を比較すること］を行なうのが一般的だ。取り除かれた要素がなくても充分に機能を果たせるか調べるためである。

「手法とモジュールにはあらゆる組み合わせがありました。この組み合わせは有効だ、でもこの組み合わせは意味がない、それならやめて代わりにこっちを使おう、というふうに進めました」とゴメスは言う。「ここでモデルの反応が不自然なのはなぜか？ああ、きちんとマスキングするのを忘れていたからだ。これでもまだ動くか？よし、次に進もう、と。現在トランスフォーマーと呼ばれているものの構成要素はすべて、極めてハイペースで繰り返された試行錯誤の成果なのです」。それでも、シャジアの実装に助けられてアブレーションは「最小限」で済んだとジョーンズは言う。「ノームは魔法使いですよ」

チームで論文を書いていたある夜、オフィスのソファにばたりと倒れ込んだときのことをヴァスワニは思い返す。ソファとほかの空間を仕切るカーテンを見つめていると、その布に描かれた模様がシナプスやニューロンのように見えて驚いた。その場にいたゴメスに、ぼくたちが研究しているものはきっと機械翻訳を超越するよ、と言った。「究極的には、人間の脳と同じように、発話、音声情報、視覚情報というモダリティをすべて単一のアーキテクチャで統合する必要があります」とヴァスワニは言う。「われわれチームが開発しているのはそういう総合的なものだ、という強い直感がありました」

「Attention Is All You Need」

しかし、会社の上層部からは、この研究もおもしろいAIプロジェクトのひとつに過ぎないと見られていた。トランスフォーマー・チームの何人かに、上司からプロジェクトの進捗を報告するよう指示されたことがあるかどうか尋ねてみたが、あまりなかったという。それでも、「このプロジェクトがかなりビッグなものになりうることをチームはわかっていました」とウスコライトは言う。「だからこそ、論文の最後で述べる将来の研究についてのコメントにはかなりこだわりました」

その文は、次に起こりうること、つまり、人間のあらゆる表現様式をトランスフォーマーモデルに応用する未来を予期していた──「わたしたちはアテンションベースのモデルの今後にとても期待している。テキスト以外の入出力モダリティを含む領域にもトランスフォーマーの機能を拡げ、画像、音声、動画についても研究する予定である」

締め切り数日前の夜、ウスコライトは論文にタイトルをつけなければならないことに気づいた。ジョーンズによると、チームはLSTMをはじめとする既存のベストプラクティスを根本的に否定してアテンションというひとつの技術を打ち出そう、ということで意見が一致していた。そこでジョーンズは、ビートルズが楽曲に「All You Need Is Love（愛こそはすべて）」とつけたことを思い出した。それなら、「Attention Is All You Need」というタイトルはどうか？

なぜビートルズか？

「わたしは英国人なので」とジョーンズは言う。「文字通り5秒で考えました。まさか採用されるとは思いませんでしたが」

チームは締め切り直前まで実験結果を集め続けた。「英語－フランス語間の翻訳に関する数値が出たのは論文を提出する5分前でした」とパーマーは言う。「わたしは1965棟のマイクロキッチンに座って、最後の数字を打ち込みました」。論文を送信したときには期限まで2分を切っていた。

ほとんどすべてのテック企業と同様、グーグルはすぐにこの研究に関する仮特許を申請した。他者によるアイデアの使用を阻止するためではなく、むしろ権利侵害の訴えに対する防衛的な目的のもと特許リストを拡充しておくためだ（同社には「技術が進歩すればグーグルが恩恵を受ける」という考え方がある）。

学会の査読者たちから返答が届いたとき、反応はまちまちだった。「ひとりは肯定的、ひとりは極めて肯定的、ひとりは『まあOK』という感じでした」とパーマーは言う。研究は夜のポスターセッションで発表できることになった。

12月になるころには、論文は大きな話題を呼んでいた。12月6日に行なわれた4時間のセッションには、研究内容についてもっと知りたいという科学者たちが詰めかけた。チームは声が枯れるまで話し続け、午後10時半にセッションが終わっても、まだ人だかりができていた。「退場くださいと警備員が声をかけていました」とウスコライトは言う。そんな彼の心が最も満たされた瞬間は、コンピューター科学者のセップ・ホフライターがやってきてチームの研究を賞賛したときかもしれない。かなりの賛辞と言える。ホフライターは、トランスフォーマーによってAIにおける主要ツールの座から蹴落とされたばかりの長・短期記憶モデルの共同発明者なのだから。

「誰もその意味を真に理解していなかった」

もっとも、トランスフォーマーが即座に世界を征服したわけではないし、グーグル社内の覇権さえすぐには握れなかった。論文が発表されたころ、現在の検索インデックスをすべて破棄しトランスフォーマーを使って巨大ネットワークの学習を進めるべきだ、とシャジアがグーグル幹部に提案したことをカイザーは思い返す。グーグルの情報整理法をまさに一変させる提案だ。当時はカイザーでさえさすがに突飛すぎると思った。それがいまでは、誰もが時間の問題だと考えている。

グーグルよりもずっと早く飛びついたのが、スタートアップのOpenAIだ。論文が発表された直後、OpenAIの主任研究員であるイリヤ・サツケバーは（かつてグーグルに在籍していたときからトランスフォーマー・チームを知っていた）、同僚の科学者であるアレック・ラドフォードにこの構想について研究してはどうかと提案した。そうして最初のGPT製品が誕生した。OpenAIの最高経営責任者（CEO）であるサム・アルトマンは、昨年のわたしの取材でこう語った。「トランスフォーマーの論文が発表されたとき、グーグルの誰もその意味を真に理解していなかったと思います」

実際の社内の状況はもっと複雑だった。「わたしたちにとって、トランスフォーマーが魔法をもたらすだろうことは明らかでした」とウスコライトは言う。「それではなぜ18年にグーグル版のChatGPTが存在しなかったのか、と考えたくなるでしょう。現実的に考えれば、19年か20年にはGPT-3か、3.5レベルのものさえできていたかもしれないのに。問題は、グーグルがその可能性を理解していたのかどうかではありません。理解していたのになぜ何もしなかったのか、ということです。答えは単純ではありません」

/ NAME: AIDAN GOMEZ / OCCUPATION: COFOUNDER AND CEO OF COHERE

テクノロジー評論家の多くは、かつてイノベーション中心の遊び場だったグーグルがいまや利益重視の官僚主義体制へと変わってしまったと指摘する。ゴメスが『フィナンシャル・タイムズ』に語ったように、「グーグルは現代化しようとしていなかった。この技術を取り入れようとしなかった」。しかし、自社の技術で何十年もの間、業界をリードし莫大な利益を得てきた巨大企業にとって、新たな技術に切り替えるというのは非常に大胆な決断だろう。それでもグーグルは18年、翻訳ツールを皮切りにトランスフォーマーを製品に統合し始めた。同年にトランスフォーマーを基盤とした新しい言語モデル「BERT」も導入し、翌年には検索システムへの適用を開始した。

しかし、こうした水面下の変化は、OpenAIの飛躍的進歩やマイクロソフトによる製品ラインへのトランスフォーマーシステムの大胆な統合に比べると控えめに思える。昨年、なぜChatGPTのようなLLMを最初に開発しなかったのかとグーグルCEOのスンダー・ピチャイに尋ねたところ、今回は他社にリードさせるのが有利だと考えたのだという。「うまくいくのかどうか完全にはわかりませんでしたから。実際、どのように機能するか明らかになってからのほうが色々なことができるものです」と彼は言った。

一方、論文の著者8人全員がすでにグーグルを去っていることは紛れもない事実だ。ポロスキンが立ち上げた会社Nearはブロックチェーンを構築し、そのトークンの時価総額はおよそ40億ドル（約6,000億円）に達している。パーマーとヴァスワニは21年にタッグを組んでAdept社（推定評価額10億ドル（約1,500億円））を設立し、現在は2社目となるEssential AI（調達額800万ドル（約12億円））の立ち上げに取り組んでいる。リオン・ジョーンズが東京に拠点を置くSakana AI社の評価額は2億ドル（約300億円）だ。21年10月にグーグルを退社したシャジアはCharacter AI社（推定評価額50億ドル［約7,600億円］）を共同設立した。インターンだったエイダン・ゴメスは19年にトロントでCohere社を共同設立した（推定評価額22億ドル［約3,400億円］）。ヤコブ・ウスコライトが立ち上げたバイオテクノロジー企業Inceptiveの時価総額は3億ドル（約460億円）である。これら企業（Nearのみ例外）の事業はすべてトランスフォーマーの技術を土台にしている。

/ NAME: LUKASZ KAISER / OCCUPATION: RESEARCHER AT OPENAI

起業していないのはカイザーだけだ。OpenAIに加わった彼は、昨年アルトマンが「未知というベールを押し開けて研究のフロンティアを拡げる」と語った新技術「Q*」の開発者のひとりである（これについてインタビューでカイザーに質問しようとしたとき、OpenAIの広報担当者はテーブルを飛び越えそうな勢いで彼を黙らせた）。

グーグルにとって彼／彼女らの退社は惜しいものか？もちろんそうだし、数々の新興AI企業に移っていった他の元社員たちについても同様だ（トランスフォーマー・チームの退社についてピチャイに尋ねたとき、彼は業界の寵児であるOpenAIを去る人材もいるのだとして、「AIの分野はとても、とても変化が激しいのです」と述べた)。それでも、型破りなアイディアの追求をサポートする環境を整えたのは確かにグーグルだ。「多くの面でグーグルは最先端を進んでいます。適切な頭脳に投資し、従業員が興味を掘り下げて限界に挑むことができる環境を提供したのですから」とパーマーは言う。「トランスフォーマーを採用するのに時間がかかったのは、それほどおかしなことではありません。グーグルには失えないものが他社より多かったのです」

その環境がなければトランスフォーマーは生まれなかった。著者たちは全員グーグル社員であっただけでなく、同じオフィスで仕事をしていた。廊下での出会いやランチ中に耳にした会話が、のちの大きな瞬間につながったのだ。このチームは文化的にも多様である。8人のうち6人は米国外出身で、残りの2人は、グリーンカードを取得したうえでカリフォルニアに一時的に滞在していたドイツ人夫婦の子どもと、一家で迫害から逃れてきた米国人一世である。

ベルリンのオフィスで今回の取材を受けたウスコライトは、イノベーションは適切な条件が揃ってこそ生まれると語る。「人生のちょうどいい時期にいて、何かに熱中している人々が集まること。その条件が揃って、みなで楽しみながら適切な問題に取り組み、さらに運がよければ、魔法が起こるのです」

ウスコライトと著名な父親との間でも魔法が起こった。食卓での議論を経て、ハンス・ウスコライトは会社を息子と共同設立し、LLMの構築に取り組んでいる。もちろん、トランスフォーマーを使って。

（Originally published on wired.com, translated by Risa Nagao/LIBER, edited by Michiaki Matsushima）

※『WIRED』によるAIの関連記事はこちら。ChatGPTの関連記事はこちら。

Related Articles

Sundar Pichai in front of a pink background

会話型AIを「Gemini」に刷新したグーグルは、“検索の次”に備えようとしている

グーグルが会話型AI「Bard」の名称を「Gemini」に刷新した。これには検索エンジンを使わずにタスクを処理する時代に備える狙いがあるのだと、CEOのスンダー・ピチャイは語る。

Purple and yellow mannequin head that is pixelated and motion blurred

1秒以内に回答するAIチャットボット「Groq」の衝撃

スタートアップの「Groq」はAI専用のチップと、質問後ほぼ瞬時に回答するチャットボットを開発している。グーグルのTPUの生みの親である同社のCEOに、この技術で何が可能になるかについて訊いた。

チャットボットよさようなら。AIエージェントの時代へようこそ

コードを書くだけでなく、問題解決の計画からコードの検証、実装までできるAIエージェントが登場した。スタートアップや大手企業の開発の焦点は、「質問に答えるだけのチャットボット」から「実際にタスクをこなせるAIエージェント」へと移っている。

雑誌『WIRED』日本版 VOL.52
「FASHION FUTURE AH!」

ファッションとはつまり、服のことである。布が何からつくられるのかを知ることであり、拾ったペットボトルを糸にできる現実と、古着を繊維にする困難さについて考えることでもある。次の世代がいかに育まれるべきか、彼ら／彼女らに投げかけるべき言葉を真剣に語り合うことであり、クラフツマンシップを受け継ぐこと、モードと楽観性について洞察すること、そしてとびきりのクリエイティビティのもち主の言葉に耳を傾けることである。あるいは当然、テクノロジーが拡張する可能性を想像することでもあり、自らミシンを踏むことでもある──。およそ10年ぶりとなる『WIRED』のファッション特集。詳細はこちら。