ジェネレーティブAIが、動画でも転換点を迎える日がやってくる

アルゴリズムが生成したミーム動画が話題になりつつある。自動生成された動画の突然の増殖は、AIによる動画生成ツールの技術が発達して爆発的な進化を遂げる前兆かもしれない。
Multicolored glass spheres balanced on red metallic beams that are just about to topple over
Photograph: Jonathan Kitchen/Getty Images

人工知能(AI)が生成した印象的なミーム動画を、すでにいくつか目にした人もいるかもしれない。ハリー・ポッターをモチーフにバレンシアガのコマーシャルをつくった動画や、ウィル・スミスがスパゲティを食べている悪夢のような動画などがインターネット上で話題になった。この現象は、動画を生成するAIの能力の急速な進化とともに、技術が悪用される可能性を示している。

こうした動画の登場は、2022年にAIによる画像生成ツールが広まったときの状況を想起させる。「Craiyon」(以前のサービス名は「DALL-E Mini」)などのプログラムが登場し、赤ちゃんがガソリンスタンドで強盗をする監視カメラ風の画像やダース・ベイダーの法廷画、イーロン・マスクがクレヨンを食べている画像など、画質は荒いものの、何が描かれているかわかるシュールな画像を誰でも簡単に作成できるようになったのだ。

Craiyonは、ChatGPTの開発元であるOpenAIが当時利用を慎重に制限していた画像生成ツール「DALL-E 2」をまねたオープンソースのサービスである。そしてこのツールは、AIが文章による指示から本物に見える写真や人間が描いたような画像を生成できる能力を初めて世界に示した。

その後「DALL-E」は誰でも利用できるようになった。そして、MidjourneyDreamStudioなどの開発元は、キーボードで少し指示を出すだけで複雑でリアルな画像を簡単に作成できる同様のツールの開発や改良を進めたのである。

オンライン画像との付き合い方が問われる

こうした画像生成ツールの基盤となるアルゴリズムの変数を調整することに加え、学習用のデータを増やし、サービスを動かすグラフィックチップを増やすことで、こうしたツールは本物のように見える画像をつくることが非常にうまくなった。

ネット掲示板「Reddit」の奇妙なAI画像専用のカテゴリーからいくつか例を挙げよう。極右の司会者のアレックス・ジョーンズがLGBTQなどによるプライドパレードに参加している画像や、十戒の石板を収めた「契約の箱」がガレージセールで売られている画像を見てほしい。

このような洗練された技術が広く利用できるようなり、オンラインの画像との付き合い方を考え直す必要性に迫られている。これはAIが生成した米国の前大統領ドナルド・トランプの逮捕現場を描いた画像が3月に拡散されたことで強調された問題だ。

これを受けMidjourneyは、自社サービスにおける無料トライアルの提供を停止することを発表した。この変更でサービスを安易に悪用する人々を減らせるかもしれない。だが、より大きな問題は手付かずのままだ。

『WIRED』がUS版の別の記事でも記しているように、アルゴリズムはまだ文章の指示から説得力のある動画を生成することに苦戦している。たくさんある動画のコマを個別に生成することは計算処理上の負荷が重く、現時点でのAI動画の乱れや途切れの多さが示すように、すべてのコマを通して十分な一貫性を保ち、意味のある動画を作成することは困難なのである。

しかし、AIツールの動画編集の腕はどんどん向上している。ドラマ「フレンズ」や 「ブレイキング・バッド」に基づいてつくられたバレンシアガのミーム動画は、いくつかのAIツールを駆使してつくられたものだ。まずAIツールで静止画像を生成し、そこに別のAIツールで単純なアニメーション効果を付け足す。このようなつくり方でも、完成した動画は印象的なものになる。

AI動画スタートアップの台頭

こうしたなか、プロ向けに画像と動画の作成・編集のAIツールを開発しているスタートアップであるRunway AIが、動画のスタイルを効率的に変更する技術を23年4月上旬に発表した。下の動画は過去に撮影した飼い猫・レオナの動画を、この技術で「雲海」のような場所を歩いている夢のような映像に変換したものである。

Video: Will Knight/Runway

新しい機械学習技術は、新しい可能性の扉を開く。例えば、Luma AIという企業はNeural Radiance Fields(ニューラル放射輝度フィールド、略称NeRF)として知られる技術を使用することで、2次元の写真を3次元の詳細な場面に変換している。同社のアプリは数枚の写真を取り込むことで、完全にインタラクティブな3次元のシーンを生成できるのだ。

これらの動画は、世界がAIによる動画生成の転換点に差しかかっていることを示している。AIによる画像生成のときと同じように、ミームの急増に続いて品質と制御性が大幅に向上し、やがてこの技術があらゆる場所で定着するようになるかもしれない。

AIは一部のアーティストにインスピレーションをもたらす可能性もある。アカデミー賞を受賞した映画『エブリシング・エブリウェア・オール・アット・ワンス』の制作に関わった視覚効果アーティストは、Runwayのツールを使用していた。また映画『ザ・ホエール』や『ブラック・スワン』『π』の監督であるダーレン・アロノフスキーも同社のサービスを気に入っているという。

だが、MidjourneyやDreamStudioが生成した高度に発展した画像を見れば、AI動画がどこに向かっているか、また現実の場面を撮影した動画と偽物とを区別することがどれほど困難になるかを予想できる。もちろん、人々がすでに既存のテクノロジーで動画を操作することは可能だ。それでもまだ比較的コストがかかり、難易度も高い。

ジェネレーティブAIの急速な進化は、ソーシャルメディアが兵器化され、ディープフェイクがプロパガンダをあおる者たちのツールとなっている現代社会に大きな被害をもたらすかもしれない。『WIRED』の別のUS版記事では、ジェネレーティブAIがいかに醜いステレオタイプを捉え、再生産しているかについて真剣に考える必要があると主張している。

「動画は信用していい」という考えは、現時点において信頼に足るものだろう。だが、これまでのように映像が真実を写す確かなものであると想定できなくなるまで、そう時間はかからないかもしれない。

WIRED US/Translation by Nozomi Okuma)

※『WIRED』によるジェネレーティブAIの関連記事はこちらAIの関連記事はこちら


Related Articles
Illustration showing AI generated art of a face covered with the prompts used to generate the art
AIによる画像生成ツールが、2022年になって急速に普及した。このツールの進化の歴史をたどることで、動画生成といった今後の進化が向かう先も見えてくる。
Pope Francis waving
ローマ教皇フランシスコが白いパファーコートを着た偽画像が、ソーシャルメディアで拡散した。この“事件”はジェネレーティブAIが牽引する「ポスト真実」の時代に新たな歴史を刻んだと言っていい。
Former President Donald Trump exiting an SUV while two service men hold the door open.
米国のドナルド・トランプ前大統領の「逮捕現場」という偽画像がTwitterで拡散した。AIによって生成されたこれらの画像は、どうすれば本物と見分けることができるのだろうか。

次の10年を見通す洞察力を手に入れる!
『WIRED』日本版のメンバーシップ会員 募集中!

次の10年を見通すためのインサイト(洞察)が詰まった選りすぐりのロングリード(長編記事)を、週替わりのテーマに合わせてお届けする会員サービス「WIRED SZ メンバーシップ」。無料で参加できるイベントも用意される刺激に満ちたサービスは、無料トライアルを実施中!詳細はこちら