ソフトウェア

大規模言語モデルが文章を扱うように3Dオブジェクトを扱える生成AI「MeshGPT」が登場


大規模言語モデルが言語を話す仕組みを利用して3Dオブジェクトを生成するAI「MeshGPT」が登場しました。

MeshGPT: Generating Triangle Meshes with Decoder-Only Transformers
https://nihalsid.github.io/mesh-gpt/


[2311.15475] MeshGPT: Generating Triangle Meshes with Decoder-Only Transformers
https://arxiv.org/abs/2311.15475


MeshGPT: Generating Triangle Meshes with Decoder-Only Transformers - YouTube


大規模言語モデルは言語を話せるほか、トレーニング次第ではプログラミング言語を「話す」ことが可能になります。


そこで研究チームはモデルに対し、3Dオブジェクトの構成要素であるメッシュを「話す」ことができるようにトレーニングを行いました。


具体的なトレーニングの手法はこんな感じ。まずはさまざまな3Dオブジェクトのデータを元にメッシュの「語彙(ごい)」を学ばせ、次に学習した語彙に基づいてTransformerをトレーニングしています。


語彙学習の仕組みは下図の通り。ニューラルネットワークがメッシュのジオメトリトポロジーの情報を扱えるようにしています。


語彙学習の後、大規模言語モデルに単語と単語のつながりを覚えさせるのと同様に、Transformerにメッシュとメッシュのつながりを覚えさせます。


大規模言語モデルが文章の続きを書けるのと同じように、MeshGPTはモデルの一部を元に残りの部分を完成させることが可能。


MeshGPTは他の手法に比べて頂点の数が多すぎたり少なすぎたりせず、適度にディテールのあるモデルを生成することができるとのこと。


生成物の品質を示すFIDスコアが30ポイント向上したり、形状カバレッジが9%増加したりするなど、MeshGPTはメッシュの生成を大きく改善できたと述べられています。

この記事のタイトルとURLをコピーする

・関連記事
「AIの力で3Dモデルを作成する」とうたう企業が実は人力だった - GIGAZINE

ムービーを高品質な3Dデータに変換できる手法が登場 - GIGAZINE

テキストや画像から3Dモデルを生成するオープンソースのAI「Shap-E」をOpenAIが発表 - GIGAZINE

ギザの大ピラミッドの中を自由に見て回れる3Dバーチャルツアー「Inside the Great Pyramid」 - GIGAZINE

3Dモデル生成AI「Point-E」をOpenAIがオープンソース化して誰でもダウンロード可能に、これまでの600倍高速にプロンプトから3Dオブジェクトを生成して表示可能 - GIGAZINE

in ソフトウェア, Posted by log1d_ts

You can read the machine translated English article here.