2024年03月28日 11時24分ソフトウェア

Anthropic「Claude 3 Opus」がLLM評価指標「Chatbot Arena」で初めてOpenAI「GPT-4」のパフォーマンスを上回る快挙を達成

2024年3月に発表されたAnthropicの大規模言語モデル(LLM)「Claude 3」は、20万トークンまでのコンテキスト長に対応しているほか、わずか2つのプロンプトから量子アルゴリズムを設計可能との報告も挙がっています。今回、AI研究者が大規模言語モデルの相対的な能力を測定するために使用する「Chatbot Arena」において、Claude 3の上位モデル「Claude 3 Opus」がOpenAIの大規模言語モデル「GPT-4」の性能を初めて上回ったことが報告されました。

Anthropic's Claude 3 replaces OpenAI's GPT-4 as most popular user-rated LLM
https://the-decoder.com/anthropics-claude-3-replaces-openais-gpt-4-as-most-popular-user-rated-llm/

Claude takes the top spot in AI chatbot ranking — finally knocking GPT-4 down to second place | Tom's Guide
https://www.tomsguide.com/ai/claude-takes-the-top-spot-in-ai-chatbot-ranking-finally-knocking-gpt-4-down-to-second-place

“The king is dead”—Claude 3 surpasses GPT-4 on Chatbot Arena for the first time | Ars Technica
https://arstechnica.com/information-technology/2024/03/the-king-is-dead-claude-3-surpasses-gpt-4-on-chatbot-arena-for-the-first-time/

Chatbot Arenaとは、大規模言語モデルのパフォーマンスを比較するために、LMSYS Orgによって作成されたベンチマークプラットフォームです。このベンチマークは、人間のユーザーをオープンなチャットに招待し、匿名のAIモデル2種類と会話を実施させた上で投票を行い、チェスで用いられるイロレーティングで順位付けをするというものです。

2023年5月3日にリリースされ、2023年5月10日前後にChatbot Arenaに登録されたGPT-4は、登場以来Chatbot Arenaのチャートにおいて常にトップに立っていました。しかし、2024年3月27日の更新で、Anthropicの大規模言語モデル「Claude 3 Opus」がGPT-4のパフォーマンスを上回ったことが報告されています。

加えて、Claude 3の中で最も安価でコスト効率に優れる「Haiku」もGPT-4の一部モデルに匹敵する性能を有していることが判明。LMSYS Orgは「Claude 3 Haikuは、ユーザーの好みでGPT-4レベルにまで達し、すべての人に感銘を与えています。そのスピードや機能、コンテキストの長さは、市場において並ぶものがありません」と称賛しています。

[Arena Update]

70K+ new Arena votes????️ are in!

Claude-3 Haiku has impressed all, even reaching GPT-4 level by our user preference! Its speed, capabilities & context length are unmatched now in the market????

Congrats @AnthropicAI on the incredible Claude-3 launch!

More exciting… pic.twitter.com/p1Guuf0B3K
— lmsys.org (@lmsysorg)

ソフトウェア開発者のニック・ドボス氏はClaude 3によるこの成果について「王は死んだ」と評しています。

The king is dead

RIP GPT-4
Claude opus #1 ELo

Haiku beats GPT-4 0613 & Mistral large
That’s insane for how cheap & fast it is https://t.co/XWmvTE6h75 pic.twitter.com/fAwzJScLTH
— Nick Dobos (@NickADobos)

また、大規模言語モデルを活用してコード編集を行う「Aider」の開発者であるポール・ゴティエ氏によると、Aiderのコード編集ベンチマークを実行した結果、Claude 3 OpusがGPT-4やGPT-3.5を含む、OpenAIの全ての大規模言語モデルの性能を上回っていたことが明らかとなり、AIを用いたプログラミングに最も適したモデルであることが報告されています。

以下はAiderのコード編集ベンチマークをさまざまな大規模言語モデルで実行した結果を示したグラフです。正答率で比較すると、OpenAIの大規模言語モデルは「gpt-4-0125-preview」の66％が最高でしたが、「claude-3-opus-20240229」はそれを上回る68％という高い正答率を示したことが確認できます。

独立系AI研究者のシモン・ウィルソン氏は「高度なタスクにはOpus、コストと効率を求めるならHaikuなど、利用可能な最高のモデルが初めてOpenAI以外のベンダーのものになりました。私たちは、この分野のトップベンダーの多様性から恩恵を受けているため、今回の結果は非常に有益です」と語っています。

なお、オープンソースAIに重点を置くMetaは2024年中に次世代大規模言語モデル「Llama 3」をリリースすると予想されているほか、OpenAIは2024年夏頃に次世代大規模言語モデル「GPT-5」を公開する可能性が報じられています。

OpenAIの次世代大規模言語モデル「GPT-5」が2024年夏に公開されるとの報道 - GIGAZINE