#AIベンチマーク

全3件の記事

2026年の最新AIベンチマーク「Apex-Agents」で、GPT-5.2やGemini 3 Flashなどの主要モデルが専門職タスクで苦戦。正解率は最高でも24%にとどまり、マルチドメイン推論が大きな壁となっている実態が浮き彫りになりました。

Artificial Analysisが最新のAI性能評価指標 v4.0を公開。OpenAI GPT-5.2やClaude Opus 4.5が実務能力で激突。従来のベンチマークは廃止され、仕事の完遂能力が新たな評価軸となります。

AI評価の標準を狙うLMArenaが1.5億ドルのシリーズA資金調達を実施。評価額は17億ドルに達し、月間500万人のユーザーデータを武器に、OpenAIやGoogleなどのAIモデルを格付け。ビジネス化も加速し、ARR 3,000万ドルを達成しています。

PRISM by Liabooks

PRISM

広告掲載について

この場所に広告を掲載しませんか