#AIベンチマーク
全3件の記事
テックJP
AIはエリートの仕事を奪えるか?新型ベンチマーク「Apex-Agents」で見えた限界と2026年の現実
2026年の最新AIベンチマーク「Apex-Agents」で、GPT-5.2やGemini 3 Flashなどの主要モデルが専門職タスクで苦戦。正解率は最高でも24%にとどまり、マルチドメイン推論が大きな壁となっている実態が浮き彫りになりました。
テックJP
AI性能評価指標 v4.0 公開:OpenAI GPT-5.2とClaude Opus 4.5が「実務能力」で激突
Artificial Analysisが最新のAI性能評価指標 v4.0を公開。OpenAI GPT-5.2やClaude Opus 4.5が実務能力で激突。従来のベンチマークは廃止され、仕事の完遂能力が新たな評価軸となります。
テックJP
AIの「審判」LMArenaが1.5億ドルのA輪調達、評価額は17億ドルへ
AI評価の標準を狙うLMArenaが1.5億ドルのシリーズA資金調達を実施。評価額は17億ドルに達し、月間500万人のユーザーデータを武器に、OpenAIやGoogleなどのAIモデルを格付け。ビジネス化も加速し、ARR 3,000万ドルを達成しています。
PRISM by Liabooks
PRISM
広告掲載について
この場所に広告を掲載しませんか
[email protected]