AIの進歩を測る「5時間の壁」が意味するもの

METRのAI能力測定グラフが示す指数関数的進歩。しかし、この数値が本当に意味するものとは？日本企業が知るべき真実を解説。

5時間。これは最新のAIモデル「Claude Opus 4.5」が、人間なら5時間かかる作業を独立して完了できることを示す数値です。しかし、この数字が一人歩きして、AIの脅威論から楽観論まで様々な憶測を呼んでいます。

話題の中心：METRグラフとは何か

METR（Model Evaluation & Threat Research）は、AI研究の非営利団体として、AIモデルの能力を測定する独特な手法を開発しました。彼らが作成したグラフは、AIの能力が指数関数的に向上していることを示し、AI業界で大きな話題となっています。

昨年11月にAnthropicがリリースしたClaude Opus 4.5は、従来の予測を大幅に上回る性能を示しました。Anthropicの安全性研究者の一人は「この結果を受けて研究の方向性を変える」とツイートし、別の社員は「怖くなった」と率直な感想を述べています。

しかし、METRの技術スタッフであるSydney Von Arx氏は「人々はこのグラフを読み込みすぎている面がある」と指摘します。

METRグラフの縦軸は「時間軸（time horizon）」と呼ばれる独特な指標です。これは、AIモデルが50%の確率で成功できるタスクを、人間が完了するのにかかる時間を表しています。

測定方法は以下の通りです：

つまり、Claude Opus 4.5の「5時間」という数値は、「人間が5時間かけて完了するタスクの50%をAIが成功できる」という意味であり、「AIが5時間連続で作業できる」という意味ではありません。

この指標が示すトレンドは確かに印象的です。トップクラスのモデルの時間軸は約7ヶ月ごとに倍増しており、2020年中頃には9秒、2023年初頭には4分、2024年後半には40分のタスクを処理できるようになっています。

ベンチャーキャピタルSequoia Capitalは最近、このグラフを引用して「従業員や契約者として機能するAIが間もなく登場する」と予測しました。しかし、日本企業にとって重要なのは、この数値の限界を理解することです。

まず、評価されているタスクは主にコーディング関連に限定されています。イリノイ大学のDaniel Kang助教授は「モデルはコーディングが上達しても、他の分野で魔法のように向上するわけではない」と指摘します。

さらに、実際の職場環境は評価タスクよりもはるかに複雑です。METRの研究では、タスクの「混乱度」も測定していますが、現実の業務はさらに予測不可能な要素を含んでいます。

日本の文脈で考えると、この技術進歩は労働力不足という課題に対する一つの解決策となる可能性があります。特に、ソフトバンクやNTTなどの技術系企業は、こうしたAI能力の向上を自社のサービス向上に活用できるでしょう。

一方で、日本企業が重視する品質管理や顧客サービスの観点から見ると、AIの「50%の成功率」という指標は、まだ実用レベルに達していないとも言えます。日本の製造業が求める「ゼロ欠陥」の基準とは大きな隔たりがあります。

トヨタやソニーのような企業は、AIを補助ツールとして段階的に導入することで、人間の専門性を活かしながら効率性を向上させるアプローチを取る可能性が高いでしょう。