METRはカリフォルニアのAIコーディング能力評価の研究機関だ。彼らは昨年、「AIエージェントが人間の専門家の所要時間の50%でタスクを完了できるか」を測る指標を提案した。2025年3月に最初に発表されたとき、Claude 3.7 Sonnetのこの数字は50分だったが、2025年末にはClaude Opus 4.6は14.5時間にまで改善された。過去2年で、この指標の倍増サイクルは7か月から4か月に短縮された。エージェントの信頼性が次の段階に上がれば、トークン消費は毎年50%増の問題ではなく、一夜にして桁違いに増える。
ポール・グラハムが2008年に書いた『Cities and Ambition(都市と野望)』の一節に、「シリコンバレーでは知恵を尊重するが、その伝えるメッセージは:あなたはより影響力を持つべきだ、これはニューヨークのメッセージとは完全に異なる。ニューヨークではもちろん影響力も重要だが、『10億ドル』を非常に重視し、その富が相続されたものであっても。だがシリコンバレーでは、不動産仲介を除けば、そんなことは誰も気にしない。真に重要なのは、この世界にどれだけ影響を与えたかだ。人々がLarryやSergeyを気にするのは、彼らの富ではなく、Googleを支配しているからであり、Googleはほぼすべての人に影響を与えているからだ」と。今やAIによって、その雰囲気は新たな高みへと推し進められている。
全員トークン最大化、一場誰も止められない軍備競争
執筆者:孟醒
2026年3月24日早朝、私はYC W26バッチのデモデイの観客席に座っていたとき、5番目の会社がプレゼンテーションを始めたのを聞いて、もうメモを取るのをやめることにした。
重要でないわけではないが、自分が記録したこれらの内容は、来月にはもう古くなっているかもしれないと気づいたからだ。
この回の100社以上の企業は、実は非常に集中している:およそ80%は垂直エージェント、例えば弁護士の書類整理、カスタマーサポートの工单配布、HRの履歴書選別など。
もし去年の10月にこれらのプロジェクトを見ていたら、「なかなか面白い」と思っただろう。しかし問題は、この5か月で世界が変わったことだ。
Claude Codeは、もともと開発者向けのツールから、ほぼ誰でも直接使えるインターフェースに変わった。Opus 4.6のリリース後、コーディングの雰囲気の敷居は一気に下がった。
これらの垂直エージェントは、ビジネスの壁ができる前に、今日普通のエンジニアや私自身でも、週末だけで作れるレベルになっている。彼らはすでに投資価値を失いつつある。
YCの一回のプロジェクトサイクルは三か月、今回の12月入所と前期の選抜を合わせると、約5か月前に選ばれた「良い会社」だ。だが、今のAIの進化速度を考えると、その5か月は、すでに何度もパラダイムシフトを起こすのに十分だ。
2012年に初めて起業し、YCのFly Out(現地面接招待)を受けたとき、YCは加速器の道でほぼ一人勝ち状態で、選ばれる会社はしばしば「次の方向性」を代表していた。しかし、競争の構図は変わりつつあり、YCはここ数年で逆に遅れの指標(lagging indicator)になりつつあると感じる。
YCのバッチ制度は、申請、選考、入所、磨き上げ、路演まで、モバイルインターネット時代において非常に成功してきた。しかし、このペースは、より遅い世界に合わせて設計されたものだ。
この1年半、リスク投資業界に戻ると、私はほぼ四半期ごとにシリコンバレーに行っている。最後に行ったのは去年の10月だ。以前は、変化は速いと感じていたが、その「速さ」はほとんど月単位で感じられるものだった。
今回は、「週」で感じる必要がある。
ある晩ご飯のとき、ポストトレーニング(後訓練)をしている友人がふと一言:
「気づいたら、シリコンバレー自体が自分たちについていけなくなってきている。」
全員トークン最大化:誰も止められない軍拡競争
半年前に誰かが私に言ったら、Metaの数万人のエンジニアが競合他社の製品を使ってコードを書いているとしたら、私は冗談だと思っただろう。
しかし、それは本当だ。Metaの全員がClaude Codeを使っている。これはスタートアップでもなく、実験的なチームでもなく、時価総額1兆ドル級の企業だ。
コードの安全性はもう気にしない、トークン予算は爆発、ランキングも盛り上がっている。シリコンバレー全体がコストを気にせずAIに投資している。しかし、その結果はどうだ?
まずコードの安全性。半年前には想像もできなかったことだ。コードは企業のコア資産であり、外部のAPIに触れさせるなんてあり得ないと考えられていた。Metaも最初はそう考え、myclawという内部ツールを作ったが、「使いにくくて誰も使わない」とのことだった。使われなくなった後、会社は緩和し、「顧客データに関わらなければClaude Codeを使っても良い」とした。
次に、各部署は「AIネイティブ組織になるにはどうすればいいか」の内部会議を始め、トレーニングや評価を行った。コードの安全性や使用の安全性といった、かつては当たり前だった線引きはすべて後回しにされ、まず効率を上げることが優先された。
安全性の観点から、GoogleはClaude CodeやCodexなどの競合ツールの使用を禁止しているが、DeepMindだけは例外で、Geminiモデルや内部アプリを担当するいくつかのチームはClaude Codeを使っている。
Googleも努力している。彼らは内部のコーディングツールAntigravityをリリースし、今年2月には、約50%の新しいコードがAIによって書かれていると宣言した。
それでも、DeepMindの人たちはClaude Codeを使い続けている。DeepMindがそうできるのは、Anthropicが彼らにプライベートデプロイを提供しているからだ。Anthropicの推論とトレーニングは、もともとGoogle CloudのTPU上で行われており、信頼関係がある。しかし、Metaや他の巨大テック企業にはその関係はなく、コードの安全性は投げ捨てられている。みんな一つのことに賭けている:まずスピードを上げること。
コードの安全性は最初に倒れた旗だ。次はトークン予算だ。
パロアルトの数社のAIネイティブスタートアップでは、エンジニア一人の年間トークン予算は約2万ドルだ。これは特に珍しい数字ではないが、重要なのは、そのコストがトップエンジニアのAI利用コストにほぼ匹敵することだ。会社はAIを使って人件費を削減しているように見えるが、実際の総コストはほとんど変わっていない可能性もある。人件費をトークンコストに置き換えただけだ。
Metaはこの点で最も極端だ。彼らは内部のトークン消費ランキングを作り、「多く使った者が上位に入る」、最下位は解雇される可能性もあるため、社員は非公式の称号「トークンレジェンド」に巻き込まれている。
しかし、その一方で、Metaは今年二度の大規模なリストラを行い、合計1万人以上を解雇した。一方、全員Claude Codeを使ってトークン量を競い合いながら、大規模な人員削減も進めている。
これら二つの事象は矛盾しない。それは同じ事の二面だ。
私はCクラスの企業を見に行ったとき、技術責任者がSlackを開いて見せてくれた。そこにはエージェントが走り続けており、複数のCursorエージェントが並列で動き、Claude Codeのウィンドウも開かれていた。今のエンジニア界隈で最も流行している不安は、「寝る前に、自分のエージェントが何をしているのか分からないと不安になる」というものだ。
しかし、生産性は本当にそんなに向上したのか?昨年末から、多くのトップ推論エンジンやデータベース企業のCTOたちは、「百倍エンジニア」「十倍効率化」と興奮気味に語る。以前は60人必要だった仕事が、Claude Codeと2人で一週間でできると。
私も最初は彼らと一緒に興奮したが、その後冷静になって、ある疑問が浮かんだ:効率が100倍向上したとしても、会社の売上は100倍増えるのか?製品ラインは100倍拡大するのか?「100倍」の向上は、結局人員削減に繋がるのではないか?
正面からの答えは得られなかった。実際、100倍の効率化は、会社の売上増に反映されるのは、50%か1倍程度だ。
その差はどこにあるのか?今のところ誰も明確には言えない。
「これだけ多くのトークンを使ったのに、会社の遺伝子が変わって別の会社になっているはずだ。でも、何に変わるのかはわからない。」
あるtoBセールス出身の創業者は、彼のチーム16人、2人の営業だけで、12か月で3千万ドルのARR(年間経常収益)を達成したと語る。これはAIコーディングだけで実現した例だ。こうしたケースは確かに稀に見られるが、多くの場合、スタートアップはより多くのものを作り出しているが、それらはまだプロダクトマーケットフィット(PMF)を持っていない。
今のシリコンバレーは、100種類のやり方を試す「バイブコーディング」が流行しており、どれが成功するかを見極めようとしている。だが、次のトレンドを掴めるのは誰か?それはまだわからない。
私が最も印象に残った反例は、Anthropic内部の話だ。あるAnthropicの友人に、「エージェントを使う上で最も苦痛な場面は何か?」と尋ねたところ、「オンコール(即時対応)」だと答えた。
オンコールの典型的なシナリオは、ClaudeのAPIが突然遅くなったり、モデルの推論ノードが落ちたり、ユーザーフィードバックで特定のプロンプト出力が異常だったりしたときに、オンコールエンジニアが迅速に問題の根源を特定し、コードのバグ、計算資源の割り当て問題、モデル自体の異常を判断し、どう修正するか決めることだ。
Anthropicは、世界で最もコーディングエージェントに強い企業だが、その内部のオンコールエージェントは未だに使いにくい。
これが2026年4月の現状だ。蒸気機関はすでに発明されたが、時には馬車より遅く動くこともある。重要なのは、誰もが蒸気機関が最終的に馬車を追い越すと知っているため、皆狂ったように投資を続けていることだ。コードの安全性も無視され、トークン予算は爆発し、ランキングも盛り上がっている。蒸気機関が馬車を超えるのはいつか?誰も知らないが、誰も止まることを恐れない。
なぜなら、止まることの代償は、誤ったトークンの燃焼よりも大きいかもしれないからだ。
また、トークン消費量はおそらく線形ではなく、私が以前自動運転の経験から思ったことを思い出す。2021年、上海で連続5時間の無接管自動運転を初めて実現したとき、それは大きなブレークスルーだった。それ以前は、テスト車両は10台、15台、20台と徐々に増えていたが、その転換点を超えると、すぐに100台、1000台に達した。今日のコーディングエージェントも、似た段階にある。
2021年、上海で滴滴の自動運転が連続5時間無接管を達成したのは、国内自動運転の一里塚だった。
METRはカリフォルニアのAIコーディング能力評価の研究機関だ。彼らは昨年、「AIエージェントが人間の専門家の所要時間の50%でタスクを完了できるか」を測る指標を提案した。2025年3月に最初に発表されたとき、Claude 3.7 Sonnetのこの数字は50分だったが、2025年末にはClaude Opus 4.6は14.5時間にまで改善された。過去2年で、この指標の倍増サイクルは7か月から4か月に短縮された。エージェントの信頼性が次の段階に上がれば、トークン消費は毎年50%増の問題ではなく、一夜にして桁違いに増える。
今年末までに、多くの企業(大手テックも含む)が、実は20%の人員だけで十分になると予測する声もある。
xAIの崩壊後、ロケット開発者たちがモデル開発に乗り出す
山火事の中、夜9時過ぎ、かつてマスクと長く仕事をした友人が私の向かいに座った。3時間以上の会話の中で、彼は一度もマスクの良さについて話さなかった。
一つのエピソード:彼に、「xAIで3年間働いてきたが、日々のリズムはどうだった?」と尋ねたところ、「ほとんど会社に住んでいたので、家はほとんど何も整えていない。ベッドも買っていない。睡眠ポッド(睡眠用の小部屋)で寝ていた」と答えた。私は、「今は大量の株式報酬もあるのに、少なくともベッドくらい買ったら?」と促したが、彼は笑った。
xAIの仕事のハードさは、シリコンバレーでは有名だが、今や初期チームの90%は去ったと言われる。彼らには退職グループがあり、日々人を増やしている。
きっかけはトニー・ウーの解雇、その連鎖反応だ。内部の人によると、「他の会社では半年かかる幹部の退職も、xAIでは1か月で済む」とのこと。去年の10月には、マスクの不満を感じていた人もいたが、ここまで早く一掃されるとは思わなかった。
今やマスクはSpaceXやTeslaから人を引き抜き、xAIを引き継ごうとしている。「ロケットを作る人たちが、モデルも作り始めた」。
マスクの不満は、彼が莫大な資金と計算資源を投入したにもかかわらず、Grokが一線に入れなかったことに由来する。なぜだろう?これは私が出会ったxAIの関係者全員に共通している疑問だ。答えは、私の想像よりもずっと単純だと、ある友人は言う。「チームの戦闘力は非常に高いし、仕事も猛烈にやっている。でも、製造業の管理方式は、大規模モデル企業には合わないのかもしれない」。
私は8年間の自動運転経験から、こう感じている。マスクはSpaceXやTeslaで、システムエンジニアリングを本質的にやってきた。長いサプライチェーンに関わり、ソフトウェア、ハードウェア、供給網にまたがるが、最終的にはエンドツーエンドのエンジニアリングの問題だ。
彼は、その長いチェーンの中で、重要なレバレッジポイントを見つけ出し、時間を極限まで圧縮して突破口を見出すのが得意だ。ロケットエンジンの連結や再利用着陸も、その思考の産物だ。
しかし、xAIでは、彼はシステムエンジニアリングのようなやり方をしていない。彼は今、3つのことをしている:まず、世界最大のGPUクラスターを投資し(今や「neo lab」から「neo cloud」へと変貌し、Cursorに計算力を提供している)、次に、チームにパルス的な締め切りを設定し、最後に自らいくつかの製品特徴を撮影している。これはいくつかのポイントをつかむだけで、全体の計画ではない。
自動運転の人たちは知っている。後期になると、ソフトウェア、インフラ、ハードウェアの各チーム間の「誰がリードするか」が核心的な対立になる。三つの方向性には、CTOレベルの決定者が必要だが、誰もこの三つの分野を同時に理解していない。良いやり方は、創業者はすべての分野を完璧に理解していなくても、資源のバランスを取り、段階的な優先順位を決めることだ。今はソフトウェアを優先し、次の段階でインフラに移す。
これが全体の計画だ。
しかし、xAIの問題は、その全体像の計画がなく、ただ突き進むだけだということだ。プレッシャーがそれほど大きくなければ、賢い人たちは自己修復できる。時間を与えれば、各方面は自ずと協調のリズムを見つけるだろう。しかし、マスクの超高圧管理と不十分な全体計画が重なると、すぐに崩壊する。各リーダーは自分の優先順位を守り、全体の調整役はいない。
SpaceXやTeslaがこれほど成功したのは、重要な理由の一つは、これらの業界でマスクはほぼ競合に遭遇したことがなく、自分と戦ってきたことだ。しかし、AIは違う。OpenAIさえもAnthropicに奪われる可能性のある激しい競争だ。
xAIの共同創業者の一人は、去年、「競争がこれほど激しいとは思わなかった」と語った。もう一つは、「AI時代の応用革新の機会が少なすぎる」ということだ。ほとんどのモデル企業の出身者は医療を理解していないが、AI技術を使ってこの業界を変えたいと考えている。
この半月、私は「追いつかない」ことの多さに、確かに焦燥感を覚えた。しかし、もしAIが数年以内に癌を慢性疾患に変え、材料科学を20年進めることができれば、この「追いつかない」状況は、人類史上最大の加速になるかもしれない。
私の子供は今年2歳、来年には二人目が生まれるかもしれない。彼らの世代が直面する世界は、今の私には想像もつかない。
しかし、願うのは、彼らが育つ世界に、AIによって治癒される人が増え、爆弾や銃声がAI関係者の家に向かうことが少なくなることだ。
ポール・グラハムが2008年に書いた『Cities and Ambition(都市と野望)』の一節に、「シリコンバレーでは知恵を尊重するが、その伝えるメッセージは:あなたはより影響力を持つべきだ、これはニューヨークのメッセージとは完全に異なる。ニューヨークではもちろん影響力も重要だが、『10億ドル』を非常に重視し、その富が相続されたものであっても。だがシリコンバレーでは、不動産仲介を除けば、そんなことは誰も気にしない。真に重要なのは、この世界にどれだけ影響を与えたかだ。人々がLarryやSergeyを気にするのは、彼らの富ではなく、Googleを支配しているからであり、Googleはほぼすべての人に影響を与えているからだ」と。今やAIによって、その雰囲気は新たな高みへと推し進められている。
遅れてコラムの著者、孟醒:五源资本のパートナー、元滴滴自動運転COO。これは彼のAI投資観察の第一弾であり、その後も『遅点』で継続的に投資観察を更新していく。
表紙画像出典:ビジュアルチャイナ