執筆:シリコンバレー アラン・ウォーカー発表会ではっきり言わなかった八つの刃と、それが切り落とす予定のレースと業界発表会はSWE-benchにスポットライトを当てたが、真の信号は脚注、導入部分、そして何気ないauto modeの一文に隠されている。老OGがこの一杯を飲み終えたら、解説する。ZOMBIE CAFÉ · 2026年4月16日 · パロアルトパロアルトのカリフォルニア通り、朝九時半の光が斜めにCoupa Caféのガラス窓から差し込み、アラン・ウォーカーの半分だけ冷めたフラットホワイトに当たる。彼はちょうどAnthropicの公式サイトを見終え、背もたれに寄りかかり、向かいに座ったトニーに話しかける。「Anthropicは今回Opus 4.7をリリースしたが、発表会は控えめだった——主役はSWE-benchの柱の数本、顧客の引用のスライド、そしてきれいなアラインメント図。大半のテックメディアはプレスリリースをコピーして去った。」「でも本当の中身は、脚注やmigration guide、そして『auto modeをMaxユーザーに拡張』といった軽い表現の中に埋もれている。まるで10-Kを読むように読む必要がある——本文は散户向け、脚注が機関投資家向けだ。」「今日このコーヒーを飲み終える前に、八つの刃を解説する。それぞれ誰に向かっているのかを伝える。」—— BLADE NO. 01xhighは単なるギアアップではない——Defaultがこっそり引き上げられた発表会では一言だけ:「Claude Codeでは、すべてのプランのデフォルト努力レベルをxhighに引き上げました。」多くの人はxhighを「新しいギアが増えた」と誤解し、iPhoneの新色のように思うかもしれない。違う。本当の信号は最後の一文——Claude Codeのすべてのプランのデフォルトギアがxhighに引き上げられたことだ。これは非常にAnthropicらしい動きだ:静かにすべての基準を一段高くし、計算能力の請求は変えずに済ませる。つまり、より賢い同僚を追加したが、給料は上げない。TONY: ちょっと待て、それってProユーザーはmediumを$20 で使ってたのに、今やxhighをそのまま使えるってこと?ALAN: そうだ。そしてHexの引用もよく読んでみて——「low-effort 4.7 ≈ medium-effort 4.6」。デフォルトの引き上げと重ねると、普通のユーザーが得る実効知能は2段階も跳ね上がる。発表会ではこの数字を大きく扱わなかったのは、トークン消費のページが見苦しくなるのを避けたかったからだ。落とし込みシナリオ月曜日の朝、Claude Codeに500行のバックエンドモジュールを修正させる。以前は手動で/effort maxを叩いて自動実行させていたが、今や何も設定しなくてもデフォルトはxhigh。コーヒー一杯分の時間で仕事が終わる。この違いは10%の高速化ではなく、「もう気にしなくていい」ことだ。KILL LIST→ 「AI調整 / prompt設定」系SaaS——思考予算やeffort選択ツールのデフォルト値が自動調整され、中間層のビジネスがなくなる→ 初級エンジニア向けポジション——xhighデフォルトの仕事は、すでに3年経験のエンジニアの最低ライン→ 外注のコードレビュー会社——次の刃がこれを死ぬほど固定化する—— BLADE NO. 02Auto Mode —— Permission UIの静かな革命発表会の第三脚注:「Auto modeをMaxユーザーに拡張」ただ一句。Anthropic公式:「auto modeは、Claudeがあなたに代わって意思決定を行う新しい権限オプションです。」——「代わりに決定を下す」過去一年、すべてのエージェント系スタートアップは二つの極端を追いかけてきた:一つはskip-all-permissionsの一刀両断(DevinやCognitionの道)、もう一つはapprove/denyのポップアップを狂ったように出す(Cursorの初期段階)。Anthropicは第三の道を選んだ:モデル自らが何を質問すべきか判断し、その判断をauto modeに内在化させる。KAI: アラン、それってskip permissionsと何が本質的に違うの?結局放任して動かすだけじゃないの?ALAN: 大きく違う。skipは保険を外すことだ。何かあったら責任を取る。autoはモデル自ら保険を装備し——危険な操作は自ら止まって質問し、リスクの低いものは自己処理する。本質的には、「permission UI」という層を、プロダクトの外側からモデルの重みの中に移したことだ。TONY: つまり、YCの「エージェントガバナンス / ガードレール」をやるスタートアップ…ALAN: 製品がモデルに組み込まれる。これが去年アンドレイが言った「the model is the product」の具体例だ。KILL LIST→ エージェントガードレール / 承認フローSaaS——「人と機械の協調承認プラットフォーム」そのものが次元を下げられる→ RPA従来業界(UiPath / Automation Anywhere)——彼らの核価値は「制御可能な自動化」だったが、今やその制御自体が内在化→ BPO外注の中間管理部門——フィリピンやインドのデータ入力、カスタマー分配、請求照合など、auto mode一日稼働で一チームの仕事—— BLADE NO. 03/ultrareview——シニアエンジニアへの刺殺令公式文言:「変更点を読み取り、バグや設計上の問題を指摘する、注意深いレビュアーによるレビューセッション。」注意すべきは「注意深いレビュアー」——ジュニアやリンターではなく、「careful reviewer」。要はシニアエンジニア。CodeRabbitのデイビッド・ローカーが示す数字はよりストレートだ:recallが10%以上向上し、最も複雑なPRから最も難しいバグを抽出し、precisionはほとんど落ちない。recall向上、precision維持——コードレビューの分野ではこれが聖杯だ。これを達成したのはGoogle内部のTricorderで、10年以上の歴史がある。MARCU: 我々FAANGのスタッフエンジニア一人あたり年800Kドル、PRレビューに半分の時間を費やす。これが本当に実現すれば…ALAN: ProとMaxのユーザーには無料で三回のultrareviewを提供し、試用させる。これがシリコンバレーの「フリーミアム下毒」戦略——味見させて、戻れなくさせる。MARCU: つまり、これはツールじゃなくて代役だ。ALAN: 完全にはそうじゃない。スタッフの代わりではなく、毎日午後にPRを10個レビューする2時間を省略させる。解放されたその2時間、シニアは本物のシニアになる。人肉GitHubボットではない。落とし込みシナリオ20人規模のエンジニアチームで、元々テックリードは毎日3時間PRレビューに費やしていた。/ultrareviewを使えば、テックリードはClaudeが赤くハイライトした「設計問題」だけを見る——3時間が20分に短縮され、その時間を本来のアーキテクチャ設計に充てられる。これは「AI補助」ではなく、職務内容の書き換えだ。KILL LIST→ すべての独立したAIコードレビュースタートアップ——CodeRabbit、Codacy、Qodo、これらは今やAnthropicの機能になった→ SAST / DASTの従来セキュリティスキャンツール(Snyk / Checkmarx)——ルール駆動の静的解析を、「人のようにコードを読む」方式が追い越す→ インド・東欧の外注コードレビューサービス——この市場は過去10年で数十億ドルの価値だったが、今や蒸発—— BLADE NO. 042,576ピクセルのビジョン——Computer-Useがデモから武器へ「画像の最大長辺は2,576ピクセル、約375万画素で、以前の3倍以上だ。」このポイントは最も過小評価されている。多くの人は「より高精細になった」と思うだけだが、実は大きな分水嶺だ。Computer-Useのカテゴリーがデモから本番へ進化した証拠は、発表ページの最下部の引用部分にある。XBOWのCEO、Oege de Moorの言葉——54.5% → 98.5%。これは漸進的な向上ではなく、「使えない」から「使わざるを得ない」への飛躍だ。Opus 4.6は画面のボタン位置を推測していたが、4.7は密集したダッシュボードの小さな文字やネストされた表も読める。SARAH: 企業顧客はずっとこの点で足踏みしていた。4.6では請求書のスキャンを自動化できず、誤りも半分だった——上司は「やめとけ」と言った。ALAN: 今や98.5%の数字は、RPA、IT運用、経費精算、古いシステムの移行——すべて人の目で画面を見る作業に、初めて受け入れられる信頼できるモデルが登場したことを意味する。KAI: computer useはもはやデモ動画ではなく、生産性だ。ALAN: そうだ、しかもこれはモデル層のアップグレードであり、APIパラメータの変更ではない。既存ユーザーは何も変えずに自動的に恩恵を受ける。Anthropicはこっそりとすべてのインテグレーターの製品力を引き上げている。KILL LIST→ OCR / ドキュメント理解SaaS(Rossum / Hyperscience / Nanonets)——もともとの差別化要素は「視覚+構造化」だったが、今や汎用モデルに追いつき、追い越す→ 伝統的なRPA三巨頭——UiPathの画面認識技術は価値の半分に蒸発→ 企業のデータ入力部門——医療保険請求、銀行KYC、政府フォーム処理、すべて人海の流れ作業→ 自律型ペンテスト / レッドチーム業界——XBOWのような企業は恩恵を受けるが、従来のペンテストコンサルは淘汰される—— BLADE NO. 05File-System Memory——Anthropicは最も素朴な道を選んだ発表会の脚注:「Opus 4.7はファイルシステムベースのメモリ使用に優れている。長期、多セッションの作業中に重要なメモを記憶する。」OpenAIは「埋め込みメモリ」を採用——記憶をモデルに埋め込み、見えず、変更もできない。Googleは神秘的なinfini-attentionを追求。Anthropicは今回明かした:ファイルシステムこそ記憶だ。Claudeは.mdノートを書き、読み、catコマンドでいつでも確認できる。この選択は一見低技術だが、実は第一原理の勝利だ。記憶の核心問題は保存ではなく、監査可能性、編集性、移行性にある。ベクトルデータベースや埋め込みメモリはこれら三点に反する。ERIC: 企業顧客が最も恐れるのは、「このAIは私の何を覚えたのか、私にはわからないこと」。ALAN: ファイルシステムの記憶はコンプライアンスを直接解決する。GDPRの削除権?rm一発。SOC2の監査?catで見せる。これは技術の優位ではなく、法律の優位だ。ERIC: じゃあ、「AIメモリ層」を作るスタートアップは…ALAN: Mem0、LangMem、Zep——この一年でかなり資金を集めている。彼らの解決策は「モデル自体が記憶を管理しない」ことだが、Anthropicはこの能力をモデルに書き込み、最も素朴なPOSIXファイルシステムを使っている。中間層は飛ばす。KILL LIST→ AI Memory基盤スタートアップ(Mem0 / LangMem / Zep)——価値提案がモデルに内包される→ 一部のベクトルデータベースのエージェント記憶利用シナリオ——Pinecone、Weaviateの主要ストーリーに影響→ 企業知識管理SaaSのAI強化層——Claudeが直接ファイルを読み書きできるようになる—— BLADE NO. 06Task Budgets——エージェントにブレーキをかけ、アクセルを緩める「開発者がClaudeのトークン消費を制御し、長期のタスクで優先順位をつけられるようにする」(パブリックβ)これが最も重要な長期エージェントの技術革新だ。過去一年、すべてのエージェント企業は一つの悪魔と戦ってきた:長期タスクのトークン制御不能。DevinやCursorに複雑なタスクを任せると、2時間後に帰ってきて「$800使った」と報告し、仕事の半分も終わっていない。経営者はその請求書を見て目を見開く。Task budgetの設計は非常に巧妙——単なるトークン上限ではなく、モデル自身が残り時間を見て、どのステップをスキップし、どこまでやるかを自己判断させる。CLAIRE: これってまさにエンジニアリングの「最小限の納品」思考じゃない?ALAN: そうだ。Anthropicはscope-cuttingというPMスキルをモデルに訓練させた。予算を与えると、モデルは80%で止めるべき機能と、100%までやるべき機能を自己判断する。TONY: じゃあ、Notionの引用——「暗黙の必要性テスト」が最初に通るのは—ALAN: その通り。モデルは「リソース意識」を持ち始め、あなたが言わなくても期待していることを推測し、予算内で優先的に確保する。これが「シニアエンジニアの判断」を訓練に取り込んだ例だ。KILL LIST→ AIコスト管理 / LLMの可観測性スタートアップ(Helicone / Langfuseのコストモジュール)——コア機能がネイティブ化→ エージェントオーケストレーションフレームワーク(一部のLangGraph / CrewAIの用途)——モデル自らが予算を計画し、外部調整不要に→ 伝統的コンサルのプロジェクト管理部分——「リソース配分 + 納品裁量」の知性をモデルが担う—— BLADE NO. 07コードを書く前に証明を——Vercelが見つけた新動作Joe Haddad、Vercelのディスティングイッシュドエンジニア:「システムコードに対しても作業前に証明を行う、これはこれまでのClaudeモデルにはなかった新動作だ。」この一文は20以上の引用の中に埋もれていて、誰も注目しなかったが、OGはこれを読んでコーヒーを置いた。「システムコードの証明」——システムレベルのコードを書く前に、モデルが数学や形式証明を使って自分のコードを検証する。これは賢いというより、PhDの論文検証と同じ方法で自己検証を始めたということだ。MARCU: この動作は訓練データに含まれている。つまり、AnthropicはRL段階で「先に証明してからコードを書く」ことを明示的に報奨した。ALAN: そうだ。これは意識的に訓練された。Vercelの例とGensparkの「ループ抵抗」、Hexの「データ欠損時に妥当な報告を行い、誤った推測を避ける」などと組み合わせて、モデルが騙しにくいエンジニアのように働き始める完全な品味訓練工程だ。MARCU: 騙しにくい——つまり自分に嘘をつかない。ALAN: その通り。Opus 4.7はもはやタスク完遂のために見かけだけの解決策を作ることはしない。これはアラインメントが実際にプロダクトレベルに落ちた一例だ。KILL LIST→ 形式証明ツールの細分化市場(一部)——Coq/Lean/TLA+などの高難易度ツールの一部入門シナリオをモデルが補助→ 高頻度取引 / ブロックチェーンのセキュリティ監査——「不変条件違反を読む」監査員の核心作業が協調化され、単価が圧縮→ OSカーネル / 組み込み外注——証明に基づく推論を必要とする細分化分野の門戸が平坦化—— BLADE NO. 08Cyber Verification——規制の抜け穴が開かれる「訓練中にこれらの能力を差別的に低減させる努力を行った。」最もスリリングな操作はここだ。Anthropicは、訓練中にOpus 4.7のネットワーク攻防能力を意図的に低下させたと認めた。背後のより強力なMythos Previewは公開されていない。そこで——彼らはCyber Verification Programを開始し、合法的なセキュリティ研究者、ペンテスター、レッドチーム認証を受けた者だけがより高い権限を解放できる仕組みを作った。ERIC: これ…これって輸出規制のモデル版じゃないの?ALAN: より正確には、「能力KYC」だ。モデルには三層の能力ゲートがあり、身分証明をすれば対応層の能力を解放できる。規制の抜け穴をAI企業自らが明示的に価格付けした形だ。ERIC: それはスタートアップにとって何を意味する?ALAN: 一つは、「AI+安全」の新規ビジネスは、Anthropicの認証を取得しないと高端シナリオに進めない。サプライチェーンも管理下に置かれる。二つ目は、新たなカテゴリーの出現——Anthropic認証を支援するコンサルティングサービスだ。SOC2の認証支援と同じように。三つ目は、Anthropicが未来のフロンティアモデルのリリース方法を練習していることの証明だ。Mythosの公開はより厳しくなる。TONY: じゃあ、PalantirやBooz Allenのような政府規制に強い企業は…ALAN: 一層の防御壁を得ることになる。彼らはすでに高度な認証を持ち、最上位モデルを自然に解放できる。落とし込みシナリオ2026年第2四半期、AIペンテスターを目指すYCスタートアップは、最初の事業計画書に「Anthropic Cyber Verificationを取得しているか」を必ず記載。持っていなければVCは投資しない。持っていれば評価は2倍になる。認証は資本市場の分水嶺だ。KILL LIST & 新レース→ 汎用サイバーセキュリティSaaS——Anthropic認証を持たないと上位モデルの能力にアクセスできず、天井が固定される→ 「AIモデル能力コンプライアンスコンサル」新規ビジネス——今後12ヶ月で、フロンティアモデル認証支援の中間業者が出てくる→ 伝統的軍事・政府系インテグレーター(Palantir / Booz Allen)——自然と優位性を得て、門戸が防御壁に変わる→ オープンソース / ローカル展開陣営——Llama、Qwen、DeepSeekの路線が恩恵を受け、「未認証でも使える」がコアセールスポイントにアラン・ウォーカーは空のコップをテーブルに置き、MacBookを閉じる。窓の外、カリフォルニア通りの太陽はすでにパロアルトクリーマリーの屋根を越え、斜光がガラスに差し込む。「八つの刃、八つの方向に切り裂く。今日死ぬレースもあれば、今日生まれるレースもある。」「各世代のフロンティアモデルのリリースでは、本当の中身はヘッドラインには書かれていない。」彼はトニーに言った。「発表会は分析者向けだ。脚注や引用の数字こそ、我々にとっての真実だ。」「騒ぐな。」 — アランEND OF DISPATCH · 10:47 AM PST · カリフォルニア通り© ZOMBIE CAFÉ · 2026
Anthropic 最新モデル Opus4.7 の 8 本の Hidden Blades
執筆:シリコンバレー アラン・ウォーカー
発表会ではっきり言わなかった八つの刃と、それが切り落とす予定のレースと業界
発表会はSWE-benchにスポットライトを当てたが、真の信号は脚注、導入部分、そして何気ないauto modeの一文に隠されている。老OGがこの一杯を飲み終えたら、解説する。
ZOMBIE CAFÉ · 2026年4月16日 · パロアルト
パロアルトのカリフォルニア通り、朝九時半の光が斜めにCoupa Caféのガラス窓から差し込み、アラン・ウォーカーの半分だけ冷めたフラットホワイトに当たる。彼はちょうどAnthropicの公式サイトを見終え、背もたれに寄りかかり、向かいに座ったトニーに話しかける。
「Anthropicは今回Opus 4.7をリリースしたが、発表会は控えめだった——主役はSWE-benchの柱の数本、顧客の引用のスライド、そしてきれいなアラインメント図。大半のテックメディアはプレスリリースをコピーして去った。」
「でも本当の中身は、脚注やmigration guide、そして『auto modeをMaxユーザーに拡張』といった軽い表現の中に埋もれている。まるで10-Kを読むように読む必要がある——本文は散户向け、脚注が機関投資家向けだ。」
「今日このコーヒーを飲み終える前に、八つの刃を解説する。それぞれ誰に向かっているのかを伝える。」
—— BLADE NO. 01
xhighは単なるギアアップではない——Defaultがこっそり引き上げられた
発表会では一言だけ:「Claude Codeでは、すべてのプランのデフォルト努力レベルをxhighに引き上げました。」
多くの人はxhighを「新しいギアが増えた」と誤解し、iPhoneの新色のように思うかもしれない。違う。本当の信号は最後の一文——Claude Codeのすべてのプランのデフォルトギアがxhighに引き上げられたことだ。
これは非常にAnthropicらしい動きだ:静かにすべての基準を一段高くし、計算能力の請求は変えずに済ませる。つまり、より賢い同僚を追加したが、給料は上げない。
TONY: ちょっと待て、それってProユーザーはmediumを$20 で使ってたのに、今やxhighをそのまま使えるってこと?
ALAN: そうだ。そしてHexの引用もよく読んでみて——「low-effort 4.7 ≈ medium-effort 4.6」。デフォルトの引き上げと重ねると、普通のユーザーが得る実効知能は2段階も跳ね上がる。発表会ではこの数字を大きく扱わなかったのは、トークン消費のページが見苦しくなるのを避けたかったからだ。
落とし込みシナリオ
月曜日の朝、Claude Codeに500行のバックエンドモジュールを修正させる。以前は手動で/effort maxを叩いて自動実行させていたが、今や何も設定しなくてもデフォルトはxhigh。コーヒー一杯分の時間で仕事が終わる。この違いは10%の高速化ではなく、「もう気にしなくていい」ことだ。
KILL LIST
→ 「AI調整 / prompt設定」系SaaS——思考予算やeffort選択ツールのデフォルト値が自動調整され、中間層のビジネスがなくなる
→ 初級エンジニア向けポジション——xhighデフォルトの仕事は、すでに3年経験のエンジニアの最低ライン
→ 外注のコードレビュー会社——次の刃がこれを死ぬほど固定化する
—— BLADE NO. 02
Auto Mode —— Permission UIの静かな革命
発表会の第三脚注:「Auto modeをMaxユーザーに拡張」ただ一句。
Anthropic公式:「auto modeは、Claudeがあなたに代わって意思決定を行う新しい権限オプションです。」——「代わりに決定を下す」
過去一年、すべてのエージェント系スタートアップは二つの極端を追いかけてきた:一つはskip-all-permissionsの一刀両断(DevinやCognitionの道)、もう一つはapprove/denyのポップアップを狂ったように出す(Cursorの初期段階)。Anthropicは第三の道を選んだ:モデル自らが何を質問すべきか判断し、その判断をauto modeに内在化させる。
KAI: アラン、それってskip permissionsと何が本質的に違うの?結局放任して動かすだけじゃないの?
ALAN: 大きく違う。skipは保険を外すことだ。何かあったら責任を取る。autoはモデル自ら保険を装備し——危険な操作は自ら止まって質問し、リスクの低いものは自己処理する。本質的には、「permission UI」という層を、プロダクトの外側からモデルの重みの中に移したことだ。
TONY: つまり、YCの「エージェントガバナンス / ガードレール」をやるスタートアップ…
ALAN: 製品がモデルに組み込まれる。これが去年アンドレイが言った「the model is the product」の具体例だ。
KILL LIST
→ エージェントガードレール / 承認フローSaaS——「人と機械の協調承認プラットフォーム」そのものが次元を下げられる
→ RPA従来業界(UiPath / Automation Anywhere)——彼らの核価値は「制御可能な自動化」だったが、今やその制御自体が内在化
→ BPO外注の中間管理部門——フィリピンやインドのデータ入力、カスタマー分配、請求照合など、auto mode一日稼働で一チームの仕事
—— BLADE NO. 03
/ultrareview——シニアエンジニアへの刺殺令
公式文言:「変更点を読み取り、バグや設計上の問題を指摘する、注意深いレビュアーによるレビューセッション。」
注意すべきは「注意深いレビュアー」——ジュニアやリンターではなく、「careful reviewer」。要はシニアエンジニア。
CodeRabbitのデイビッド・ローカーが示す数字はよりストレートだ:recallが10%以上向上し、最も複雑なPRから最も難しいバグを抽出し、precisionはほとんど落ちない。recall向上、precision維持——コードレビューの分野ではこれが聖杯だ。これを達成したのはGoogle内部のTricorderで、10年以上の歴史がある。
MARCU: 我々FAANGのスタッフエンジニア一人あたり年800Kドル、PRレビューに半分の時間を費やす。これが本当に実現すれば…
ALAN: ProとMaxのユーザーには無料で三回のultrareviewを提供し、試用させる。これがシリコンバレーの「フリーミアム下毒」戦略——味見させて、戻れなくさせる。
MARCU: つまり、これはツールじゃなくて代役だ。
ALAN: 完全にはそうじゃない。スタッフの代わりではなく、毎日午後にPRを10個レビューする2時間を省略させる。解放されたその2時間、シニアは本物のシニアになる。人肉GitHubボットではない。
落とし込みシナリオ
20人規模のエンジニアチームで、元々テックリードは毎日3時間PRレビューに費やしていた。/ultrareviewを使えば、テックリードはClaudeが赤くハイライトした「設計問題」だけを見る——3時間が20分に短縮され、その時間を本来のアーキテクチャ設計に充てられる。これは「AI補助」ではなく、職務内容の書き換えだ。
KILL LIST
→ すべての独立したAIコードレビュースタートアップ——CodeRabbit、Codacy、Qodo、これらは今やAnthropicの機能になった
→ SAST / DASTの従来セキュリティスキャンツール(Snyk / Checkmarx)——ルール駆動の静的解析を、「人のようにコードを読む」方式が追い越す
→ インド・東欧の外注コードレビューサービス——この市場は過去10年で数十億ドルの価値だったが、今や蒸発
—— BLADE NO. 04
2,576ピクセルのビジョン——Computer-Useがデモから武器へ
「画像の最大長辺は2,576ピクセル、約375万画素で、以前の3倍以上だ。」
このポイントは最も過小評価されている。多くの人は「より高精細になった」と思うだけだが、実は大きな分水嶺だ。Computer-Useのカテゴリーがデモから本番へ進化した証拠は、発表ページの最下部の引用部分にある。
XBOWのCEO、Oege de Moorの言葉——
54.5% → 98.5%。これは漸進的な向上ではなく、「使えない」から「使わざるを得ない」への飛躍だ。Opus 4.6は画面のボタン位置を推測していたが、4.7は密集したダッシュボードの小さな文字やネストされた表も読める。
SARAH: 企業顧客はずっとこの点で足踏みしていた。4.6では請求書のスキャンを自動化できず、誤りも半分だった——上司は「やめとけ」と言った。
ALAN: 今や98.5%の数字は、RPA、IT運用、経費精算、古いシステムの移行——すべて人の目で画面を見る作業に、初めて受け入れられる信頼できるモデルが登場したことを意味する。
KAI: computer useはもはやデモ動画ではなく、生産性だ。
ALAN: そうだ、しかもこれはモデル層のアップグレードであり、APIパラメータの変更ではない。既存ユーザーは何も変えずに自動的に恩恵を受ける。Anthropicはこっそりとすべてのインテグレーターの製品力を引き上げている。
KILL LIST
→ OCR / ドキュメント理解SaaS(Rossum / Hyperscience / Nanonets)——もともとの差別化要素は「視覚+構造化」だったが、今や汎用モデルに追いつき、追い越す
→ 伝統的なRPA三巨頭——UiPathの画面認識技術は価値の半分に蒸発
→ 企業のデータ入力部門——医療保険請求、銀行KYC、政府フォーム処理、すべて人海の流れ作業
→ 自律型ペンテスト / レッドチーム業界——XBOWのような企業は恩恵を受けるが、従来のペンテストコンサルは淘汰される
—— BLADE NO. 05
File-System Memory——Anthropicは最も素朴な道を選んだ
発表会の脚注:「Opus 4.7はファイルシステムベースのメモリ使用に優れている。長期、多セッションの作業中に重要なメモを記憶する。」
OpenAIは「埋め込みメモリ」を採用——記憶をモデルに埋め込み、見えず、変更もできない。Googleは神秘的なinfini-attentionを追求。Anthropicは今回明かした:ファイルシステムこそ記憶だ。Claudeは.mdノートを書き、読み、catコマンドでいつでも確認できる。
この選択は一見低技術だが、実は第一原理の勝利だ。記憶の核心問題は保存ではなく、監査可能性、編集性、移行性にある。ベクトルデータベースや埋め込みメモリはこれら三点に反する。
ERIC: 企業顧客が最も恐れるのは、「このAIは私の何を覚えたのか、私にはわからないこと」。
ALAN: ファイルシステムの記憶はコンプライアンスを直接解決する。GDPRの削除権?rm一発。SOC2の監査?catで見せる。これは技術の優位ではなく、法律の優位だ。
ERIC: じゃあ、「AIメモリ層」を作るスタートアップは…
ALAN: Mem0、LangMem、Zep——この一年でかなり資金を集めている。彼らの解決策は「モデル自体が記憶を管理しない」ことだが、Anthropicはこの能力をモデルに書き込み、最も素朴なPOSIXファイルシステムを使っている。中間層は飛ばす。
KILL LIST
→ AI Memory基盤スタートアップ(Mem0 / LangMem / Zep)——価値提案がモデルに内包される
→ 一部のベクトルデータベースのエージェント記憶利用シナリオ——Pinecone、Weaviateの主要ストーリーに影響
→ 企業知識管理SaaSのAI強化層——Claudeが直接ファイルを読み書きできるようになる
—— BLADE NO. 06
Task Budgets——エージェントにブレーキをかけ、アクセルを緩める
「開発者がClaudeのトークン消費を制御し、長期のタスクで優先順位をつけられるようにする」(パブリックβ)
これが最も重要な長期エージェントの技術革新だ。
過去一年、すべてのエージェント企業は一つの悪魔と戦ってきた:長期タスクのトークン制御不能。DevinやCursorに複雑なタスクを任せると、2時間後に帰ってきて「$800使った」と報告し、仕事の半分も終わっていない。経営者はその請求書を見て目を見開く。
Task budgetの設計は非常に巧妙——単なるトークン上限ではなく、モデル自身が残り時間を見て、どのステップをスキップし、どこまでやるかを自己判断させる。
CLAIRE: これってまさにエンジニアリングの「最小限の納品」思考じゃない?
ALAN: そうだ。Anthropicはscope-cuttingというPMスキルをモデルに訓練させた。予算を与えると、モデルは80%で止めるべき機能と、100%までやるべき機能を自己判断する。
TONY: じゃあ、Notionの引用——「暗黙の必要性テスト」が最初に通るのは—
ALAN: その通り。モデルは「リソース意識」を持ち始め、あなたが言わなくても期待していることを推測し、予算内で優先的に確保する。これが「シニアエンジニアの判断」を訓練に取り込んだ例だ。
KILL LIST
→ AIコスト管理 / LLMの可観測性スタートアップ(Helicone / Langfuseのコストモジュール)——コア機能がネイティブ化
→ エージェントオーケストレーションフレームワーク(一部のLangGraph / CrewAIの用途)——モデル自らが予算を計画し、外部調整不要に
→ 伝統的コンサルのプロジェクト管理部分——「リソース配分 + 納品裁量」の知性をモデルが担う
—— BLADE NO. 07
コードを書く前に証明を——Vercelが見つけた新動作
Joe Haddad、Vercelのディスティングイッシュドエンジニア:「システムコードに対しても作業前に証明を行う、これはこれまでのClaudeモデルにはなかった新動作だ。」
この一文は20以上の引用の中に埋もれていて、誰も注目しなかったが、OGはこれを読んでコーヒーを置いた。
「システムコードの証明」——システムレベルのコードを書く前に、モデルが数学や形式証明を使って自分のコードを検証する。これは賢いというより、PhDの論文検証と同じ方法で自己検証を始めたということだ。
MARCU: この動作は訓練データに含まれている。つまり、AnthropicはRL段階で「先に証明してからコードを書く」ことを明示的に報奨した。
ALAN: そうだ。これは意識的に訓練された。Vercelの例とGensparkの「ループ抵抗」、Hexの「データ欠損時に妥当な報告を行い、誤った推測を避ける」などと組み合わせて、モデルが騙しにくいエンジニアのように働き始める完全な品味訓練工程だ。
MARCU: 騙しにくい——つまり自分に嘘をつかない。
ALAN: その通り。Opus 4.7はもはやタスク完遂のために見かけだけの解決策を作ることはしない。これはアラインメントが実際にプロダクトレベルに落ちた一例だ。
KILL LIST
→ 形式証明ツールの細分化市場(一部)——Coq/Lean/TLA+などの高難易度ツールの一部入門シナリオをモデルが補助
→ 高頻度取引 / ブロックチェーンのセキュリティ監査——「不変条件違反を読む」監査員の核心作業が協調化され、単価が圧縮
→ OSカーネル / 組み込み外注——証明に基づく推論を必要とする細分化分野の門戸が平坦化
—— BLADE NO. 08
Cyber Verification——規制の抜け穴が開かれる
「訓練中にこれらの能力を差別的に低減させる努力を行った。」
最もスリリングな操作はここだ。Anthropicは、訓練中にOpus 4.7のネットワーク攻防能力を意図的に低下させたと認めた。背後のより強力なMythos Previewは公開されていない。そこで——
彼らはCyber Verification Programを開始し、合法的なセキュリティ研究者、ペンテスター、レッドチーム認証を受けた者だけがより高い権限を解放できる仕組みを作った。
ERIC: これ…これって輸出規制のモデル版じゃないの?
ALAN: より正確には、「能力KYC」だ。モデルには三層の能力ゲートがあり、身分証明をすれば対応層の能力を解放できる。規制の抜け穴をAI企業自らが明示的に価格付けした形だ。
ERIC: それはスタートアップにとって何を意味する?
ALAN: 一つは、「AI+安全」の新規ビジネスは、Anthropicの認証を取得しないと高端シナリオに進めない。サプライチェーンも管理下に置かれる。二つ目は、新たなカテゴリーの出現——Anthropic認証を支援するコンサルティングサービスだ。SOC2の認証支援と同じように。三つ目は、Anthropicが未来のフロンティアモデルのリリース方法を練習していることの証明だ。Mythosの公開はより厳しくなる。
TONY: じゃあ、PalantirやBooz Allenのような政府規制に強い企業は…
ALAN: 一層の防御壁を得ることになる。彼らはすでに高度な認証を持ち、最上位モデルを自然に解放できる。
落とし込みシナリオ
2026年第2四半期、AIペンテスターを目指すYCスタートアップは、最初の事業計画書に「Anthropic Cyber Verificationを取得しているか」を必ず記載。持っていなければVCは投資しない。持っていれば評価は2倍になる。認証は資本市場の分水嶺だ。
KILL LIST & 新レース
→ 汎用サイバーセキュリティSaaS——Anthropic認証を持たないと上位モデルの能力にアクセスできず、天井が固定される
→ 「AIモデル能力コンプライアンスコンサル」新規ビジネス——今後12ヶ月で、フロンティアモデル認証支援の中間業者が出てくる
→ 伝統的軍事・政府系インテグレーター(Palantir / Booz Allen)——自然と優位性を得て、門戸が防御壁に変わる
→ オープンソース / ローカル展開陣営——Llama、Qwen、DeepSeekの路線が恩恵を受け、「未認証でも使える」がコアセールスポイントに
アラン・ウォーカーは空のコップをテーブルに置き、MacBookを閉じる。
窓の外、カリフォルニア通りの太陽はすでにパロアルトクリーマリーの屋根を越え、斜光がガラスに差し込む。
「八つの刃、八つの方向に切り裂く。今日死ぬレースもあれば、今日生まれるレースもある。」
「各世代のフロンティアモデルのリリースでは、本当の中身はヘッドラインには書かれていない。」彼はトニーに言った。「発表会は分析者向けだ。脚注や引用の数字こそ、我々にとっての真実だ。」
「騒ぐな。」
— アラン
END OF DISPATCH · 10:47 AM PST · カリフォルニア通り© ZOMBIE CAFÉ · 2026