競争軸は「モデルの賢さ」から「賢いエージェントの設計・維持」へ移った
homulaは、特定のベンダーやモデルに縛られず、エンタープライズ企業が自社にとって最適なAI構成を組み、最終的に内製化まで到達できるよう支援するAIインテグレーターです。だからこそ、2026年5〜6月に各社が示した方向性は注視に値しました。
Anthropicは年次開発者カンファレンス Code with Claude 2026 を、サンフランシスコ(5月6日)・ロンドン(5月19日)・東京(6月10日) の3都市で開催しました。そこで前面に出たのは新モデルの賢さではなく、「エージェントをどう設計し、運用しながら賢く保つか」 という運用側のテーマです。東京会場の報告でも、議論の焦点は「モデルがどれだけ賢いか」から「賢いエージェントをどう設計・維持するか」へ完全にシフトした、と総括されています(Claude公式ブログ、The New Stack)。
この転換の核心にあるのが、記憶(memory)・評価(evals)・編成(orchestration) という3つの新しい資産です。本記事では、Anthropicが投入した具体機能を一次情報ベースで整理したうえで、この3資産を誰が握るかが、モデル選定とは別の「次のロックイン」を決める という構造を、日本企業の統制と内製化の観点から読み解きます。
Code with Claude 2026で示された3つの機能
Anthropicが Claude Managed Agents(マネージド・エージェント基盤)に加えた中心機能は、Dreaming・Outcomes・マルチエージェント編成 の3つです。いずれも「単発でツールを叩く道具」から「セッションをまたいで自己改善する仕組み」へエージェントを進化させるものです。
| 機能 | 何をするか | 提供段階 |
|---|---|---|
| Dreaming | 過去のエージェント・セッションと記憶ストアを定期的に見直し、パターンを抽出して記憶を再編集する自己改善プロセス | リサーチプレビュー |
| Outcomes | 「完了」の定義をルーブリック(採点基準)で与え、別のClaudeインスタンス(採点者)が出力を評価し改稿を促す | パブリックベータ |
| マルチエージェント編成 | リード(調整役)エージェントが、別々のコンテキスト・モデル・プロンプト・ツールを持つ専門エージェントに作業を委譲。共有ファイルシステム上で並行実行 | パブリックベータ |
東京会場では、架空のF1チームを題材に、空力・タイヤ温度・パワーユニット・ドライバー安全をそれぞれ担当する4つのエージェントが並行して調査を進め、採点者(グレーダー)エージェントの評価を受けるデモが示されました(Claude公式ブログ)。エージェントはもはや1体の応答器ではなく、記憶を持ち、互いを評価し合う「チーム」 として設計される段階に入っています。
"Dreaming"の正体——エージェントが自分の記憶を編集する
最も象徴的なのが Dreaming です。名前は比喩的ですが、やっていることは具体的です。Dreams API は、既存の記憶ストアと最大100件分の過去セッションのトランスクリプトを読み込み、記憶を再編成した新しいストアを書き出します。 その過程で重複を統合し、古くなった項目を捨て、複数セッションをまたぐパターン——繰り返すミス、エージェントが収束していった作業手順、チームの好み——を浮かび上がらせます(Claude公式ブログ、The New Stack)。
ポイントは、これが実行中の処理ではなくスケジュール実行される「振り返り」 だということです。人間が一日の終わりに経験を整理し、翌日に活かすのに近い設計で、エージェントは走るたびに賢くなる前提になります。
Outcomes も同じ思想の延長線上にあります。開発者が「何をもって完了とするか」をルーブリックで記述すると、本体とは別のコンテキストを持つ採点者インスタンスが出力を評価し、基準を満たすまで改稿させます。Anthropicの社内テストでは、標準的なプロンプトループに対してタスク成功率が最大10ポイント改善し、ファイル生成では docxで8.4%、pptxで10.1% の向上が示されたとされています(Claude公式ブログ)。プロンプトを職人芸で書き込むのではなく、評価基準を与えて自動で品質を詰める——この「評価駆動」の運用が標準になりつつあります。
3機能に共通するのは、価値の源泉がモデルの重みそのものではなく、その外側に蓄積される運用資産に移っているという点です。記憶ストアには自社固有のミスと正解が、ルーブリックには自社の「品質の定義」が、編成設計には自社の業務分解が刻まれていきます。これらは時間とともに育ち、エージェントの実力を左右する——つまり新しい企業資産です。
なぜ「記憶・評価・編成」が次のロックインなのか
ここに統制上の論点が生まれます。記憶・評価・編成という資産が特定ベンダーのマネージド基盤の内側にしか存在しないとき、企業はモデルの賢さとは別の次元で、そのベンダーに縛られ始めます。
VentureBeatはこの構造を、「Anthropicはあなたのエージェントの記憶・評価・編成を握ろうとしている——それは企業にとって警戒すべきことだ」と表現しました(VentureBeat)。これはAnthropicに限った話ではありません。OpenAIも実行基盤のOnaを買収して「実行プレーン」を押さえ、各社が思考(モデル)の外側にある運用層の囲い込みに動いています。
なぜこれが「モデルのロックイン」より厄介かというと、次の3点です。
- 資産が育つほど移行コストが上がる。 記憶ストアやルーブリックは使うほど自社最適化が進みます。半年運用したエージェントの「学習済みの記憶」は、別基盤に持ち出せなければそのまま捨てることになります。
- 属人的な暗黙知が、ベンダー基盤の中に固定化される。 これまで人やドキュメントにあった「うちの仕事のやり方」が、移植性の保証されない記憶フォーマットに溜まっていきます。
- モデル供給リスクと連動する。 規制や地政学でモデル供給そのものが止まる事態が現実になった今、記憶や編成までベンダー基盤に預けていると、止まったときに思考も運用資産も同時に失います。
つまり「どのモデルが賢いか」で1社を選ぶ判断は、もはや入口にすぎません。本当に問うべきは、記憶・評価・編成という育っていく資産を、自社が持ち出せる形で握れているかです。
自己改善には、固有のリスクがある
自己改善は強力ですが、無条件に良いわけではありません。記憶を自動で再編集する仕組みは、誤った学習を自分で強化してしまう危険を併せ持ちます。一度ストアに紛れ込んだ誤った前提や、汚染されたセッションが「パターン」として抽出されれば、エージェントは自信を持って間違え続けかねません。Dreamingについても、振り返りの過程でかえって幻覚(ハルシネーション)を増幅しうるという指摘が早くも出ています。
自己改善エージェントを本番に乗せるなら、記憶ストアへの書き込みを監査可能にし、誰が・いつ・何を記憶させたかを追跡できる状態が前提になります。プロンプトインジェクションで記憶を汚染されれば、その毒は次回以降のすべての実行に効きます(関連: 無人エージェントの秘密管理)。「賢くなる」機能ほど、評価基準(ルーブリック)と監査ログという統制とセットで運用すべきです。
加えて、マルチエージェント編成は並行実行ぶんだけトークン消費が膨らみます。採点者を別インスタンスで回す Outcomes も、品質と引き換えに計算コストを増やします。エージェント課金が従量へ移った今、自己改善の便益はコスト統制と一体で評価する必要があります。
homulaの観点——記憶・評価・接続・統制を「自社の管理面」に残す
この構造変化に対するhomulaの基本姿勢は一貫しています。思考(モデル)は状況に応じて乗り換えられるようにし、記憶・評価・接続・統制という育っていく資産は、特定ベンダーの内側ではなく自社の管理面(コントロールプレーン)に残す——これに尽きます。
第一に、接続をベンダー中立な標準で持つこと。 Agens はMCPを活用し、200以上のツールと構築ゼロで接続する共通基盤を提供します。ツール接続が標準化されていれば、思考を担うモデルや編成基盤を差し替えても、接続資産はそのまま使えます。記憶や編成を一社に丸ごと預ける前に、まず「接続」という土台を自社側に置くことが移行性の起点になります。
第二に、評価と統制を横断的に効かせること。 自己改善エージェントの肝は「何をもって良しとするか(評価)」と「記憶に何を残してよいか(統制)」です。Agens Control は、承認フロー・DLP・RBAC・5年分の監査ログを特定ベンダーに依らず横断的に効かせます。記憶ストアへの書き込みや専門エージェントの権限を、ベンダー基盤の作法ではなく自社のポリシーで縛れる状態をつくる役割です。
第三に、これらを使いこなす力を内製化に落とすこと。 ルーブリックの設計も、記憶に何を残すかの線引きも、結局は自社業務を最もよく知る人にしか決められません。homulaは n8n / Dify / LangGraph を業務特性で使い分けつつ、AIエージェント・ブートキャンプで業務棚卸し・プロトタイプ構築・ROI試算を 3〜5日 で回し、「ベンダー基盤の上で動かす」状態ではなく「自社が設計・維持できる」状態を目指します。記憶・評価・編成が新しい資産になるなら、その設計能力こそ内製化すべき中身です。
まとめ
Code with Claude 2026(東京は6月10日)でAnthropicがDreaming・Outcomes・マルチエージェント編成を投入したことは、AIエージェントの競争軸が 「モデルの賢さ」から「賢いエージェントをどう設計・維持するか」 へ移ったことを示しました。Dreamingは過去最大100セッションと記憶ストアを再編集して自己改善し、Outcomesは評価基準で品質を自動で詰め、編成は専門エージェントのチームを並行で走らせます。
その裏側で生まれているのが、記憶・評価・編成という育っていく企業資産であり、これを誰が握るかがモデル選定とは別のロックインを決めます。自己改善は記憶汚染という固有リスクも伴うため、監査と評価の統制が前提です。日本企業が取るべき構えは、思考は乗り換え可能にしつつ、接続・評価・統制・記憶を自社の管理面に残し、その設計を内製化すること。新機能の華やかさに乗る前に、「この賢さは、どこに溜まり、持ち出せるのか」を問うことが、次の数年の自由度を決めます。
「自社のエージェントの記憶と評価は、いまどこに溜まっていて、ベンダーを替えても持ち出せますか」——この問いの棚卸しは、自己改善エージェントを本番に乗せる前にこそ価値があります。設計と内製化の最初の一歩を、一度ご一緒に整理してみませんか。