「いくら賢いか」の次に来たのは「いくら使ったか」
homulaは、特定のベンダーやツールに縛られず、エンタープライズ企業が自社にとって最適なAI構成を選び、使い続けられるよう支援するAIインテグレーターです。その立場から見て、2026年6月後半に起きた潮目の変化は見逃せないものでした。
この2年あまり、企業のAI利用は「とにかく使わせる(spend-first, optimize-later)」という空気で進んできました。開発者やナレッジワーカーに、できるだけ多くのトークンをモデルに流し込ませる——いわゆる tokenmaxxing(トークン浪費) です。ところが6月、米メディアの報道が相次ぎ、その前提が音を立てて崩れ始めました。CFO(財務責任者)に届いた想定外のAI請求書が、潮目を「効率」へと押し戻しています(CNBC、TechCrunch)。
本記事は、課金「モデル」が定額から従量へ移った話(席数からトークンへ、メーター課金になる日で既報)の続編です。今回扱うのは、使う側の行動と統制——「浪費文化」が破綻し、ベンダーまでが管理機能を出し始めたいま、日本企業が何を仕込むべきかです。
tokenmaxxing とは何だったのか
tokenmaxxing は、AIの効果を「どれだけ使ったか(消費量)」で測ろうとする発想から生まれました。利用が伸びれば成果が出ているはずだ——という仮定のもと、各社は利用を奨励し、最上位の高価なモデルを惜しみなく使わせてきました。
ところが消費量は成果の代理指標として脆弱です。報道によれば、いま起きているのは次のような揺り戻しです。
- 想定外の請求: 多くのCFOがAI支出の急成長を予算化しておらず、管理する道具も持っていなかった(CNBC)。
- 小さなタスクの浪費: 企業は、従業員が些末な作業でAI予算を使い切ってしまうのを止めようと動き始めた(TechCrunch)。
- 支出上限の導入: 報道によれば、Uberは一部のAIツールに月額1,500ドルを基準とする支出ティアを設けたとされます(同CNBC)。
ここで効いているのは「AIが効かない」という話ではありません。消費量=成果ではないという当たり前の事実に、財務の論理が追いついた、ということです。だからこそ揺り戻し先は「AIをやめる」ではなく「効率と統制」になっています。
ベンダー自身が「支出統制」機能を出し始めた
象徴的なのは、モデルを売る側が、利用を煽る機能ではなく抑える・見える化する機能を相次いでリリースしたことです。
OpenAI は2026年6月18日、ChatGPT Enterprise 向けに「新しい利用分析と支出統制」を発表しました。管理者はワークスペース全体の既定上限を設定し、グループ単位の上限や個人ごとの上書きを設定できます(同社はパワーユーザーの上限を標準ユーザーの4〜5倍に置くことを推奨)。Global Admin Console は ChatGPT と Codex のクレジット消費を一画面に集約し、ユーザー・製品・モデル別の内訳や経時トレンドを可視化、同じデータは統一 Cost API からも取得できます。従業員側も自分の予算に対する消費を確認し、必要なら理由を添えて追加を申請できます(OpenAI)。
Anthropic も同方向です。組織・個人の両レベルで支出上限を設定でき、2026年4月にはユーザー単位の支出キャップを管理者機能として追加。アグリゲートされた利用状況を取得する Analytics API、監査・ガバナンス向けの Compliance API、Claude Code のツール権限やMCPサーバー設定を組織横断で強制する managed policy、SCIM によるグループ同期などを提供しています(Anthropic)。
つまり「使った分だけ課金される」時代において、誰が・何に・いくら使ったかを統べる層が、プラットフォームの標準装備になりつつあります。
なぜ「アカウント単位の上限」だけでは足りないのか
ベンダーの支出統制は前進ですが、これは基本的に「人とアプリ単位」の管理です。AIエージェントの本番運用では、コストの発生のしかたが変わります。
- タスク単位・自律実行: エージェントは1つの指示から複数モデル呼び出し・ツール実行・再試行を自律的に連鎖させます。コストは「人の操作」ではなく「タスクの設計」で決まります。
- マルチモデル・マルチツール: 適所適モデルのルーティング(GPT-5.6のティア設計で詳述)やキャッシュの有無で、同じ成果でもコストは数倍変わります。
- 野良利用との合わせ技: 部門ごとに無秩序に増えたツール(シャドーAI)は、支出を不可視にし統制を素通りします。
そして肝心の成果(ROI)は、まだ多くの組織で証明できていません。調査会社の指摘は厳しめです。Gartnerは2026年の世界AI支出を約2.5兆ドル(前年比+47%)と見込む一方で(Gartner)、エージェント型AIプロジェクトの約40%がコスト増と価値の不明確さを理由に2027年までに中止されると予測しています。MITの調査(2025年)でも、AIパイロットの約95%が測定可能なP&Lインパクトを出せていないと報告されました。数字の精度には幅がありますが、方向は一致しています——支出は実在し、効果は曖昧。
コスト統制を「上限を切る」だけで終わらせると、現場は安いモデルへ逃げ、品質と信頼性が崩れます。Lindyが全トラフィックを別モデルへ移したという報道(前掲CNBC)は象徴的ですが、安易な置換は別のリスクを呼びます。要は上限ではなく設計——成果あたりコストを下げる構造をつくることです。
浪費が生まれる層と、効かせる統制
「使い方の統制」を、コストが発生する層ごとに整理すると打ち手が見えます。
| 層 | 浪費が生まれる原因 | 効く統制 |
|---|---|---|
| モデル選定 | 何でも最上位モデルで実行 | タスク難度に応じたルーティング(適所適モデル)・キャッシュ |
| プロンプト/文脈 | 不要な長文・冗長な再投入 | 文脈の最小化・要約・検索(RAG)での絞り込み |
| エージェント設計 | 無制限の再試行・自律ループ | 反復上限・予算上限・人手承認のゲート |
| 権限/アクセス | 誰でも何にでも使える | RBAC・グループ別上限・用途別のスコープ |
| 可視化/配賦 | 誰がいくら使ったか不明 | 部門・タスク別の消費の可視化と配賦、予算アラート |
| 成果測定 | ROI定義なしで開始 | 着手前の成功定義・効果測定の仕組み |
ベンダーの管理コンソールがカバーするのは主に下2層(可視化・上限)です。上の4層——モデル選定・文脈・エージェント設計・権限——は、ツールではなく実装と運用の設計で決まります。ここが、コスト統制の主戦場です。
homulaの観点——コストは「設計問題」として解く
homulaは、AIのコストを「請求書を見て驚く問題」ではなく「最初から設計する問題」として扱います。
- ムダな実装を削る: Agens はMCPを活用し、200以上のツールと構築ゼロで接続します。連携のたびに作り込む開発コストと、車輪の再発明によるトークン浪費を同時に減らせます。
- 「誰が何にいくら使ったか」を統べる: Agens Control は承認フロー・DLP・5年分の監査ログ・RBACを提供します。ベンダー単体のコンソールが見ない「組織横断の用途・部門・承認」の軸で、支出と権限を一元統制できます。自律エージェントに予算と承認のゲートを噛ませる設計と相性が良い領域です。
- 適所適モデルで成果あたりコストを下げる: n8n / Dify / LangGraph を組み合わせ、タスク難度に応じてモデルとツールを振り分けます。単一ベンダー固定ではなく、品質を保ったまま成果あたりコストを最適化します。
- ROIを先に決める: AIエージェント・ブートキャンプでは、業務棚卸し・プロトタイプ構築・ROI試算を3〜5日で完結します。「着手前に成功を定義する」ことが、浪費とプロジェクト中止を防ぐ最初の一歩です。
実績の一例として、適切に設計したエージェント化で処理時間を93%削減したケースもあります。重要なのは、上限で縛るのではなく、成果あたりのコストを下げる構造を最初から組み込むことです。
まとめ——「使わせる」から「効かせる」へ
2026年6月後半の潮目は、AI投資が止まるという話ではありません。Gartnerの2.5兆ドルが示すとおり支出は伸び続けます。変わったのは問いの立て方です。「どれだけ使ったか」から「どれだけ効いたか」へ、「人とアプリの上限」から「タスクと権限の設計」へ。
ベンダーの支出統制機能は前提条件として入れるべきですが、それだけでは現場は安いモデルへ逃げるか、上限に当たって止まるかのどちらかになりがちです。勝ち筋は、モデル選定・文脈・エージェント設計・権限という上流を設計で押さえ、可視化と承認・監査で統べること。tokenmaxxingの終わりは、AIガバナンスが「禁止」から「設計」へと成熟する転換点でもあります。
「請求書を見て驚く」前に、使い方そのものを設計しませんか。homulaは、コスト統制と成果を両立させるエージェント設計を、棚卸しからROI試算まで一気通貫で支援します。