homula
LLMセキュリティ完全ガイドLayer 1 / 3

LLM業務利用のデータ主権:学習利用・保存リージョン・ローカル化・マスキングの4類型

「データを外に出したくない」という懸念は、実は4つの異なる課題を意味しています。懸念を類型化して正確に把握することが、コスト・精度・運用負荷の最適な技術選択への第一歩です。

読了時間 約15分最終更新:2026年3月対象:CISO・情報システム部門・CTO

Definition

エンタープライズLLMのデータ主権(Data Sovereignty)とは、業務データがLLMベンダーによる学習利用・国外リージョンへの転送・ネットワーク外への送信から保護されることを指し、「完全に制御されている」状態を意味します。この保護水準は4つの類型に分解でき、類型ごとに適切な技術的対策が異なります。

課題の実態

30%

homulaへの相談のうち、「データをクローズドで使いたい」が主要な懸念として挙がった割合。しかし、詳細をヒアリングすると、同じ発話が4つの異なる懸念を意味していることが多い。

よくある誤解

「クラウドLLMを使えばデータが学習に使われる」という誤解が広まっています。実際には、OpenAI / Anthropic / Googleのエンタープライズ契約・APIでは、デフォルトでプロンプトデータは学習利用されません。この前提を正確に把握することで、不要なオンプレ投資を避けられます。

「データを外に出したくない」は4つの異なる懸念を意味する

類型 01学習利用

「自社データでモデルが学習されたくない」

→ ポリシーを確認すれば多くのエンタープライズ契約で学習利用は行われない

類型 02保存リージョン

「データが海外サーバーに保存されると困る」

→ 日本リージョン指定エンドポイントを強制すれば国内に限定できる

類型 03完全ローカル

「ネット経由でどこにも送信したくない」

→ オンプレLLM または VPC閉域網構成が技術的選択肢になる

類型 04入力マスキング

「PII・機密情報をLLMに渡したくない」

→ プロンプトレイヤー or 前処理でのPIIマスキング実装で対処できる

類型 01 — 学習利用

「自社データでモデルが学習されたくない」

エンタープライズ向けの有償プランおよびAPIでは、主要3社ともプロンプトデータをモデル学習に使用しないことを契約で保証しています。無料版との混同が誤解の主な原因です。

重要な前提

以下の比較はエンタープライズ契約・APIの条件です。無料版(ChatGPT無料プラン / Google AI Studio)は異なるポリシーが適用されます。業務利用には必ず有償プラン・APIを使用してください。

主要LLMベンダー:学習利用ポリシー比較(エンタープライズ契約 / API)

ベンダー / サービス学習利用データ保持期間主要認証

OpenAI

ChatGPT Enterprise / API

× 学習利用なし

エンタープライズ契約・API利用では学習に使用しないことを利用規約で明記

30日(API)/ 設定変更可

API利用でデフォルトOpt-out

SOC 2 Type II / ISO 27001

Anthropic

Claude API / Claude for Enterprise

× 学習利用なし

APIを通じて送受信されたデータはモデル学習に使用されない。Enterprise契約では保持期間ゼロのオプションあり

設定可能(最短即時破棄)

デフォルトOpt-out

SOC 2 Type II / HIPAA対応

Google

Vertex AI Gemini API

ISMAP認定

× 学習利用なし

Vertex AI APIを通じたプロンプト・レスポンスは基盤モデルの学習・改善に一切使用されない(CDPA契約で法的に規定)

24時間インメモリキャッシュのみ(ディスク保存なし)。ゼロデータリテンションオプションあり

デフォルトOpt-out(CDPAで保証)

ISMAP / ISO 27001 / SOC 2 / FISC / ISO 42001

homula's Insight

「学習利用の懸念」については、主要3社とも契約・APIで学習利用しないことをデフォルトで保証しています。この類型の懸念は、適切な契約確認と社内ポリシー整備で解消できます。homulaのブートキャンプでは、初日に契約レビューと社内LLM利用規定のドラフト作成を実施し、情報システム部門・法務との承認を早期に得る支援を行っています。

類型 02 — 保存リージョン

「データが海外サーバーに保存されると困る」

日本リージョンを正しく指定・強制すれば、処理・保存ともに国内に限定できます。ただし、設定ミスによってグローバルエンドポイントを経由するケースが多発しており、技術的な強制設定が重要です。

Microsoft Azure

Azure OpenAI Service

日本リージョン

Japan East(東日本)/ Japan West(西日本)

対応モデル(主要)

GPT-4o / GPT-4o mini / o1 / o3-mini

プライベート接続

Private Endpoint(VNet統合)

コンプライアンス認証

ISMAP / FISC / SOC 2 / ISO 27001

実装上の注意点

日本語処理の最適化が進んでいる。Azure Government同等の閉域設定が可能

Google Cloud

Vertex AI

日本リージョン

asia-northeast1(東京)/ asia-northeast2(大阪)

対応モデル(主要)

Gemini 2.5 Pro / Gemini 2.5 Flash / Claude 3.7 Sonnet / Llama 4

プライベート接続

VPC Service Controls + Private Service Connect

コンプライアンス認証

ISMAP / FISC(第13版)/ SOC 2 / ISO 42001

実装上の注意点

グローバルエンドポイントではなくリージョン限定エンドポイントの強制が必須。Organization Policyで制御可能

AWS

Amazon Bedrock

日本リージョン

ap-northeast-1(東京)/ ap-northeast-3(大阪)

対応モデル(主要)

Claude 3.7 Sonnet / Titan / Llama 3.3 / Mistral

プライベート接続

VPC Endpoint(PrivateLink)

コンプライアンス認証

ISMAP / ISO 27001 / SOC 2

実装上の注意点

Bedrock Guardrailsで出力フィルタリングやPII検知が統合で利用可能

Google Cloud:リージョン限定エンドポイント強制の構成例

AIアプリケーション

Organization Policy

constraints/gcp.resourceLocations

→ asia-northeast1 のみ許可

Vertex AI

asia-northeast1

グローバルEP

BLOCKED

VPC Service Controls

Private Service Connect

データは東京リージョン内に完全閉鎖

類型 03 — 完全ローカル

「ネット経由でどこにも送信したくない」

完全オフライン要件は、特定の規制環境(重要インフラ、防衛関連、特定の金融等)に限定されます。この選択肢を取る前に、本当にオンプレが必要かを精査することが重要です。

判断の前提

「オンプレLLMが必要か」の判断は、実際の業務要件・規制要件に基づくべきです。多くの場合、日本リージョン + VPC閉域網でコンプライアンス要件は充足できます。GPT-4 / Claude 3.7クラスの精度が業務上必要な場合、オンプレLLMは現時点では代替になりません。

完全ローカル vs VPC閉域 vs クラウド:選定基準

選定基準クラウドLLM
(日本リージョン)
VPC閉域網
(クラウド内)
オンプレLLM
(完全ローカル)

完全オフライン要件

インターネット接続が一切許可されない環境(重要インフラ、防衛関連等)

××

国内リージョン限定で十分

多くの金融・製造・医療企業はこちらで要件充足

推論精度の最大化

オンプレ小規模モデルはGPT-4 / Claude 3.7クラスの精度に未到達

×

GPU/インフラ運用コスト

A100/H100クラスのGPUサーバー維持コストは月数百万円規模

×

モデル更新・管理の柔軟性

オンプレはモデル更新サイクルが遅れがち

×

コンプライアンス証明の容易さ

ISMAPなど第三者認証済みクラウドの方が監査対応しやすい

×

LLaMA / Mistral(オープンソース)

適用シーン:完全オフライン環境、ファインチューニングが必要な特定業務

主要モデル:Meta LLaMA 3.3 70B / Mistral Large 2

インフラ要件:NVIDIA A100 / H100(70Bモデルに最低4枚必要)

注意:GPT-4o / Claude 3.7と比較して、日本語の複雑なタスクで精度差あり

VPC閉域網(推奨)

適用シーン:多くのエンタープライズ(金融・医療・製造)

構成:VPC Service Controls + Private Service Connect + リージョン限定EP

利点:最新GPT-4 / Claude 3.7クラスの精度を維持しながらデータを閉鎖

認証:ISMAP / FISC対応クラウドでコンプライアンス証明が容易

類型 04 — 入力マスキング

「PII・機密情報をLLMに渡したくない」

クラウドLLMに送信するプロンプトから個人情報・機密情報を除去・仮名化するアプローチです。リージョン制約を超えて対処できる唯一の方法であり、2つの実装パターンがあります。

A

前処理マスキング(推奨)

生データ(PII含む)

PII検出エンジン(Presidio / spaCy)

仮名化済みデータ → LLMへ送信

例: 「田中太郎」→「顧客ID:C00123」

LLM処理後、逆マッピングで再同定

最終出力(再同定済み)

LLMには仮名化済みデータのみが渡る

個人情報保護委員会のガイドラインに沿った設計

逆マッピング表の管理が必要(セキュリティ設計必須)

B

プロンプトレイヤーマスキング

生データ(PII含む)

システムプロンプトで「PII出力禁止」を指示

生データがそのままLLMに渡る ⚠️

LLMは受け取っているが出力しない設計

出力段階でPIIを除去

PII除去済み出力

LLMのコンテキストにPIIが入る点は残る

プロンプトインジェクションで迂回される可能性

実装は簡易。PoC段階の暫定策として有効

# PIIマスキング実装例(前処理パターン — Python)

from presidio_analyzer import AnalyzerEngine
from presidio_anonymizer import AnonymizerEngine

analyzer = AnalyzerEngine()
anonymizer = AnonymizerEngine()

def mask_pii(text: str) -> tuple[str, dict]:
    # PII検出
    results = analyzer.analyze(
        text=text,
        language="ja",
        entities=["PERSON", "EMAIL", "PHONE_NUMBER", "JP_MY_NUMBER"]
    )
    # 仮名化(逆マッピング保存)
    anonymized = anonymizer.anonymize(text=text, analyzer_results=results)
    return anonymized.text, build_reverse_map(results, text)

# LLMへは仮名化済みテキストのみ送信
masked_text, reverse_map = mask_pii(user_input)
llm_response = call_llm(masked_text)
# 出力を再同定
final_response = reidentify(llm_response, reverse_map)

homula's Insight

PIIマスキングの実装はパターンAを推奨します。実装工数は2〜4週間が一般的ですが、業務プロセスへの統合(入力パイプライン改修・逆マッピング管理・監査ログ連携)の設計が品質を左右します。homulaでは、業務要件に応じたマスキングルールの設計からMicrosoft Presidio / spaCyを活用した実装まで支援しています。

Decision Matrix

要件別 技術選定マトリクス

懸念の深刻度と業務要件に応じて、最適な対策を選択してください。多くのケースで類型1〜2の対策で十分であり、オンプレLLMが必要なのは特定の規制環境のみです。

深刻度:

学習利用が心配

推奨対策

エンタープライズ契約 + ポリシー確認

追加コスト

追加コストなし

トレードオフ

なし(デフォルトで保護済み)

深刻度:

データが国外に出ることが懸念

推奨対策

日本リージョン指定エンドポイント + Organization Policy強制

追加コスト

わずか(設定変更のみ)

トレードオフ

一部モデルが未対応のケースあり

深刻度:

PII・機密情報を含む入力がある

推奨対策

PIIマスキング(前処理 or プロンプトレイヤー)

追加コスト

中(実装工数2-4週)

トレードオフ

文脈情報が一部失われる可能性

深刻度:

金融・医療など規制業界

推奨対策

日本リージョン + VPC閉域 + ISMAP/FISC対応クラウド

追加コスト

中高(設計・実装が必要)

トレードオフ

一部機能制限の可能性(バッチ等)

深刻度:最高

完全オフライン必須

推奨対策

オンプレLLM(LLaMA / Mistral)または非接続環境へのデプロイ

追加コスト

高(GPU/インフラ投資 + 運用)

トレードオフ

最新GPT-4クラスの精度には到達しない

homula Support

ブートキャンプでの要件マッピングセッション

homulaのブートキャンプ(3〜5日)では、初日にデータ主権要件の棚卸しと技術選定を行います。「どの懸念が本当の問題か」を特定し、過剰なオンプレ投資を回避します。

Day 1

要件マッピングセッション

対象業務・データ種別・既存規制要件を4類型フレームワークで整理。「本当の懸念」を特定し、技術選定の方向性を決定。

Day 2-3

アーキテクチャ設計

要件に合ったクラウド選定・リージョン設定・VPC構成・PIIマスキング実装方針を設計。情報システム部門・法務への説明資料も作成。

Day 4-5

プロトタイプ構築 + ROI試算

実際の業務データ(マスキング済み)を使ったプロトタイプを構築。セキュリティ要件充足を確認しながら、投資対効果を試算。

ブートキャンプ

5日でプロトタイプ + セキュリティ要件定義

データ主権要件の整理から、実際に動くセキュアなAIエージェントのプロトタイプ構築まで。

詳細を見る

Agens Control

DLP・監査ログ・閉域網を統合プラットフォームで実現

AIエージェントのデータ主権・アクセス制御・監査ログを一元管理するエンタープライズ統制基盤。

詳細を見る

LLMセキュリティ完全ガイド — シリーズ記事

Layer 1← 現在の記事

データ主権

学習利用・リージョン・ローカル・マスキングの4類型

本記事
Layer 2Coming Soon

エージェント固有リスク

プロンプトインジェクション・権限スコープ・HITL・出力フィルタリング

準備中
Layer 3Coming Soon

ガバナンスフレームワーク

監査ログ設計・日本規制対応・モデルサプライチェーン管理

準備中

FAQ

よくある質問

出てきません。ChatGPT Enterprise契約およびOpenAI APIでは、ユーザーが入力したデータはモデルの学習に使用されないことが利用規約で明記されています。無料版のChatGPT(ChatGPT.com)では異なるポリシーが適用されるため、業務利用には必ずEnterprise契約またはAPIを使用してください。Vertex AI / Azure OpenAI Serviceも同様に、プロンプトデータは学習利用されません。

リージョン限定エンドポイントを適切に設定すれば、処理・保存ともに指定リージョン内に限定されます。ただし、Google Cloud の場合はグローバルエンドポイントを使用するとデータの所在を保証できないため、必ずasia-northeast1(東京)などのリージョン指定エンドポイントをOrganization Policyで強制することが重要です。Azure OpenAI ServiceでもリソースをJapan Eastに作成し、Private Endpointを設定することでVPC内に閉じた通信が可能です。

2026年3月時点で、オープンソースLLM(LLaMA 3.3 70B / Mistral Large等)はGPT-4o / Claude 3.7に比べて日本語の複雑なタスクで10〜30%程度の精度差があります。コーディング・英語タスクでは差が縮まっています。ただし、専門ドメインへのファインチューニングや特定業務への最適化により、その差を埋めることが可能です。完全オフライン要件がない限り、homulaでは日本リージョンのクラウドLLMを基本推奨としています。

「前処理(プロンプト生成前)」での実装を推奨します。理由は2点あります。①プロンプトレイヤーでのマスキングはLLMへの入力自体を変えないため、元のPIIがLLMに渡るリスクが残る。②前処理で匿名化・仮名化を行い、LLMへは「顧客ID:C12345」のような代替表現を渡すことで、後段で再同定する設計が安全です。実装上はPII検出ライブラリ(Microsoft Presidio / spaCy等)を入力パイプラインに組み込む形が一般的です。

ブートキャンプの初日に「データ主権要件マッピングセッション」を実施します。対象業務・データ種別・規制要件・既存インフラを整理し、4類型のどれが実態の懸念かを特定。その上で技術選定マトリクスに基づき、コスト・精度・運用負荷のバランスを取った最適構成を提案します。5日間のブートキャンプ終了時には、要件定義書・アーキテクチャ設計書・ROI試算を成果物として納品します。

Next Step

自社のデータ主権要件を正確に把握したい

「4類型のどれが自社の懸念に該当するか」をブートキャンプの初日に整理します。過剰なオンプレ投資を避け、最適なコスト・精度・運用バランスで構築するための要件定義セッションを提供します。