homula
GEO実践ガイド03 / 04

GEO技術実装ガイドAIクローラー制御・構造化データ・計測基盤の構築手順

GEO対策の成否は、コンテンツの質だけでなく「AIがそのコンテンツに到達できるか」「正しく構造を理解できるか」「効果を計測できるか」という技術基盤に大きく依存します。本ガイドでは、CTO・情シス・エンジニアリードが押さえるべきGEOの技術実装を、エビデンスレベルを明示しながら体系的に解説します。

読了時間: 約15分2026年3月更新対象: CTO・情シス・エンジニアリード

Definition

GEOの技術実装とは、AIクローラーのアクセス制御(robots.txtによる検索用・学習用・ユーザー起動型ボットの分離管理)、セマンティックHTML・構造化データ(JSON-LD)の最適化、およびAI引用の計測基盤構築(Bing AI Performance・GA4リファラー追跡・サーバーログ分析)を含む、サイトインフラレベルのGEO対応を指します。

なぜ技術基盤がGEOの前提条件なのか

Googleは公式ドキュメントで「AI Overviews / AI Modeに表示されるための追加の技術要件はない」と明言しています。表示の基本要件は「インデックスされており、スニペット表示が可能な状態であること」です。つまり、クロール可能性・インデックス可能性・スニペット適格性が担保されていなければ、どれだけ優れたコンテンツを書いてもAI検索には表示されません。

さらに2025〜2026年にかけて、各AIプラットフォームはクローラーを「検索用」「学習用」「ユーザー起動型」の3種類に分離しました。この分離により、「学習には使わせないが、AI検索結果には表示させたい」という細粒度の制御が可能になった一方、設定ミスによって意図せず全てのAI検索から除外されるリスクも生まれています。

Layer 1

到達可能性

AIクローラーがコンテンツにアクセスできるか。robots.txt・CDN/WAF設定・クローラー許可が対象。

Layer 2

構造理解性

AIがコンテンツの構造と意味を正しく解釈できるか。セマンティックHTML・JSON-LD・見出し階層が対象。

Layer 3

計測可能性

AI引用の効果を定量的に追跡できるか。AI Performance・リファラー分析・引用監視が対象。

Layer 1 — Crawl Eligibility

AIクローラーの全体像: 3分類と5大プラットフォーム

2026年現在、主要AIプラットフォームはクローラーを目的別に分離しています。GEOの技術実装において最も重要な判断は、「どのボットを許可し、どのボットをブロックするか」のポリシー設計です。各ボットの役割を正確に理解することが出発点となります。

AIクローラーの3分類

① 検索用ボット

目的

AI検索結果への表示・引用

robots.txt

robots.txt を遵守

ブロック時の影響

ブロックするとAI検索に表示されなくなる

② 学習用ボット

目的

モデルの学習データ収集

robots.txt

robots.txt を遵守

ブロック時の影響

ブロックしても検索表示には直接影響しない

③ ユーザー起動型

目的

ユーザーの指示でページを取得

robots.txt

robots.txt を無視する場合がある

ブロック時の影響

制御が困難、技術的対策の効果は限定的

プラットフォーム別ボット一覧

プラットフォーム検索用学習用ユーザー起動型
GoogleGooglebotGoogle-Extended
OpenAIOAI-SearchBotGPTBotChatGPT-User
PerplexityPerplexityBot—(学習には使用しないと明言)Perplexity-User
AnthropicClaude-SearchBotClaudeBotClaude-User
MicrosoftBingbot—(Copilot はBingの検索基盤を使用)

重要: ユーザー起動型ボット(ChatGPT-User、Perplexity-User等)はrobots.txtを無視する場合があります。これはユーザーが明示的にURLを指定して「このページを読んで」と指示した場合に発動するもので、robots.txtでの完全なブロックは技術的に困難です。CDN/WAFレベルでのUser-Agentブロックも可能ですが、正当なユーザーアクセスを妨げるリスクがあるため、慎重な判断が必要です。

Implementation Pattern

クローラー制御の設計パターン

GEOにおけるクローラー制御の基本方針は「検索用ボットは許可、学習用ボットはビジネス判断で選択」です。以下に、エンタープライズサイトで最も一般的な3つの設計パターンを示します。

パターン A: AI検索最大化

全ての検索用ボットと学習用ボットを許可。AI検索での可視性を最大化しつつ、将来のモデル更新にも自社情報を反映させる。

適合: コンテンツマーケティング主体の企業、メディアリスク:

パターン B: 検索許可・学習制限(推奨)

検索用ボットのみ許可し、学習用ボットはブロック。AI検索での表示は維持しながら、自社コンテンツの学習データ利用を制限。

適合: 大半のエンタープライズ企業リスク: 中(将来のモデルに情報が反映されにくい)

パターン C: 選択的許可

特定のプラットフォームの検索用ボットのみ許可。例えばGooglebotとBingbotは許可するが、他のAIボットはブロック。

適合: 厳格なデータガバナンスが必要な金融・ヘルスケアリスク: 高(許可外プラットフォームでの不可視化)

robots.txt 設計例(パターンB: 推奨構成)

# robots.txt — GEO最適化済み(パターンB: 検索許可・学習制限)

# 検索用ボット — 許可(AI検索結果に表示される)
User-agent: Googlebot
Allow: /

User-agent: Bingbot
Allow: /

User-agent: OAI-SearchBot
Allow: /

User-agent: PerplexityBot
Allow: /

User-agent: Claude-SearchBot
Allow: /

# 学習用ボット — ブロック
User-agent: GPTBot
Disallow: /

User-agent: Google-Extended
Disallow: /

User-agent: ClaudeBot
Disallow: /

User-agent: CCBot
Disallow: /

# 管理領域 — 全ボット共通でブロック
User-agent: *
Disallow: /admin/
Disallow: /api/
Disallow: /internal/

llms.txt の位置づけ: ドキュメント整理として有用、過信は禁物

エビデンスレベル: Emerging(弱)

llms.txtはJeremy Howard氏が2024年9月に提唱した「AI版サイトマップ」構想です。ドメインルートに配置し、AIクローラー向けにサイト構造と優先ページを案内します。ドキュメント整理のベストプラクティスとしては有用ですが、Googleは2026年3月時点でllms.txtをAI検索の可視性向上には推奨しておらず、これ単体で引用率が向上する強いエビデンスは存在しません。「あれば良いが、優先度は低い」が現実的な評価です。

Layer 2 — Structured Data

構造化データ(JSON-LD)の実装

Googleは公式に「AI OverviewsやAI Modeのために特別な構造化データは不要」と明言しています。しかし、構造化データはGoogleがページのコンテンツとエンティティを理解するための補助シグナルとして機能しており、実務者のテスト結果では、適切な構造化データが実装されたページがAI Overviewに採用されやすい傾向が報告されています。

エビデンスレベル: Moderate(中)

Search Engine Landの実験報告(2025年9月)では、ほぼ同一内容の3ページのうち、適切なスキーマが実装されたページのみがAI Overviewに表示された事例が確認されています。ただし、これはGoogle公式の推奨ではなく、実務者レベルの観察です。構造化データは「曖昧さの排除ツール」として活用するのが適切であり、「AI引用のスイッチ」ではありません。

GEOに有効なJSON-LDスキーマ一覧

推奨スキーマセット(2026年3月時点)

Organization

企業のエンティティ認識。ブランド名・所在地・連絡先の曖昧さを排除

適用: 全ページ(サイト共通)

Article / TechArticle

記事の著者・公開日・更新日を明示。鮮度シグナルに寄与

適用: ブログ・ガイド記事

BreadcrumbList

サイト構造の明示。query fan-outによるサブトピック探索を支援

適用: 全ページ

FAQPage

Q&A構造の明示。FAQリッチリザルトに対応し、AI回答のテンプレートにもなりうる

適用: FAQ含有ページ

HowTo

手順の構造化。ステップバイステップ形式はAIが引用しやすい

適用: 手順系コンテンツ

Person

著者の専門性・経歴の明示。E-E-A-Tシグナルに寄与

適用: 著者ページ

実装例: TechArticle + Organization(JSON-LD)

<script type="application/ld+json">
{
  "@context": "https://schema.org",
  "@type": "TechArticle",
  "headline": "GEO技術実装ガイド",
  "description": "AIクローラー制御から計測基盤まで...",
  "datePublished": "2026-03-03",
  "dateModified": "2026-03-03",
  "author": {
    "@type": "Organization",
    "name": "株式会社homula",
    "url": "https://www.homula.jp"
  },
  "publisher": {
    "@type": "Organization",
    "name": "株式会社homula"
  },
  "proficiencyLevel": "Expert"
}
</script>

実装原則

構造化データは必ず「ページ上に表示されている内容と一致」させてください。Googleはこの一致を明確に要求しており、構造化データに記述してページ上に存在しない情報を含めるとペナルティの対象になり得ます。構造化データは「曖昧さの排除ツール」であり、「見せたい情報の注入手段」ではありません。

Layer 2 — Semantic HTML

セマンティックHTMLの最適化

LLMベースの検索エンジンは、構造化された階層的なHTMLと読みやすいテキストを好む傾向が研究で確認されています。Bingの公式ガイダンスでも「見出し・テーブル・FAQセクションがAIシステムのコンテンツ参照を助ける」と明記されています。セマンティックHTMLの最適化は、エビデンスレベルが高い(Strong)GEO手法の1つです。

見出し階層

h1はページに1つだけ配置し、トピックを明確に宣言。h2でセクションを分割し、h3で詳細を展開する階層構造を厳守します。

h1 → トピックの定義
h2 → セクション
h3 → 詳細項目

セマンティックタグ

<article>でメインコンテンツを囲み、<section>で論理的なセクションを分割。<nav>でナビゲーション、<aside>で補足情報を明示します。

<article> → 記事本文
<section> → 論理セクション
<nav> → ナビゲーション
<aside> → 補足・関連情報

Answer Capsule(引用ブロック)

各セクションの冒頭1〜3文を「そのまま引用できる完結した回答」として設計します。「Xとは、〜です。」の定義文形式が最も引用されやすいパターンです。AIが回答を生成する際のテンプレートとして機能します。

スニペット制御

Googleではnosnippet、max-snippet、noindexの各ディレクティブでAI機能への表示を制御できます。

nosnippet → AI表示を完全ブロック
max-snippet:50 → 50文字に制限
制限なし → 最大限の引用を許可

Google公式要件

Googleは「重要なコンテンツをテキスト形式で利用可能にすること」を明確に要求しています。画像内のテキスト、JavaScript生成のみで表示されるコンテンツ、PDFのみでの公開は、AI検索での可視性を低下させるリスクがあります。HTML上にテキストとして存在することが、GEOの最も基本的な技術要件です。

Layer 3 — Measurement

計測基盤の構築: AI引用を定量的に追跡する

GEOの効果測定は従来のSEOより困難です。AIの引用は非決定的(同じクエリでも回答が変化する)であり、単一の指標では全体像を捉えられません。2026年現在、実務家は3つのレイヤーで成果を測定しています。

L1

AI Visibility

ターゲットクエリ群において、自社ブランドがAI回答に何回含まれたか

計測手段: Bing AI Performance / サードパーティツール

L2

Citation Rate

AI回答に含まれた際、自社サイトへのリンク付き引用がされた割合

計測手段: Bing AI Performance(ページ別引用活動)

L3

Post-click Value

AI経由の訪問者のコンバージョン率・滞在時間・エンゲージメント

計測手段: GA4 リファラー分析

ファーストパーティ計測ツールの設定

Step 1 — Bing AI Performance

Bing Webmaster Tools: AI Performanceダッシュボード

2026年2月に公開されたBing Webmaster Toolsの「AI Performance」は、AIプラットフォーム初のファーストパーティ引用分析ツールです。Total Citations(総引用数)、Grounding Queries(AIがコンテンツを参照したクエリ)、ページ別のCitation Activity(引用活動)を直接確認でき、Bingは公式に「コンテンツの深さ・構造・エビデンス・鮮度の改善にこのデータを活用すべき」と推奨しています。

Step 2 — GA4 AIリファラー設定

GA4: AIリファラーのチャネルグループ設定

OpenAIはChatGPT SearchからのリンクにUTMパラメータ(utm_source=chatgpt.com)を自動付与しています。GA4のカスタムチャネルグループに以下のAIリファラーを追加することで、AI経由のトラフィックとコンバージョンを分離追跡できます。

# GA4 カスタムチャネルグループ: AI Search
# ソース条件(正規表現):
chatgpt\.com|perplexity\.ai|copilot\.microsoft\.com|
gemini\.google\.com|claude\.ai

# UTMパラメータ条件:
utm_source = chatgpt.com
Step 3 — Google Search Console

Google Search Console: AI Overviewsトラッキング

Google Search ConsoleではAI Overviewsからのインプレッションとクリックをフィルタリングして確認できるようになっています。AI機能は「Web」トラフィックに含まれる形で報告されます。Googleは「AI機能からのクリックはより品質が高い可能性がある」と述べており、従来のオーガニック検索との比較分析が可能です。

Step 4 — サーバーログ分析

サーバーログ: クローラーアクセスの直接監視

robots.txtの設定が意図通りに機能しているかを検証するために、サーバーログでのUser-Agent分析が不可欠です。OAI-SearchBot、PerplexityBot、Claude-SearchBotのアクセス頻度・対象URL・レスポンスコードを定期的に確認し、意図しないブロックが発生していないかを監視します。

0.5%

AI検索のトラフィック比率

(Ahrefs調査, 2026)

12.1%

AI経由の有料登録比率

(Ahrefs, 同調査)

23x

AI訪問者のCV率倍率

(vs オーガニック)

61%

AIO表示時のCTR減少

(オーガニック検索)

Audit Checklist

GEO技術監査チェックリスト

以下の4カテゴリ×5項目で、サイトのGEO技術実装状況を監査できます。各項目はエビデンスレベルの高い手法を優先して構成しています。

クローラー制御

主要5プラットフォームの検索用ボットがrobots.txtで許可されている

学習用ボットの許可/拒否ポリシーが文書化されている

CDN/WAF設定がAI検索ボットを誤ってブロックしていない

サーバーログでボットアクセスを定期的に監視している

noindex/nosnippetの設定が意図通りか確認済み

構造化データ

Organization スキーマがサイト全体に実装されている

Article/TechArticle にdatePublished・dateModifiedが設定されている

BreadcrumbList が全ページに実装されている

FAQPage スキーマが対応ページに実装されている

構造化データの内容がページ上の表示と一致している

セマンティックHTML

h1がページに1つだけ存在し、h1→h2→h3の階層が厳守されている

article / section / nav / aside が適切に使用されている

各セクション冒頭に引用可能なAnswer Capsuleがある

重要コンテンツがテキスト形式でHTML上に存在する

内部リンクがトピッククラスター構造を形成している

計測基盤

Bing AI Performanceダッシュボードが設定済み

GA4にAIリファラーのカスタムチャネルグループが追加されている

Google Search ConsoleでAI Overviewsフィルタを確認している

サーバーログでUser-Agent分析を定期実施している

AI経由コンバージョンの品質分析が可能な状態にある

Our Support

homulaのGEO技術実装支援

homulaは、エンタープライズ企業向けにAIエージェントの戦略策定からPoC・実装・運用までを一気通貫で支援するAIインテグレーターです。GEOの技術実装においても、クローラー制御設計・構造化データ実装・計測基盤構築を包括的にサポートしています。

Series Navigation

GEO実践ガイドシリーズ

1

GEOとは何か — 定義・SEOとの違い・AIが情報源を選ぶメカニズム

2

引用されるコンテンツの設計手法 — 7原則とAnswer Islands

3

GEO技術実装ガイド — クローラー制御・構造化データ・計測基盤

現在のページ
4

エンタープライズGEO戦略 — 組織体制・KPI・ツール選定

Coming Soon

あわせて読みたい

FAQ

よくある質問

robots.txtの最適化と基本的な構造化データの実装であれば、1〜2日で対応可能です。計測基盤(GA4のリファラー設定、Bing AI Performance連携)を含めると3〜5日が目安です。セマンティックHTMLの全面見直しや大規模サイトのクローラー制御設計を含む場合は、2〜4週間のプロジェクトになることもあります。homulaのブートキャンプでは5日間で技術基盤の構築からコンテンツ最適化まで一気通貫で実施します。

llms.txtはJeremy Howard氏が2024年に提唱したAIクローラー向けの案内ファイルですが、2026年3月時点でGoogleはllms.txtをAI検索の可視性向上に推奨していません。ドキュメント整理ツールとしては有用ですが、これ単体でAI検索の引用率が向上するエビデンスはまだ弱い段階です。まずはrobots.txtの適切な設定、構造化データの実装、セマンティックHTMLの最適化など、エビデンスの強い手法を優先すべきです。

各AIプラットフォームは「検索用ボット」と「学習用ボット」を分離しています。GPTBot(学習用)をブロックしてもOAI-SearchBot(検索用)を許可すればChatGPT Searchには表示されます。ただし、学習用ボットを全面ブロックすると、将来のモデル更新時に自社情報が反映されにくくなるリスクがあります。「検索用は許可、学習用はビジネス判断で選択」が現時点での推奨パターンです。

Googleは公式に「AI Overviews / AI Modeのために特別なスキーマや最適化は不要」と明言しています。インデックスされていてスニペット表示が可能な状態であることが基本要件です。ただし、実務者のテスト結果では、適切な構造化データが実装されたページがAI Overviewに採用されやすい傾向が報告されており、間接的には影響がある可能性があります。SEOの基本を徹底した上で、構造化データとセマンティックHTMLの品質を高めるアプローチが現実的です。

OpenAIはChatGPT検索からのリンクにutm_source=chatgpt.comを付与します。GA4では「トラフィック獲得」レポートでリファラーをフィルタリングし、chat.openai.com、perplexity.ai、copilot.microsoft.comなどをAIリファラーとしてチャネルグループに追加設定できます。Bing Webmaster ToolsのAI Performanceダッシュボードでは、AI引用数・グラウンディングクエリ・ページ別引用活動を直接確認可能です。これらを組み合わせることで、AI経由のコンバージョン品質まで追跡できます。

AI検索時代の技術基盤を構築しませんか?

homulaは400社超のエンタープライズ支援実績から得た知見を活かし、GEOの戦略策定から技術実装・計測基盤構築まで一気通貫で支援します。