AIに引用される土台を整える:6つの診断観点


AIに引用される土台を整えるとは何か ── 6つの診断観点

「土台を整える」を具体化する

前回までの記事で、AIクローラーがJavaScriptを実行しない問題、llms.txtの実効性、SEOとGEOの技術的な違いを扱ってきた。共通して触れてきたのが「AIに引用される技術的土台を整える」という表現だ。

本記事では、この抽象的な言い回しを具体的な作業に分解する。筆者が開発しているAI可読性診断ツールは、サイトを6つの観点で評価する。この6項目こそが「土台」の構成要素だと考えている。

なお、前提として一つ強調しておきたい。これらの土台を整えても、AIに引用されることが保証されるわけではない。あくまで「引用されうる状態」を作るための必要条件であって、十分条件ではない。引用されるかどうかは、コンテンツの質や競合との比較など、ここでは扱わない要素にも依存する。この区別は重要なので最初に明記しておく。

観点1: AIボットのアクセス可否

最も基本的な土台は、そもそもAIクローラーがサイトにアクセスできることだ。ここでつまずいているサイトは意外に多い。

確認すべきは2層ある。1つはrobots.txtでの許可・禁止設定。GPTBot、ClaudeBot、PerplexityBot、Google-Extended、CCBotなど主要なAIボットのUser-Agentに対して、意図せずDisallowを設定していないか。

もう1つ、見落とされがちなのがサーバーやWAF(Web Application Firewall)、CDNのレベルでのブロックだ。robots.txtでは許可していても、ボット対策の設定がAIクローラーのUAを弾いているケースがある。この場合、AIクローラーがアクセスするとHTTP 403や429が返る。

診断では、各ボットのUser-Agentを用いて実際にHEADリクエストを送り、ステータスコードを確認することで、この「robots.txtでは見えない実際のブロック」を検出できる。

観点2: JavaScript依存度

別記事で詳述したが、AIクローラーの多くはJavaScriptを実行しない。SPAやクライアントサイドレンダリングに依存したサイトは、AIから本文が空に見えるリスクがある。

静的HTMLとレンダリング後のテキスト量を比較することで、何割のコンテンツがJavaScript依存かを定量化できる。この値が高いほど深刻だ。6項目の中でも、これは最も重みの大きい項目だと考えている。コンテンツがそもそも読まれていなければ、他の対策がすべて無意味になるからだ。

観点3: 構造化データ

構造化データ(Schema.orgのJSON-LD)は、ページの内容を機械可読な形式で意味づけする仕組みだ。「これは組織名」「これは記事の著者」「これは商品の価格」といった情報を、AIがエンティティとして正確に抽出できるようになる。

構造化データがないと、AIは本文から文脈を推測するしかなく、情報の正確性が下がる。特にOrganization、Article、Product、FAQPageといった主要なタイプは、対応するコンテンツがあるなら実装しておく価値が高い。

診断では、JSON-LDの有無に加えて、実装されているタイプと、各タイプの必須プロパティの欠落をチェックする。

観点4: セマンティックHTML

HTMLの構造そのものも、AIの理解を左右する。具体的には以下のような要素だ。

  • 見出し階層: h1が存在するか、見出しレベルが飛んでいないか。h1はページの主題を示す最重要シグナルで、AIが最初に参照する
  • 表の扱い: データが画像化されていないか。画像化された表はAIに読めない
  • alt属性: 画像に代替テキストがあるか
  • meta descriptionとOGP: ページの要約情報が適切に記述されているか

これらは個々には地味だが、積み重なってAIの理解精度に影響する。

観点5: 情報の鮮度シグナル

AIは情報の新しさを判断材料にする。古い情報は引用されにくくなる傾向がある。鮮度を伝えるシグナルは複数ある。

  • 公開日・更新日のマークアップ(OGPのarticle:published_time<time datetime>要素、JSON-LDのdatePublished)
  • sitemap.xmlの<lastmod>

sitemap.xmlはクローラーが再クロールの優先順位を決める主要な手がかりでもある。存在しないと、更新頻度がAIクローラーに伝わらない。

観点6: llms.txt

別記事で論じた通り、llms.txtの現時点での実効性は限定的だ。診断項目には含めているが、ウェイトは低く設定している。

「設置されていれば将来への備えとして加点するが、決定的な要素ではない」という位置づけだ。効果を過大評価しないことが、この項目を正しく扱う鍵になる。

6項目をどう使うか

これら6項目は、それぞれ独立してスコア化できる。そして重要なのは、改善の優先順位だ。

すべてを同時に直す必要はない。インパクトの大きい順に着手するのが合理的で、多くの場合その筆頭はJavaScript依存度になる。コンテンツが読まれていなければ、構造化データを整えても鮮度シグナルを足しても効果が出ないからだ。

また、6項目は対応の難易度が異なる。robots.txtの修正やh1の追加は自分でできる無料の作業だが、SSR化のようなアーキテクチャ変更は開発リソースを要する。この「効果の大きさ」と「対応コスト」の2軸で優先順位をつけると、現実的なロードマップが描ける。

まとめ

「AIに引用される土台を整える」とは、具体的には以下の6つの観点を改善することだ。

  1. AIボットのアクセス可否 ── robots.txtとWAF/CDNレベルでの誤ブロックを排除
  2. JavaScript依存度 ── 本文がJS実行なしで読める状態にする(最重要)
  3. 構造化データ ── Schema.orgでエンティティを明示
  4. セマンティックHTML ── 見出し階層、表、alt、meta情報を整える
  5. 情報の鮮度シグナル ── 更新日マークアップとsitemap
  6. llms.txt ── 将来への備え(効果は限定的)

そして繰り返すが、これらは引用されるための必要条件であって十分条件ではない。土台を整えた上で、AIが引用したくなるコンテンツ(ファクトの密度、エンティティの明確さ、一次情報性)が乗って初めて、引用される可能性が高まる。

土台の整備は、地味だが効果が測定しやすく、再現性がある領域だ。まずここから着手するのが、GEO対策の現実的な第一歩だと考えている。


本記事で紹介した6項目の診断は、筆者が開発したツールに基づく。各項目の測定手法やスコアリングの詳細については、個別記事で順次解説していく。