引用される土台の限界と実測アプローチ


「AIに読まれる土台」を整えても引用されるとは限らない ── ならどう測るか

自分の診断アプローチの限界から始める

ここまでの一連の記事で、Webサイトを「AIに読まれる状態」にするための技術的土台を論じてきた。JavaScript依存度、AIボットのアクセス可否、構造化データ、セマンティックHTML、鮮度シグナル、llms.txt ── これら6つの観点を診断し、改善する。

だが、この記事ではあえて自分のアプローチの根本的な限界を正面から扱う。土台を整えても、AIに実際に引用される保証はないという問題だ。

これは小さな但し書きではない。診断ツールを売る側にとっては、商品の存在意義に関わる問いだ。だからこそ、誠実に掘り下げる価値がある。

なぜ土台診断では「引用される」を証明できないのか

6項目の診断が測っているのは、突き詰めれば「AIクローラーがコンテンツを読み取れる状態か」だ。これは引用の必要条件を測っているにすぎない。読めなければ引用されないのは確かだが、読めたからといって引用されるわけではない。

引用されるかどうかは、診断項目の外側にある要素に大きく依存する。

  • コンテンツそのものの質と独自性: AIが要約で代替できる一般的な情報は、わざわざ特定サイトを引用する動機が弱い
  • 競合との相対比較: 同じトピックでより信頼性が高く、より明確な情報源があれば、そちらが引用される
  • ドメインの権威性: AIは情報源の信頼性をある程度考慮する。これは一朝一夕には変えられない
  • クエリとの適合: ユーザーがどう質問するかによって、引用される情報源は変わる

これらは技術的な土台診断では測れない。スコアが38点から80点に上がっても、それは「読まれやすくなった」ことの証明であって、「引用されるようになった」ことの証明ではない。

スコアの改善とGEOの成果(実際の引用)を混同してはいけない。ここを曖昧にしたまま「スコアが上がればAIに引用される」と売るのは、技術的に誠実とは言えない。

では、引用を直接測るにはどうするか

土台診断の限界が明確になったところで、本題に入る。AIに引用されているかどうかを直接測定するには、どうすればよいか

答えはシンプルだ。AIに実際に聞いてみればいい。

考え方はこうだ。診断対象のサイトが扱うトピックについて、ユーザーが投げそうな質問を用意し、それを実際にAI(ChatGPT、Gemini、Perplexityなど)に投げる。そして、その回答の中に対象サイトが引用・言及されているかを確認する。

1. 対象サイトのトピックから、想定クエリ群を生成する
   例: ペット用品ECサイトなら「犬 シニア フード おすすめ」など
2. 各クエリを複数のAIに投げる(API経由)
3. 回答テキストとソース引用に、対象ドメインが含まれるかを判定
4. 言及あり/なしと、言及された場合の文脈をスコア化

これは土台診断とは性質が根本的に異なる。土台診断が「サイト側の状態」を見るのに対し、これは「AIの出力側の結果」を見る。前者は原因の診断、後者は結果の測定だ。

このアプローチの技術的な難しさ

ただし、この実測アプローチには固有の難しさがある。土台診断のように単純ではない。

確率的で再現性が低い。生成モデルの出力は確率的なので、同じクエリを投げても毎回同じ回答が返るとは限らない。引用されたりされなかったりする。これに対処するには、同じクエリを複数回試行して、引用される頻度として捉える必要がある。一度の測定では信頼できない。

クエリ設計が結果を左右する。どんな質問を投げるかで、引用されるかどうかは大きく変わる。恣意的なクエリを選べば、都合のいい結果も都合の悪い結果も作れてしまう。クエリ群の設計に客観性を持たせる工夫が要る。

コストがかかる。複数のAIに、複数のクエリを、複数回投げる。API利用料が測定のたびに発生する。土台診断が一度クロールすれば済むのとは、コスト構造が異なる。

判定が単純でない。「言及されている」の判定は、ドメイン名の完全一致だけでは不十分なことがある。ブランド名で言及される、URLは出ないが内容が引用される、といったケースをどう扱うか。判定ロジック自体に設計が必要だ。

2つのアプローチは対立しない、補完する

ここで重要な整理をしておく。土台診断と引用実測は、どちらが正しいという話ではない。役割が違い、組み合わせて初めて意味を持つ

土台診断引用実測
測るものサイト側の状態(原因)AI出力の結果
問いの形読まれる状態か引用されているか
再現性高い(決定論的)低い(確率的)
コスト低い高い(API課金)
改善への示唆具体的(どこを直すか)抽象的(結果のみ)

引用実測だけでは「引用されていない」ことはわかっても、「なぜか」「どう直すか」がわからない。一方、土台診断だけでは「読まれる状態になった」ことはわかっても、「実際に引用されているか」がわからない。

理想的なワークフローは両者の組み合わせになる。

引用実測で現状を把握(引用されているか)
    ↓ 引用されていない
土台診断で原因を特定(どこに技術的問題があるか)
    ↓ 改善実施
土台診断で土台の改善を確認(読まれる状態になったか)

引用実測で結果を再測定(引用が増えたか)

土台診断が「直すべき場所を示す診断」、引用実測が「効果を確かめる測定」として噛み合う。

正直なポジショニング

この整理を踏まえて、自分の立場を明確にしておく。

現時点で提供できる土台診断は、引用の必要条件を整えるものであり、引用そのものを保証しない。これは限界として正直に認める。「スコアが上がればAIに引用される」とは言わない。

その上で、引用実測のアプローチ ── 実際にAIに問い合わせて言及を測定する手法 ── は、土台診断を補完する次のステップとして有望だと考えている。確率的で再現性が低く、コストもかかるという難しさはあるが、原理的に「結果」を測れる唯一の方法だ。

土台を整える診断と、結果を確かめる実測。この2つが揃って初めて、GEO対策は「やりっぱなし」から「効果を検証できる取り組み」になる。技術的な誠実さとは、できることとできないことの境界を明示した上で、その境界を一歩ずつ押し広げていくことだと考えている。

まとめ

  • 土台診断(6項目)が測るのは「AIに読まれる状態か」という必要条件であり、引用される十分条件ではない
  • スコアの改善と実際の引用は別物。混同して売るのは技術的に不誠実
  • 引用を直接測るには、想定クエリをAIに実際に投げて言及を確認する実測アプローチがある
  • 実測には確率的な再現性の低さ、クエリ設計の客観性、API課金、判定ロジックといった固有の難しさがある
  • 土台診断(原因の特定)と引用実測(結果の測定)は対立せず補完する。両者を組み合わせて初めて効果検証が可能になる

できることとできないことの境界を正直に引くこと。そして、その境界を技術で押し広げていくこと。GEOという新しい領域では、この姿勢こそが信頼の土台になると考えている。


本記事で述べた引用実測アプローチは、筆者が次の開発段階として構想しているものであり、土台診断ツールとは別の仕組みとして検討している。実装の詳細や測定設計については、形になった段階で改めて報告したい。