引用される土台の限界と実測アプローチ
「AIに読まれる土台」を整えても引用されるとは限らない ── ならどう測るか
自分の診断アプローチの限界から始める
ここまでの一連の記事で、Webサイトを「AIに読まれる状態」にするための技術的土台を論じてきた。JavaScript依存度、AIボットのアクセス可否、構造化データ、セマンティックHTML、鮮度シグナル、llms.txt ── これら6つの観点を診断し、改善する。
だが、この記事ではあえて自分のアプローチの根本的な限界を正面から扱う。土台を整えても、AIに実際に引用される保証はないという問題だ。
これは小さな但し書きではない。診断ツールを売る側にとっては、商品の存在意義に関わる問いだ。だからこそ、誠実に掘り下げる価値がある。
なぜ土台診断では「引用される」を証明できないのか
6項目の診断が測っているのは、突き詰めれば「AIクローラーがコンテンツを読み取れる状態か」だ。これは引用の必要条件を測っているにすぎない。読めなければ引用されないのは確かだが、読めたからといって引用されるわけではない。
引用されるかどうかは、診断項目の外側にある要素に大きく依存する。
- コンテンツそのものの質と独自性: AIが要約で代替できる一般的な情報は、わざわざ特定サイトを引用する動機が弱い
- 競合との相対比較: 同じトピックでより信頼性が高く、より明確な情報源があれば、そちらが引用される
- ドメインの権威性: AIは情報源の信頼性をある程度考慮する。これは一朝一夕には変えられない
- クエリとの適合: ユーザーがどう質問するかによって、引用される情報源は変わる
これらは技術的な土台診断では測れない。スコアが38点から80点に上がっても、それは「読まれやすくなった」ことの証明であって、「引用されるようになった」ことの証明ではない。
スコアの改善とGEOの成果(実際の引用)を混同してはいけない。ここを曖昧にしたまま「スコアが上がればAIに引用される」と売るのは、技術的に誠実とは言えない。
では、引用を直接測るにはどうするか
土台診断の限界が明確になったところで、本題に入る。AIに引用されているかどうかを直接測定するには、どうすればよいか。
答えはシンプルだ。AIに実際に聞いてみればいい。
考え方はこうだ。診断対象のサイトが扱うトピックについて、ユーザーが投げそうな質問を用意し、それを実際にAI(ChatGPT、Gemini、Perplexityなど)に投げる。そして、その回答の中に対象サイトが引用・言及されているかを確認する。
1. 対象サイトのトピックから、想定クエリ群を生成する
例: ペット用品ECサイトなら「犬 シニア フード おすすめ」など
2. 各クエリを複数のAIに投げる(API経由)
3. 回答テキストとソース引用に、対象ドメインが含まれるかを判定
4. 言及あり/なしと、言及された場合の文脈をスコア化
これは土台診断とは性質が根本的に異なる。土台診断が「サイト側の状態」を見るのに対し、これは「AIの出力側の結果」を見る。前者は原因の診断、後者は結果の測定だ。
このアプローチの技術的な難しさ
ただし、この実測アプローチには固有の難しさがある。土台診断のように単純ではない。
確率的で再現性が低い。生成モデルの出力は確率的なので、同じクエリを投げても毎回同じ回答が返るとは限らない。引用されたりされなかったりする。これに対処するには、同じクエリを複数回試行して、引用される頻度として捉える必要がある。一度の測定では信頼できない。
クエリ設計が結果を左右する。どんな質問を投げるかで、引用されるかどうかは大きく変わる。恣意的なクエリを選べば、都合のいい結果も都合の悪い結果も作れてしまう。クエリ群の設計に客観性を持たせる工夫が要る。
コストがかかる。複数のAIに、複数のクエリを、複数回投げる。API利用料が測定のたびに発生する。土台診断が一度クロールすれば済むのとは、コスト構造が異なる。
判定が単純でない。「言及されている」の判定は、ドメイン名の完全一致だけでは不十分なことがある。ブランド名で言及される、URLは出ないが内容が引用される、といったケースをどう扱うか。判定ロジック自体に設計が必要だ。
2つのアプローチは対立しない、補完する
ここで重要な整理をしておく。土台診断と引用実測は、どちらが正しいという話ではない。役割が違い、組み合わせて初めて意味を持つ。
| 土台診断 | 引用実測 | |
|---|---|---|
| 測るもの | サイト側の状態(原因) | AI出力の結果 |
| 問いの形 | 読まれる状態か | 引用されているか |
| 再現性 | 高い(決定論的) | 低い(確率的) |
| コスト | 低い | 高い(API課金) |
| 改善への示唆 | 具体的(どこを直すか) | 抽象的(結果のみ) |
引用実測だけでは「引用されていない」ことはわかっても、「なぜか」「どう直すか」がわからない。一方、土台診断だけでは「読まれる状態になった」ことはわかっても、「実際に引用されているか」がわからない。
理想的なワークフローは両者の組み合わせになる。
引用実測で現状を把握(引用されているか)
↓ 引用されていない
土台診断で原因を特定(どこに技術的問題があるか)
↓ 改善実施
土台診断で土台の改善を確認(読まれる状態になったか)
↓
引用実測で結果を再測定(引用が増えたか)
土台診断が「直すべき場所を示す診断」、引用実測が「効果を確かめる測定」として噛み合う。
正直なポジショニング
この整理を踏まえて、自分の立場を明確にしておく。
現時点で提供できる土台診断は、引用の必要条件を整えるものであり、引用そのものを保証しない。これは限界として正直に認める。「スコアが上がればAIに引用される」とは言わない。
その上で、引用実測のアプローチ ── 実際にAIに問い合わせて言及を測定する手法 ── は、土台診断を補完する次のステップとして有望だと考えている。確率的で再現性が低く、コストもかかるという難しさはあるが、原理的に「結果」を測れる唯一の方法だ。
土台を整える診断と、結果を確かめる実測。この2つが揃って初めて、GEO対策は「やりっぱなし」から「効果を検証できる取り組み」になる。技術的な誠実さとは、できることとできないことの境界を明示した上で、その境界を一歩ずつ押し広げていくことだと考えている。
まとめ
- 土台診断(6項目)が測るのは「AIに読まれる状態か」という必要条件であり、引用される十分条件ではない
- スコアの改善と実際の引用は別物。混同して売るのは技術的に不誠実
- 引用を直接測るには、想定クエリをAIに実際に投げて言及を確認する実測アプローチがある
- 実測には確率的な再現性の低さ、クエリ設計の客観性、API課金、判定ロジックといった固有の難しさがある
- 土台診断(原因の特定)と引用実測(結果の測定)は対立せず補完する。両者を組み合わせて初めて効果検証が可能になる
できることとできないことの境界を正直に引くこと。そして、その境界を技術で押し広げていくこと。GEOという新しい領域では、この姿勢こそが信頼の土台になると考えている。
本記事で述べた引用実測アプローチは、筆者が次の開発段階として構想しているものであり、土台診断ツールとは別の仕組みとして検討している。実装の詳細や測定設計については、形になった段階で改めて報告したい。