AEO(Answer Engine Optimization)

AEOは、GEO（Generative Engine Optimization / 生成エンジン最適化）、GSO（Generative Search Optimization / 生成検索最適化）、LLMO（Large Language Model Optimization / 大規模言語モデル最適化）とも呼ばれる。これらは同一の概念を指しており、まだ業界内で用語が統一されていない。

本サイトでは「AEO」を使用する。

SEOとAEOの違い

SEOは「リストに載る技術」であり、AEOは「回答に選ばれる技術」である。

SEOでは検索結果の中で上位を目指し、AEOでは、AIが生成する回答文の中に自社ブランドが含まれることを目指す。SEOではキーワードに対して結果が一位に定まるため、成果指標がわかりやすい。それに対し、AEOでは、AIの出力からユーザーの質問まで、候補のばらつきが大きく、一概に順位等で成果指標を提示することができないのが難点だ。

AEOの測定指標

AEOの中で、現時点で観測可能な指標は以下である。

Mentions（言及数）

AIの回答内で自社ブランドが言及される頻度。Chatgptの1つの回答の中に1回ブランドに関する言及があった場合、それを「１質問に対して1回のメンションがあった」と表現する。後述のCitationsとは異なり、必ずしも情報源等でブランド関連のリンクが引用されていなくても、AIの回答の中に出現した場合カウントするものとする。

Citations（引用）

AIの回答内で自社ブランドが引用される頻度。Chatgptの1つの回答の中に1回ブランドの引用があった場合、それを「１質問に対して1回のCitation(引用)があった」と表現する。前述のMentionsとは異なり、情報源としてブランドのリンクが引用された数のみをカウントする。リンクが引用されていない回答等においては、Citationsは自動的に0になる。

Placements（配置）

AIの回答内で自社ブランドが回答内のどの位置で言及されるか（1番目、3番目など）。AIの回答が定型的であるケースが少ないため、多くの場合、文章内で言及されたブランドの出現位置を順位づけして、何番目に配置されたかを確認する。

Referral Traffic（参照トラフィック）

AIの回答から実際にクリックされた流入数。AIの回答の中にリンクが引用された場合にのみカウントする。[Referral Traffic]/[AIの回答] を計算することにより、「参照トラフィックの割合は〇〇%」と把握することができる。

Response Share（応答シェア）

同一質問に対する複数回の試行において、自社が言及される割合。同じ質問を繰り返し、mentionsがどれだけの割合で発生したかを測定する。100回同じ質問を繰り返し、100回自社が言及された場合には、100%の応答シェア率となる。AIエンジンと業界により、Response Shareの値は変動する。

AIがコンテンツを処理する仕組み

AEOを理解するためには、AIがWebを通して回答を生成する際、どのような情報をどのように処理しているかを理解する必要がある。

本セクションでは、AIエンジンがユーザーの質問を受け取ってから回答を生成するまでの処理を、時系列に基づいて説明する。

＊) 今回説明するシステムは一例であり、これらすべてを使用していないAI、さらに別のWebサイトの処理方法をとっているAIがあることにも留意されたい。

クエリ理解と拡張

ユーザーの質問(以下クエリとも呼ぶ)は、そのまま検索エンジンに投げられるわけではない。AIは以下の処理を行う。

固有表現抽出（NER：Named Entity Recognition）

検索の精度を向上させるために、クエリ内から人名、組織名、製品名などの固有名詞を識別・分類する。エンティティ認識とも呼ぶ。

特定の固有名詞に基づいて、後述のサブクエリ生成における生成されるクエリが決まる。

クエリ分類（Intent Classification）

ユーザーの質問意図を分類し、AIがどのように回答を生成するかを決定する。

従来のSEOでも、質問意図を分析するために、「Navigational / Informational / Transactional」という３種類の分類をベースに、さまざまなユーザーの質問意図分類を行っていたが、AIのクエリ分類はそれらの分類を包含したうえで、より細かく独自の分類を行っている。

クエリ書き換え（Query Rewriting）

自然言語で行われたユーザーの質問を、検索エンジンが理解しやすい形式に変換する。

クエリ拡張（Query Expansion / Query Fan-Out）

一つの質問を複数のサブクエリに分割し、並列検索を行う。

メインのクエリ書き換えだけでなく、サブクエリを活用することで、多くの場所で記載されている「一般的な事実」を情報として取得しやすくしている。

2. ハイブリッド検索

AIは、事前に構築されたインデックスから、関連するチャンクを検索する。今回はWebサイトの検索を想定するので、AgentがGoogle検索等を代わりに実施する。インデックスはGoogleが保有しており、前述の処理で提示されたクエリがAgentによって検索窓に投げられる。

スパース検索（Sparse Retrieval / キーワード検索）

一般的なGoogle検索と同様の検索アルゴリズムで、検索するキーワードと、Webサイトの内部に存在するキーワードの一致度合いで検索される。

文書内における単語の出現頻度（TF: Term Frequency）と、全文書集合における単語の希少性（IDF: Inverse Document Frequency）を組み合わせて関連性をスコアリングする手法である。

ブランドや製品名などの固有名詞の検索に強いという特徴があり、検索のマッチには、文字列が完全に一致する必要がある。（ただ、現在のGoogle検索をみるとわかる通り、名寄せシステムによりある程度キーワードが異なっていても、同じようなキーワードであれば検索結果にヒットするようになっている。）

AIが検索する際、ブランド名や商品名等、特定のキーワードが質問文に含まれている場合、このスパース検索を用いた検索結果がWebページの検索に用いられることが多い。

デンス検索（Dense Retrieval / 意味検索）

意味的類似性に基づく検索手法で、RAG等で主に使用される。自然言語処理特有の検索手法である。

クエリと文書を高次元のベクトルに変換し、そのコサイン類似度を測定することで、「意味的な近さ」を定量的に測定し、それに基づいて検索を行う手法である。

文脈を反映するという特徴があり、ユーザーの検索意図と意味的に近いコンテンツが評価されやすい。

これらの２つの手法を加重平均で統合した手法は、ハイブリッド検索(Hybrid Search)と呼ばれる。質問の中にブランド名や特定の商品名を示すキーワードがある場合にはスパース検索が、特定のキーワードがなく、抽象的な質問の場合にはデンス検索が主に用いられるように、自動的に重みづけが変化する。

3. リランキング(Re-Ranking)

AIが取得したウェブサイトのリストを再度並び替え、最終的に10-20件に絞り込む手法。これにより、単なるSEOの再表示ではない、AIによるユーザーの質問に最適なウェブサイトが回答に使用されることになる。

クロスエンコーダ(Cross-Encoder)

候補となるリストを高速に荒く読み込み、キーワードだけでなく、論理的に回答しているか、情報に欠落がないか等をもとに両者の関連性を精密に評価する。

Top-K選定

最終的にリランキングしたものに対して、上位のK個のチャンクを選定し、LLMのプロンプトに情報として入力される。入力される情報は、リランキングスコアだけでなく、情報の多様性やドメインオーソリティなどの信頼性をもとに選定される。

4. コンテキスト抽出と情報抽出

取得したウェブサイト情報からノイズを除去し、回答文生成において使用する情報を確定する。

エンティティ認識

取得したページの信頼性を評価するため、ページ内部を改めて分析し、検索されたページ内部に対して、エンティティ認識を行う。ページ内部のブランド名、製品名等を抽出し、エンティティ・サリエンス(Entity Salience)と呼ばれる、文書内における特定のエンティティの重要度を計算する。

サリエンスが高い場合には主語に、サリエンスが低い場合には目的後になったりといった形で回答生成時のデータが形成される。

スニペット化

選定されたウェブサイト情報の中から、LLMのコンテキストウィンドウの中に収まる形でデータを要約・抽出する。

LLMのコンテキストウィンドウは表示上は数万トークン以上あることがほとんどだが、応答速度とコストの制約から、実際には数千トークンに要約テキストの長さは制限されることが多い。

位置バイアスを考慮した配置

LLMは、プロンプト内部の情報を以下のように認識する傾向があるため、最も関連性の高い情報をデータ全体の最初か最後に配置する。

・最初の情報(Primacy Bias): 強く認識

・中間の情報: 無視される傾向にある

・最後の情報(Recency Bias): 再び強く認識される

5. 回答生成とガードレール

いよいよAIが回答を生成するが、回答生成時にもいくつかのプロセスを経て、最終的にユーザーの目に回答として表示される。

ジェイルブレイク判定

回答の生成前、もしくは生成後に、ユーザーの質問が悪意あるものでないか、回答がシステムプロンプト（AIの裏で動いている指示）と類似しすぎていないか、回答がAIのポリシーに違反していないかどうか、等のチェクを行う。

・最初の情報(Primacy Bias): 強く認識

・中間の情報: 無視される傾向にある

・最後の情報(Recency Bias): 再び強く認識される

LLMによる回答生成

先ほどの整理された情報をもとにLLMが回答を生成する。

グラウンディング(Grounding)

生成された回答が参照元の情報と論理的に整合しているかを検証する。Googleの実装では、生成された各文に対して信頼度スコアを計算し、参照元とモデルを評価したうえで信頼度スコアが閾値を下回る文章の出力が抑えられる、もしくは削除される。

引用の付与(Citation / Attribution)

上記のチェックを通過した情報に対して、参照元のURLや引用を付与する。

6. 再検索ループ(Agent型のみ)

標準的な検索システムを持つAIであれば、5段階までで処理が終了するが、GoogleのGeminiのDeep ResearchやChatgptのDeep Research等、自律的な思考を持つように見える、AI Agentと呼ばれるモデルでは、再検索を行う場合がある。

エージェント型特有の再検索

タスクを分解し、行動と修正を行い、過去の検索行動等を覚えているAIは、「Planning(計画), Action & Interaction(行動と修正), Memory(短期記憶)」(Chain-of-thoughtとも言われる)がある、エージェント型AIと呼ばれ、検索結果を自分で確認し、「期待した情報があるか、ないか」を判断し、自律的に検索ワードを変えて再検索を行ったり、別のページを確認するケースがある。

AEOの現状と課題

AEOは急速に発展している領域であり、以下の課題が存在する

測定ツールの不足

SEOには、Google Search ConsoleやAhrefs, Semrushなど多数の測定ツールが存在するのに対し、AEO専用の測定ツールはほぼ存在しないのが現状である。

現在は手動での質問・記録、専用プラットフォームや、既存SEOツールの追加機能を活用する必要がある。

アルゴリズムの非公開性

測定ツールの不足の原因の一つに、アルゴリズムの非公開性がある。現在大多数の人々に使用されているAI(ChatGPT, Perplexity, Gemini等)の内部アルゴリズムは完全には公開されておらず、推測により観測するものもある。本文書は学術論文等、できる限り一時情報をもとに作成されているが、各AIにより挙動が異なるケースがある。

ユーザープロンプトの不可視性

測定ツールの不足の原因のさらに一つに、「ユーザープロンプトを知ることができない」という部分がある。SEOでは、「どんなキーワードで検索されたか」が分かる。一方で、AEOでは「ユーザーがどんな質問をしたか」は一切表示されない。対応策として公開されているユーザーの対話より質問を分析する等が考えられるが、現状有効な解決策が提示されていない。

複数プラットフォーム対応の複雑さ

SEOはGoogleを中心に最適化を行うのみで十分だったが、AEOはChatGPTだけでなく、GeminiやClaude, Perplexity等複数プラットフォームに対応する必要がある。

AI出力のあいまいさ

SEOであれば特定のキーワードで検索した際、一意に検索結果が定まるため、その中での順位を確認することでSEO対策等の成果がわかりやすく、結果としてEC等での売上への影響もわかりやすく提示されたが、AEOの場合、特定のキーワードが存在しない上、ユーザーの入力が同じだとしても、AIのアルゴリズム上出力は一意に定まらないため、その成果を把握することが非常に難しい。

Page updated

Report abuse