SEO最前線

SEOコンサルタントが最新のSEO情報をお届けします

多言語地域が示すAI検索の未来

概要

AI検索は単に結果を翻訳・ローカライズするだけでなく、どの情報源、機関、現実のバージョンを優先表示するかを決定します。この記事では、カタルーニャの検索行動を事例に、このシステムの深い問題点を明らかにしています。

カタルーニャではカタルーニャ語とスペイン語が共存しており、検索パターンの違いが顕著です。例えば、「Tradicions de Sant Jordi(聖ジョルディの伝統)」というカタルーニャ語の検索に対し、Google翻訳が発信言語を話者数の少ないオック語と誤認識することがあります。

これは長年にわたるGoogle言語識別問題であり、同社は2023年1月にカタルーニャ語の結果がスペイン語よりも軽視されているというユーザーからの苦情を認め、「優先事項」として対応すると約束しました。その後のアップデートで従来の検索結果ページ(SERP)におけるカタルーニャ語の可視性は改善されました。

しかし、根本的な言語識別レイヤーは構造的に修正されていません。そのため、AI検索はクエリの言語が信頼できないという仮定を継承してしまい、この古いバグが合成レイヤーを通じて伝播している状態です。

記事では、バルセロナのIPアドレスからChatGPTGoogle AI Overviewsに対し、カタルーニャ語とスペイン語で対となるクエリを実行し、以下の4つのパターンを特定しました。

  1. 語彙と情報源の多様性が乖離する: カタルーニャ独立に関するクエリでは、言語によって引用される情報源が大きく異なりました。AI検索は、単に回答にラベルを付けるのではなく、コーパスそのものを言語によってフィルタリングしています。

  2. 商業的な検索結果が変化し、AIエンジンが少数言語を疑う: 「バルセロナのフリーランス向け会計士」という商業的なクエリでは、カタルーニャ語の結果に有料広告(SEM)が表示されませんでした。Googleはカタルーニャ語のクエリを自動修正し、商業的意図を疑う動きも見せました。

これは、「商業的な入札が少ない→商業的な可視性が低い→商業的なシグナルが少ない」という自己強化的なメカニズムを生み出し、トランザクション目的における言語の優先順位を継続的に下げています。

  1. 文化的権威の再割り当て: 「聖ジョルディの伝統」に関するクエリでは、スペイン語の結果がホテルチェーンや国の観光ポータルを引用したのに対し、カタルーニャ語の結果はバルセロナ市議会や地域政府(カタルーニャ州政府)を引用しました。システムが信頼する「文化的管理者」が言語によって変わるのです。

  2. 大規模言語モデル(LLM)が登場する前から言語識別はすでに破綻していた: 上記のパターンは、システムが最初にクエリの言語を正しく識別できるかどうかに依存しますが、しばしば失敗します。

例えば、カタルーニャ地方にしかない野菜である「calçots」のレシピをカタルーニャ語で検索すると、Google検索は「スペイン語で結果を表示」と提案し、AI Overviewを生成しません。また、「Tradicions de Sant Jordi」のクエリでも、セッションによってスペイン語で回答されるなど、一貫性のない挙動が見られます。

特に商業的または一般的なクエリにおいて、言語識別の信頼性が低い傾向があり、これがサイト運営者にとって最も大きな問題となります。商業シグナルの欠如と、商業クエリにおける言語識別の失敗が互いに悪影響を及ぼしています。

さらに、少数言語では「カスループ(slop loop)」と呼ばれる、品質劣化の悪循環が進行しています。LLMは少数言語で質の低いコンテンツを大量に生成し、それがインデックスされて次の学習データに取り込まれることで、「言語を十分に理解できないモデルが生成したコンテンツで次のモデルが学習する」というループが発生しています。

この問題は、Wikipediaでも顕著です。2025年には、脆弱な言語版で機械翻訳された記事が40〜60%を占めると報告され、一部の版はAIが生成した「意味不明な情報」を理由に閉鎖勧告されました。2024年3月20日、英語Wikipediaコミュニティは、LLMによる記事コンテンツの生成を全面的に禁止する投票を行いました。

解説

この記事は、AI検索が抱える根本的な問題、特に言語識別情報源の重み付けの課題を浮き彫りにしています。多言語地域であるカタルーニャの事例は、一見すると「マイナーな問題」に見えますが、その根底にある構造的な欠陥は、言語に関わらずすべての検索市場に影響を与える可能性があります。

最も重要な点は、言語が検索結果を単に翻訳するのではなく、検索エンジンが情報源と権威をどのように認識するかを決定しているということです。商業シグナルの欠如が少数言語の検索結果の品質を低下させ、それがさらに商業的な活用を阻害するという悪循環は、ニッチな市場特定の地域に特化したビジネスにとって大きな障壁となりえます。

サイト運営者やSEO担当者は、自身のコンテンツがAI検索によってどのように識別され、どのような情報源と共に提示されるかを意識する必要があります。特に多言語サイトを運営している場合、単に翻訳コンテンツを提供するだけでなく、その言語圏における文化的権威商業的シグナルAIに正しく認識させるための戦略が不可欠です。

例えば、Googleビジネスプロフィールの最適化や、地域に特化した公式情報源からの被リンク、そしてその言語での広告出稿(たとえ小規模でも)は、AIがその言語と地域を「本物」として認識するための重要なシグナルとなりえます。

また、「カスループ」問題は、AIが生成する低品質コンテンツ検索結果全体を汚染し、将来のAIモデルの学習データを劣化させるという深刻な懸念を提起しています。人間が質の高いコンテンツを作成し、維持することの重要性は、AI時代においてむしろ高まっていると言えるでしょう。

WikipediaLLMによる記事生成を禁止したことは、この問題の深刻さと、信頼できる情報源としてのプラットフォームが、AIコンテンツの無制御な流入から自身を守る必要性を強く示唆しています。SEOにおいても、AIによって量産された信頼性の低いコンテンツではなく、独自の知見や検証可能な事実に基づいた高品質なコンテンツこそが、今後ますます価値を持つようになるでしょう。

結論として、AI検索はまだ発展途上であり、特に言語と文化の複雑さへの対応には課題が多いことが示されています。私たちは、AIの現状と限界を理解し、そのアルゴリズムに依存しすぎず、人間に価値のある情報提供を続ける戦略を練る必要があります。


  • 掲載元: Search Engine Land
  • 公開日: 2026-05-21T14:00:00+00:00

What multilingual regions reveal about the future of AI search