
Inside Googlebot: demystifying crawling, fetching, and the bytes we process
概要
Googlebotは長らく単一のシステムであるかのように見なされてきましたが、実際にはより複雑です。現在、Googlebotは集中型のクロールプラットフォームの利用者の1つであり、サーバーログに表示されるGooglebotは主にGoogle検索を指します。GoogleショッピングやAdSenseなど、他の多くのGoogle製品も同じ基盤インフラストラクチャを異なるクローラー名で利用しています。
解説
Googlebotが単一のプログラムではなく、集中型クロールプラットフォームの一部であるという事実は、サイト運営者にとって重要な示唆を与えます。サーバーログで「Googlebot」という文字列を目にした際、それが必ずしもGoogle検索のインデックス作成だけを目的としたものであるとは限らない、という認識を持つことが重要です。これにより、特定のGoogle製品がサイトの特定の部分をクロールしている可能性も考慮に入れるべきでしょう。
この変更点の中で最も注目すべきは、2MBのクロール制限です。これは多くのSEO担当者や開発者が見落としがちなポイントであり、サイトの重要なSEO要素がGoogleに認識されないリスクをはらんでいます。特に、過度に大きなインラインCSSやJavaScript、base64エンコードされた画像などは、テキストコンテンツや構造化データを2MBの制限値より下に押しやり、結果としてインデックスされない可能性があります。このため、HTMLを軽量に保ち、外部ファイルとしてCSSやJavaScriptを読み込むことが非常に重要です。
Web Rendering Service (WRS)に関する情報も実用的です。WRSがステートレスに動作し、ローカルストレージやセッションデータをリクエストごとにクリアするという点は、JavaScriptで動的にコンテンツを生成しているサイトにとって留意すべき事項です。サイトが適切にレンダリングされ、重要なコンテンツが認識されるように、動的な要素の動作確認を徹底する必要があります。
最後に、重要な要素をHTMLの上部に配置するというベストプラクティスは、非常に具体的で実践しやすいアドバイスです。メタタグ、タイトルタグ、canonical、そして必須の構造化データは、2MBの制限内に確実に収まるようにHTMLの早い段階に記述すべきです。また、サーバーの応答時間を監視し、Googlebotがスムーズにコンテンツを取得できる環境を維持することも、クロール頻度を最適化するために不可欠です。この2MB制限は将来変更される可能性も示唆されており、定期的なサイトパフォーマンスの監視と最適化の継続が求められます。
- 掲載元: Google Search Central Blog
- 公開日: 2026-03-31T00:00:00+00:00