
Google Explains Googlebot Byte Limits And Crawling Architecture via @sejournal, @MattGSouthern
概要
Googleのゲイリー・イリーズ氏が、Googlebotのクロールシステムに関するブログ記事を公開しました。この記事では、バイト制限、部分的フェッチの動作、およびGoogleのクロールインフラストラクチャの仕組みが詳細に説明されています。
解説
今回の記事でGooglebotが「集中型クロールプラットフォームの単なるユーザー」であると説明されたことは、Googleのクロールシステムが非常にモジュール化され、スケーラブルであることを示唆しています。
これにより、Googleのさまざまなプロダクト(広告、ショッピングなど)が、同じ基盤インフラを使用しながらも、異なるクロール動作やバイト制限を持つ理由が明確になります。
最も実用的なポイントは、HTMLの2 MB制限が「ハードカットオフ」であるという事実です。
この制限を超えたコンテンツは単純に無視され、インデックスされません。これは速度低下やペナルティではなく、絶対的な上限です。
SEO担当者や開発者は、重要なコンテンツやメタ情報(タイトル、canonical、構造化データなど)が、HTML応答の最初の2 MB内に確実に含まれるように細心の注意を払う必要があります。
重いCSSやJavaScriptを外部ファイルとして読み込ませることは、それぞれのファイルに独自のバイト制限が適用されるため、ページ全体の2 MB制限を回避するための重要な最適化策です。
特に、インラインのCSSやJavaScript、そしてインラインのBase64画像は、知らず知らずのうちにページサイズを肥大化させ、2 MB制限を超過させる原因となることがあります。
大規模なページでは、コンテンツや重要な要素の記述順序がインデックスに影響を与える可能性があるため、慎重な検討が必要です。
ウェブレンダリングサービス(WRS)がJavaScript、CSS、XHRリクエストを処理し、画像をフェッチしないこと、そしてステートレスに動作することは、JavaScriptを多用するサイトにとって非常に重要です。
これにより、Googleがブラウザのようにページをレンダリングする一方で、一部のコンテンツタイプ(画像など)については異なる処理経路を持つことが再確認されます。
JavaScriptに依存する動的なコンテンツは、WRSが正しく処理できる形式で提供されているか、特に注意して確認する必要があります。
2 MBの制限が「固定されたものではなく、時間とともに変更される可能性がある」という示唆は、Googleのシステムがウェブの変化に対応して進化し続けることを意味します。
現時点ではほとんどのサイトが影響を受けないとしても、将来的な変更に備え、サイトのページサイズを定期的に監視し、Googleの公式アナウンスに注意を払うことが長期的なSEO戦略として賢明です。
特に大規模なサイトや、リッチなコンテンツを持つサイトは、このバイト制限が将来的に自社のクロールとインデックスにどう影響するかを考慮に入れるべきです。
- 掲載元: Search engine journal
- 公開日: 2026-03-31T15:28:38+00:00