概要
Googleは、HTTP Archiveから収集した実際のrobots.txtデータに基づき、ドキュメント内の未サポートのrobots.txtルールリストを拡張する可能性があります。このプロジェクトは、Search Off the Recordの最新エピソードで、Gary Illyes氏とMartin Splitt氏によって説明されました。
この取り組みは、コミュニティメンバーが2つの新しいタグを未サポートリストに追加するプルリクエストを提出したことから始まりました。Googleは恣意的な追加を避け、データ収集に基づいて最も使用されている未サポートのルール上位10~15個を特定することを目指しています。
調査では、HTTP Archiveを利用してウェブサイトがrobots.txtファイルでどのようなルールを使用しているかを調べました。初期のクロールではrobots.txtファイルが取得されないという課題がありましたが、チームはカスタムのJavaScriptパーサーを開発し、行ごとにルールを抽出できるようになりました。このデータは現在、BigQueryのcustom_metricsデータセットで公開されています。
データの分析結果では、allow、disallow、user agentの後にルール使用頻度が急激に減少することが示されています。現在、Googleはuser-agent、allow、disallow、sitemapの4つのフィールドをサポートしており、他のフィールドは無視されるものの、その中でどの未サポートフィールドが最も一般的かは明記されていませんでした。
Googleは、これまでの取り組みを拡張し、最も使用されている上位10~15個の未サポートルールを特定し、ドキュメントに追加する予定です。具体的にどのルールが追加されるかはまだ公表されていません。
さらに、Illyes氏は、disallowルールのよくあるタイプミスも分析から明らかになったと述べました。Googleは、タイプミスの許容範囲を拡大する可能性があることを示唆しています。これにより、Search Consoleで認識されないタグとして表示される情報と、公開ドキュメントの整合性が高まることが期待されます。
この更新は、Googleの公開ドキュメントとdisallowのタイプミスの処理方法に影響を与えます。user-agent、allow、disallow、sitemap以外のルールをrobots.txtファイルで使用しているウェブサイト運営者は、Googleでこれまで機能しなかった可能性のあるディレクティブを監査することが推奨されます。
解説
今回のGoogleの発表は、これまで曖昧だったrobots.txtの未サポートルールについて、より明確なガイダンスを提供しようとする意図が見て取れます。特に、実際のウェブサイトのデータに基づいてルールを特定するアプローチは、実用性を重視している点で評価できます。
ウェブマスターは、robots.txtファイルを定期的に見直し、Googleが公式にサポートしている4つのディレクティブ(user-agent、allow、disallow、sitemap)に準拠しているか確認することが重要です。サポート外のルールは無視されるため、意図しないクロール動作につながる可能性があります。
disallowのタイプミスに対する許容範囲の拡大は、ユーザーフレンドリーな改善と言えるでしょう。しかし、これに頼るのではなく、正確な構文で記述することが最も確実な運用方法です。Search Consoleで警告が表示されている場合は、早急に修正するように心がけましょう。
HTTP ArchiveのデータがBigQueryで公開されていることは、SEO専門家にとって大きな機会です。自身のサイトのrobots.txt設定を分析するだけでなく、一般的な傾向や潜在的な問題点を発見するための貴重なリソースとなるでしょう。
Googleが未サポートルールを具体的に文書化することで、ウェブマスターはどのディレクティブが無効であるかを明確に把握できるようになります。これにより、無駄な設定作業を減らし、クロールバジェットの最適化にも貢献する可能性があります。
- 掲載元: Search engine journal
- 公開日: 2026-04-23T16:40:21+00:00

Google May Expand Unsupported Robots.txt Rules List via @sejournal, @MattGSouthern