コラムVol.1|Webマスター向けTips | Discover Bing

Bing 使い方ガイド 便利機能一覧

Vol.1 Crawl DelayとBingのクローラー、MSNBot(1/2)

Bingのような検索エンジンは、新しいコンテンツをインデックスするのはもちろん、コンテンツの変更や削除されたコンテンツを調べるためにも定期的にウェブサイトをクロールする必要があります。Bingでは、ウェブサーバーに与える負荷の問題に対応するために、クロール頻度を調節する機能をウェブマスター向けに提供しています。

この機能は、すべての人にとって必須ではなく、一般的に推奨されるものでもありませんが、ウェブマスターは必要に応じて使用することができます。規模が小さく、コンテンツが頻繁に更新されていないウェブサイトでは、Crawl Delayの設定はおそらく必要ないと思われます。理由は、ボットは各パスで探したコンテンツに基づいてクロール頻度を自動的に調節するため、小規模サイトでCrawl Delayを使用しても恩恵を受けられないからです。

一方、多くのページから成る大規模サイトの場合は、最新コンテンツをインデックスに追加してもらうために、より深くかつより頻繁にクロールしてもらう必要があります。

Crawl Delayは設定すべきか?

ボットのクロール頻度はさまざまな要因に基づいて決定されます。その要因のいくつかを以下に示します。

  • サイトの総ページ数(小規模、中規模、大規模)
  • コンテンツのサイズ(PDFやMicrosoft Officeファイルのサイズは一般的に、通常のHTMLファイルよりも大きい)
  • コンテンツの鮮度(コンテンツを追加、削除、変更する頻度)
  • 最大同時接続数(ウェブサーバーインフラの能力)
  • サイトの帯域幅(ホスト側のサービスプロバイダーの能力:帯域幅が低いと、サーバーのページリクエストに応える能力が下がる)
  • サイトの評価(関連性の高いコンテンツは、関連性が低いと判断されたコンテンツよりも頻繁にクロールしてもらえる)

ボットがサイトをクロールする頻度は、これらを含むさまざまな要因に基づいて決定されます。検索サイトの表示順位が高く、たくさんのページを持つサイトの場合、そのほとんどのページがインデックスされることを意味し、その分、ボットはより全般的に時間をかけてクロールしなければなりません。コンテンツが定期的に更新されているサイトの場合も、検索ユーザーのためにインデックスを最新に保つ必要があり、ボットはより頻繁にクロールする必要があります。

クロール頻度の決定には非常に多くの要因が絡んでいるため、Crawl Delayを設定すべきかどうかについての明確で一般的な回答はないように思われます。また、サイトのクロールに要する時間も、上記の要因によってさまざまです。重要な点は、コンテンツをインデックスしてもらいたいのなら、クロールしてもらう必要があるということです。1日は86,400秒(うるう秒は除く)しかありません。なので、ボットのクロール頻度を少しでも下げることは、日々インデックスされるコンテンツの量を減らし、その鮮度が下がることを意味します。

とはいうものの、サイト上の技術的な理由から、Crawl Delayオプションを必要とするウェブマスターもいます。今回は、そのような人のために、Crawl Delayの設定方法、その最適な設定値、設定後の影響についてお話ししていきます。

robots.txtファイルでクロール頻度を下げる

Bingは、robots.txtファイル内に記述されるロボット排除プロトコル(REP)の共通ディレクティブをサポートしています。robots.txtファイルは唯一、MSNBotに対しCrawl Delayを設定できる場所です。

robots.txtファイルは、特定のボット向けの専用ディレクティブ群とREP準拠ボット向けの共通ディレクティブのいずれか、または両方を使用できるように設定できます。Bingでは、特定の検索エンジンのインデックス作業に影響を与える可能性があるコードエラーの発生を最小限に抑えるために、Crawl Delayの設定には共通ディレクティブを使用することを勧めています。

どの専用ディレクティブ群も、共通ディレクティブと同様に、robots.txtファイルをホストするウェブサーバー・インスタンスでしか使用できません。