コラムVol.3|Webマスター向けTips | Discover Bing

Web マスター向け Tips

Vol.3 多くの言語を使いこなすrobots(1/3)

第二回目のコラムで、robots.txtと呼ばれるファイルを利用して、検索エンジンクローラー(別名、ボット)のクローリングを制御する方法についてお話ししました。しかし、ボットについては、まだたくさんお話しすることがあります。なので、今回はボットについて少し詳しく見ていきましょう。

トピック1 テキストファイルに適切なエンコード形式を使用する

robots.txtファイルでは、検索エンジンボットにクロールしてもらいたい、またはクロールしてもらいたくないファイルとディレクトリを指定することができます。robots.txtファイルは、基本的にテキストファイルです。しかし、テキストファイルのように一見シンプルなものでも、それほど単純でないということもあります。ファイルを保存するときにどのようなファイルエンコードスキームを使用するかで、結果に大きな違いが出てきます。例えば、最も一般的なテキストファイルエディターであるWindowsのNotepadユーティリティーを使用しているのなら、テキストファイルを保存するときに、以下のエンコードのいずれかを選択できます。

UnicodeまたはUnicode big endian形式で保存されたrobots.txtファイルは、ほとんどの検索エンジンボットではサポートされていません。

robots.txtファイルの要件

ボットによるコンテンツへのアクセスを許可または拒否するrobots.txtディレクティブを検索エンジンボットが確実に読めるようにするには、robots.txtファイルを、以下のいずれかのエンコード形式で保存する必要があります。

  • ASCII(American Standard Code for Information Interchange。7ビット、128文字)
  • ISO-8859-1(8ビット、256文字、US-ASCIIと下位互換性がある)
  • UTF-8(Unicodeの可変長文字エンコード・バージョン、US ASCIIと下位互換性がある)
  • Windows-1252(別名、ANSI。Microsoft Windowsで使用されている。8ビット、256文字、US-ASCIIと下位互換性がある)

これらのエンコード形式のいずれかを使用していれば、ボットにrobots.txtファイルを解読してもらい、その内容を確実に実行させることができます。エンコード形式についての詳細は、Microsoft Typographyチームの『article covering the history of character sets』を参照してください。