どのクローラーがrobots.txtの指示を無視しているのか調査しました

クローラビリティ
No

インターネットの世界では検索エンジンを始め、多種多様な目的でクローラーが徘徊し情報を収集しています。法律の専門家ではないので正しい解釈ではないかもしれませんが、ウェブ上でクローラーがコンテンツを収集するスクレイピング自体は問題ありません。以前、某図書館の蔵書検索システムを使いやすくするためのシステムを開発した方が逮捕されるという事件もありましたが、最終的に不起訴となりました。

ウェブ運営者がクローラーへ向けた対策としてrobots.txtというものがあります。robots.txtにクロールを拒否する命令を記述するというものです。しかし、robots.txtの内容はあくまで指示にしか過ぎません。クローラーによってはrobots.txtの指示に従いません。参考までにGoogleのヘルプにも注意が記載されています。

robots.txt ファイル内の指示は、サイトにアクセスするクローラの動作に対し強制力はなく、サイトにアクセスするクローラへのディレクティブとして機能します。Googlebot などの信頼できるウェブクローラは robots.txt ファイルの指示に従いますが、他のクローラも従うとは限りません。そのため、ウェブクローラから情報を継続して保護するには、サーバー上の非公開ファイルをパスワードで保護する方法など、他のブロック方法を利用することをおすすめします。

▼robots.txt ファイルについて
https://support.google.com/webmasters/answer/6062608

感情的に考えると「おかしいではないか」と思います。法律的な解釈として正しくないかもしれませんが、robots.txtに従わないといけないという法的な根拠はないようです。(会員制コンテンツは利用規約に従います。また、パスワードで制限しているページは作者の許諾が必要となるようです)

そもそもクローラーはrobots.txtを見ているのか?

前置きが長くなりましたが、robots.txtに従うかどうかという以前に、そもそもrobots.txtを見ているのかどうか気になりました。従う気があるのならrobots.txtを見ないといけません。なので、行儀の良いクローラーかどうかを調べてみました。調査期間は1ヶ月です。わかりやすくするために2017年1月1日〜31日に調査しました。まずは以下準備を施しました。

  1. robots.txtへアクセスがあった場合に計測できるようにした
  2. Google Alanyticsで「robots.txt」へアクセスしたセッションとそうでないものをセグメントした

正しい計測ができているはずです(細かくは割愛します)。その結果がこちらです。

2017年1月のクロール統計情報

robots.txtを見ているセッションと見ていないセッションの差が一目瞭然です。このように多くのセッションでrobots.txtを見ていませんでした。ただし、当日内であれば改めてrobots.txtを見る必要がないかもしれないので、全てのクロールでrobots.txtを見る必要はないかもしれません。この辺はサービスごとに考え方が異なるでしょう。

クローラー別のrobots.txtアクセス

ではクローラー別に見てみましょう。長くなるので上位10位まで公開します。

2017年1月のクロール数上位10

Googleやbing、米Yahoo!、Yandexなどの検索エンジンは全てのセッションでrobots.txtを見ていません。言うならば、robots.txtを見て拒否していなければ一定期間再度アクセスをしない、というルールに感じます。意外だったのはMajesticやAhrefsといったSEOツールがrobots.txtを見ていることです。ルールに従う意思があるのでしょうね。

2017年1月のGooglebot(SP)のクロール数

また、スマートフォン用のGooglebotはrobots.txtを一切見ません。この結果には驚いているのですが、おそらく現状がデスクトップファーストでモバイルはセカンドプライマリだからかと推測します。ただ、だからといってスマートフォン用のGooglebotを拒否できないとは考えづらく、おそらくウェブ検索用のGooglebotを拒否すれば同時に従ってくれるのではないでしょうか。そのための実験をする意思がないので確実なことは言えませんが。ただ、モバイルファーストへ切り替わった場合は動きが入れ替わるように感じます。その時は「スマートフォン用のGooglebotしかrobots.txtを見ないのでは?」と推測します。

西部俊宏
執筆者:
株式会社Webの間代表取締役。上場企業でのSEOの実績やWebサイト構築実績多数。SEO・Web制作の経験からクローラビリティ改善・最適化サービスを提供している。

売上アップに繋がる本気のユーザーをホームページに呼び込みませんか?

※当ブログはブログ村に参加しております。
にほんブログ村

売上アップに繋がる本気のユーザーをホームページに呼び込みませんか?
  • 医療関連サイト制作
  • サービスサイト制作
  • 独自ECサイト構築
  • コーポレートサイト・CI作成
  • レシピ投稿システム開発
  • 採用選考システム開発・おかえりな採用
  • 採用選考システム開発・オープンコネ採用
  • 採用選考システム開発・考えな採用
  • 採用選考システム開発・登頂採用
  • 採用選考システム開発・お泊まり採用
  • IT系サービスサイト制作
  • コーポレートサイト・CI作成
  • 不動産サイト制作
お客様に最適なWEB集客&コンテンツをご提案します