Home > サイト構築 > 性質の悪いクローラーをアクセス拒否する

性質の悪いクローラーをアクセス拒否する

さて、Amazon Review Searchを公開して、数日しか経っていないのですが、一日のアクセスが数千とかになっていました。で、アクセスログを見ると、IPアドレスが「61.247.*.*」からのアクセスが異常なことになっていました。

こういう場合は大抵、海外の怪しいクローラーを疑って間違いないのですが、案の定、韓国の「NHN-NET」とかいう所のクローラーのアクセスでした。

サーバーに負荷を掛けるということもありますが、アクセスログを2次利用する場合、こういう行儀の悪いクローラーはノイズの原因となります。

というわけで、.htaccessに以下の記述を行いました。

order allow,deny
allow from all
deny from 61.247.196
deny from 61.247.197

「order allow, deny」で、許可優先とし、「allow from all」で全てのユーザのアクセスを許可したあとに、「deny from 61.247.196」「deny from 61.247.197」で、「61.247.196.*」「61.247.197.*」からのアクセスを拒否しています。拒否したいIPアドレスを追加したい場合には、deny from [IPアドレス]を下の行に追記していきます。

逆に、(需要があるか分かりませんが)特定のIPアドレスだけを許可したい場合は以下のように記述します。

order deny,allow
deny from all
allow from *.*.*.*(許可したいIPアドレス)

◇ 参考 ◇

荒らし対策委員会: アクセス制限


------- 追記(2007.08.22)

今度は、「twiceler」とかいう怪しいクローラーが頻繁にアクセスしてくるので、アクセス禁止にしました。IPアドレスは、「64.1.215.*」とか「38.99.13.*」とかです。


------- 追記(2007.08.30)

まっとうなクローラーであれば、robots.txt の記述に従うので、robots.txt に以下のように記述することで巡回拒否が可能です。

User-agent: Twiceler
Disallow: /

ただし、User-agent を詐称したり、robots.txt を無視したりするクローラーもいますので、全てのクローラーに対して有効というわけではありません。

Tags :
クローラー?拒否?Nhn-net?クローラ?アクセス拒否?

カテゴリ「サイト構築」の最新記事

カテゴリ「サイト構築」 の全ての記事を読む

「クローラー」に関連する商品を...

Home > サイト構築 > 性質の悪いクローラーをアクセス拒否する

Search
Feeds

Page Top