- 2007-07-17 (火)
- サイト構築
さて、Amazon Review Searchを公開して、数日しか経っていないのですが、一日のアクセスが数千とかになっていました。で、アクセスログを見ると、IPアドレスが「61.247.*.*」からのアクセスが異常なことになっていました。
こういう場合は大抵、海外の怪しいクローラーを疑って間違いないのですが、案の定、韓国の「NHN-NET」とかいう所のクローラーのアクセスでした。
サーバーに負荷を掛けるということもありますが、アクセスログを2次利用する場合、こういう行儀の悪いクローラーはノイズの原因となります。
というわけで、.htaccessに以下の記述を行いました。
order allow,deny
allow from all
deny from 61.247.196
deny from 61.247.197
「order allow, deny」で、許可優先とし、「allow from all」で全てのユーザのアクセスを許可したあとに、「deny from 61.247.196」「deny from 61.247.197」で、「61.247.196.*」「61.247.197.*」からのアクセスを拒否しています。拒否したいIPアドレスを追加したい場合には、deny from [IPアドレス]を下の行に追記していきます。
逆に、(需要があるか分かりませんが)特定のIPアドレスだけを許可したい場合は以下のように記述します。
order deny,allow
deny from all
allow from *.*.*.*(許可したいIPアドレス)
◇ 参考 ◇
------- 追記(2007.08.22)
今度は、「twiceler」とかいう怪しいクローラーが頻繁にアクセスしてくるので、アクセス禁止にしました。IPアドレスは、「64.1.215.*」とか「38.99.13.*」とかです。
------- 追記(2007.08.30)
まっとうなクローラーであれば、robots.txt の記述に従うので、robots.txt に以下のように記述することで巡回拒否が可能です。
User-agent: Twiceler
Disallow: /
ただし、User-agent を詐称したり、robots.txt を無視したりするクローラーもいますので、全てのクローラーに対して有効というわけではありません。
Tags :クローラー?拒否?Nhn-net?クローラ?アクセス拒否?
カテゴリ「サイト構築」の最新記事
-
2008-11-02 23:00 - ロリポップ、PHP5へ
-
2008-09-19 23:00 - IE7を使わざるを得ない
-
2008-09-01 23:00 - 2008年8月のSearch Engine Cloud
-
2008-08-23 01:00 - Yahoo!のWebAPIドメインが変更される
-
2008-08-01 23:00 - 2008年7月のSearch Engine Cloud