网站被植入webshel??l导致网站瘫痪,网络安全防范太重要了( 四 )


Robots协议是国际互联网界通行的道德规范,请注意,是道德标准,因此,如果搜索引擎不遵守约定的Robots协议,那么通过在网站下增加robots.txt也是不起作用的 。

目前的网络蜘蛛大致分为4种:
(1)、真名真姓,遵循robots.txt协议 。
(2)、真名真姓,不遵循robots.txt协议 。
(3)、匿名,不遵循robots.txt协议 。
(4)、伪装:不遵循robots.txt协议 。
目前看来,绝大多数的搜索引擎机器人都遵守robots.txt规则的 。但是一些不知名的网络蜘蛛就会经常耍流氓,对待这种蜘蛛,建议使用上面nginx下配置的规则,直接给它deny了 。
下面看几个robots.txt配置例子
(1)、允许所有的robot访问
User-agent: *Disallow:(2)、禁止所有搜索引擎访问网站的任何部分
User-agent: *Disallow: /(3)、禁止所有搜索引擎访问网站的几个部分(下例中的a、b、c目录)
User-agent: *Disallow: /a/Disallow: /b/Disallow: /c/(4)、禁止某个搜索引擎的访问(下例中的YisouSpider)
User-agent: YisouSpiderDisallow: /(5)、只允许某个搜索引擎的访问(下例中的Googlebot)
User-agent: GooglebotDisallow:User-agent: *Disallow: /
通过Robots.txt文件方法去现在搜索引擎,是一个防君子不防小人的方法,碰到流氓蜘蛛就没辙了,有些无耻的搜索引擎根本不看网站的robots.txt,一路狂抓下去,实在另人发指 。
3、调整网站的web架构
因为tomcat处理静态资源能力很低,因此,可以将静态资源交给nginx来处理,动态资源交给tomcat处理,通过这种动、静分类方式,可以大大提高网站的抗压性能 。
我们采用的方式是将tomcat生成的htm文件放到一个共享磁盘分区,然后在nginx服务器上通过nfs挂载这个磁盘分区,这样nginx就可以直接访问这些静态文件 。
通过上面三个步骤的操作,网站在半个小时内负载下降,很快恢复正常了 。




推荐阅读