欢迎投搞,本站第一时间发布你们投搞文章,来件邮箱地址:xxsuye(a)163.com 设为首页 加入收藏
最近更新
热门关注
随机推荐
当前位置:it资讯网|Vista|服务器|杀毒软件|网站建设|网站优化|办公软件|网络安全|硬件|数码|系统 >> 新闻动态 >> 网页优化 >> seo技术 >> 浏览文章
谨慎使用robots.txt禁止搜索引擎抓取
来源:it资讯网 作者:linde 日期:2010年02月05日 访问次数:53

  大家都知道,在网站上线前,就是你的网址暴露在互联网中,能引来谷歌,百度,雅虎,搜狗等等搜索引擎蜘蛛来爬前,网站的主题,关键字,描述,和网站的结构布局一定要明确。一旦蜘蛛来爬过去,你的网站主题关键字描述及结构布局,还在乱改动,这会很影响网站的收录情况和权重。这也往往是新手,常常犯的错误。网站上线后,还在乱改,结果即使收录了,也会k首页,降权重等等惩罚。

  所以有人说,在网站上线前在网站的robots.txt里设置搜索引擎来爬行,等网站标题关键字布局等确定后,再解禁来爬。本人以前没有试过,新上线的一个网站IT资讯网,这前因为做股票网,做了几天,又想主题做减肥。转来转去。以前看了有人说可以在robots.txt写禁止蜘蛛来爬,我查了网站log纪录,只有googlebot来抓过,因为上线才一天,其它搜索引擎还没来,我也没提交过。所以只在就禁止 Googlebot 将来抓取我的网站,请将以下 robots.txt 文件放入您服务器的根目录:

  User-agent: Googlebot

  Disallow: /

  结果以为没事。然后自己改版着不多了,IT资讯网上线了,提交搜索引擎,发外链,引蜘蛛,robots.txt里也解禁了googlebot的来爬,结果一周后过去了,像百度,yahoo,搜狗等等的搜索引擎蜘蛛全来过了,唯独googlebot再也没有来,我很奇怪的。一向googlebot来的很快的,我做了几个站,一般都是googlebot很快来访,baidu蜘蛛反而要一天后才来。这回一周多了还不来,我越想越不对劲。在a5论坛和推一把论坛和google的论坛里都发了提问,没人能给我正确的回答,都不知道原因。我自己也作了一点测试,用谷歌的模拟蜘蛛程序来抓我的IT资讯网,结果显示:首先我把IT资讯网的网址,指向了自己的本机上,然后用模拟googlebot蜘蛛来抓,结果显示如下:

  以下是 Googlebot 抓取该网页的过程。

  URL: http://www.tianya5.com/

  日期: Wed Feb 03 03:11:47 PST 2010

  HTTP/1.1 200 OK

  Connection: close

  Date: Wed, 03 Feb 2010 11:11:40 GMT

  Content-Type: text/html; charset=gbk

  Server: Microsoft-IIS/6.0

  X-Powered-By: ASP.NET,PHP/5.2.9-2

  Access Denied

  竟然是拒绝访问,我这下头大了,拒绝访问?我再一次检查了网站的robots.txt里面没有禁止谷歌来抓啊,网页的meta标签里也没有写禁止,我甚至把robots.txt都删掉了。再用模拟蜘蛛程序来抓仍然是拒绝访问.我再次发论坛求助,仍然没人知道原因和解决办法.然后我就写了一封信给google,信内容如下:

  "我的网站,IT资讯网 改版的两天时间内我在robots.txt里设置了拒绝所有蜘蛛来爬,现在我解禁了,别的蜘蛛像bd热狗yahoo都有来爬,就唯有googlebot再也没来,已经有一个星期了,刚才我用网站管理员工具里实验室里的"像googlebot一样爬取"的功能测试爬取。

  『IT资讯网』 首页,显示结果是:

  以下是 Googlebot 抓取该网页的过程。

  URL: http://www.xxxx.com/

  日期: Wed Feb 03 03:11:47 PST 2010

  HTTP/1.1 200 OK

  Connection: close

  Date: Wed, 03 Feb 2010 11:11:40 GMT

  Content-Type: text/html; charset=gbk

  Server: Microsoft-IIS/6.0

  X-Powered-By: ASP.NET,PHP/5.2.9-2

  Access Denied

  我检查了robots.txt,甚至删掉了这个文件,仍然是access denied,请问google管理人员,这是怎么回事,如何解决,是不是因为我以前拒绝过googlebot,现在googlebot里有数据把我这个站加入了拒绝访问的名单了,还是怎么回事,急等回复,谢谢"

  信发过后,我同时也在作测试,我把天涯屋美容减肥网的网址指向自己本地主机,然后用模拟蜘蛛程序来爬,竟然能正常访问,这证明这个域名是没问题的,应该没有进我所猜想的黑名单.这下我更想不通了?难道是程序问题,程序里除了robots.txt和meta标签 里能禁止搜索引擎蜘蛛来爬,还有其它地方也能禁止?难道是虚拟主机问题?主机禁止了googlebot来爬?难道是因为我一周前禁止过googlebot来爬,就留下了某种我不知道的缓存文件,仍然禁止着?然后我又把google adsense加入了这个站,adsense能显示广告,说明adsense能来访问.但是googlebot却不能访问。

  更为奇怪的是,一个小时后,也就是笔者在写这个文章前,我用谷歌网站管理员工具里的"像googlebot一样爬取"的功能测试时,竟然能爬行了,我看了一下log纪录,googlebot爬行了11次.这又是什么原因?是我写了信的原因?google工作人员看到了,解决了,效率这么高?还是我把网址指向了我本机,又指回来,这样来回折腾后,又好的原因?实在想不明白,唯一得到的结论是:

  一定要谨慎使用robots.txt禁止搜索引擎抓取.新站没做好前,不要让自己的网址出现在互联网任何地方,也不要设置禁止蜘蛛来爬,等网站标题结构等确定好后,再去提交,引蜘蛛.本人亲身经历,希望新手引以为戒。

发表评论】【告诉好友】【打印此文】【收藏此文】【关闭窗口
上一篇:浅谈新站进行友链交换时应该哪些注意方面
下一篇:没有了
发表评论

关于IT资讯网 - 联系我们 - 付款方式 - 客服中心 - 广告报价 -免责声明 - 查询工具 - 友情链接