- 七月14日
-
最近网站改版,发现google收录了以前不存在的网页。本来想做个404再跳转的,可惜空间商提供的这个404是个鸡肋,做了404后再去查不存在的网页返回http 200状态码,没有办法干脆不做还好。但为了防止google和百度收录这些已经不存在的网页,还是在robots.txt中禁用爬虫抓取这些页面。
写好了robots.txt后也一直没有管它,今天用“google管理员工具”在“已拦截的网址”中看看情况,发现提示robots语法错误和未指定user-agent。虽然是这样提示,但是“google”还是拦截了部分。
为了更迎合“搜索引擎”的规则,还得的想想办法解决。首页检查了一下User-agent: * 此句并没有什么语法错误。看来问题出在编码上,google对使用utf-8编码的robots并不能正确理解,将robots.txt改写为ansi编码之后问题解决。
方法:直接新建记事本文件,将原来的代码拷贝到此文件,再保存后覆盖原来的robots.txt即可。(创建文本文件默认保存的编码就是ansi编码,在保存robots.txt时,切勿改动编码类型。)
原创文章请注明转载自生命线电脑技术
本文地址:http://smxr.com/post/robotsyufacuowu.html
- 评论:(1)
- 隐藏评论
【已有1位网友发表了看法】