robots协议是一个网站根目录下的一个txt文本文件,当搜索引擎蜘蛛在访问某个网站时,都会检查这个网站的根域下是否有这么一个文本文件。所以,它同时也是搜索引擎蜘蛛来到你站点抓取的第一个文件,这个robots文件的作用就是针对蜘蛛让它对你的站点哪些内容抓取还是不抓取,给搜索引擎的一个协议,它能够很好的保护用户信息,网站隐私等。
robots规则
User-Agent: 针对某个搜索引擎蜘蛛的规则,
Allow: 允许抓取
Disallow: 不允许抓取
* 通配符,所有的
$ 结束符,以什么什么结尾。
/ 根目录
注意:以上都是英文状态下输入,包括冒号,空格,冒号之后有一个英文状态下的空格,首页要字母大写,并且写的都是相对路径,而不是绝对路径。
例如:
User-Agent: * 针对所有搜索引擎的规则
Disallow: /wp-content/ 不允许抓取这个文件夹
Allow: /wp-content/uploads/LOGO.jip 允许抓取这个文件夹里的这个张图片
Disallow: /*.js$ 不允许抓取更目录下所有以.js结尾的文件