安防通讯百科

您现在的位置是:首页 > IT通信百科 > 正文

IT通信百科

robots,robots是什么意思?

root012023-04-15IT通信百科43

robots “机器人”,

在网站优化领域即搜索引擎机器人,搜索引擎是根据自定的算法自动抓取网站、网页的,而负责这个任务的就是这个各个搜索引擎的robots。eg:Google网络蜘蛛的标识为GoogleBot,Baidu网络蜘蛛的标识为BaiDuSpider, Yahoo网络蜘蛛的标识为Inktomi Slurp

robots是什么?

robots是一个协议,是建立在网站根目录下的一个以(robots.txt)结尾的文本文件,对搜索引擎蜘蛛的一种限制指令。是蜘蛛程序爬行网站第一个要访问抓取的页面,网站可以通过robots协议来告诉搜索引擎蜘蛛程序哪些页面可以抓取,哪些页面不可以抓取。

robots协议用来告诉搜索引擎哪些页面能被抓取,哪些页面是不能被抓取的,我们通常用 robots来屏蔽网站的一些垃圾页面、重复页面、死链接通、动态和静态多路径的同一页面。这么做的好处是可以节省一部分的服务器带宽,同时也方便蜘蛛程序更好的来抓取网站内容。其实robots就像一个指路标一样,引导着蜘蛛程序爬取网站页面。

robots符号介绍

首先我们先来认识一下书写robots时常用到的几个字符

User-agent:写义搜索引擎类型,这里的首字母要大写U,结尾冒号:后要加一个空格键,如 User-agent:* 不带空格,User-agent: * 带空格的。

* 这里的星号是一个通配符,匹配0或多个任意字符

$ 是一个结束符

Disallow:表示不希望被访问的目录或URL

Allow:表示希望被访问的目录或URL

robots的确定写法

写法一:禁止所有搜索引擎来抓取网站任何页面

User-agent: *(此处*号也可以写成禁止某个蜘蛛抓取,例如百度的 User-agent: Baiduspider)

Disallow: /

写法二:允许所有搜索引擎抓取网站任何页面

User-agent: *

Allow: /

当然如果允许的话也可以写个空的robots.txt放网站根目录

其它写法举例:

User-agent: * 代表所有搜索引擎

Disallow: /abc/ 表示禁止抓取abc目录下的目录

Disallow: /abc/*.html 表示禁止抓取此目录下所有以 .html为后缀的URL包含子目录

Disallow: /*?*禁止抓取所有带?问号的URL

Disallow: /*jpg$ 禁止所有以.jpg结尾格式的图片

Disallow: /ab 禁止抓取所有以ab 开头的文件

Disallow: /ab/a.html 禁止抓取ab文件夹下面的a.html 文件

Allow: /ABC/ 表示允许抓取abc目录下的目录

百度robots的写法

淘宝robots的写法

最后附上我自己网站robots的写法

好了就先举例这些,最后让提醒各位站长,慎重写robots协议,确保网站上线之前解决所有问题后,建立robots.txt文本到根目录。

85、Mr宋 94-80 作业

发表评论

评论列表

  • 这篇文章还没有收到评论,赶紧来抢沙发吧~