您现在的位置是：首页 > IT通信百科 > 正文

IT通信百科

robots,robots是什么意思？

root012023-04-15IT通信百科43

robots “机器人”，

在网站优化领域即搜索引擎机器人，搜索引擎是根据自定的算法自动抓取网站、网页的，而负责这个任务的就是这个各个搜索引擎的robots。eg：Google网络蜘蛛的标识为GoogleBot，Baidu网络蜘蛛的标识为BaiDuSpider， Yahoo网络蜘蛛的标识为Inktomi Slurp

robots是什么？

robots是一个协议，是建立在网站根目录下的一个以（robots.txt）结尾的文本文件，对搜索引擎蜘蛛的一种限制指令。是蜘蛛程序爬行网站第一个要访问抓取的页面，网站可以通过robots协议来告诉搜索引擎蜘蛛程序哪些页面可以抓取，哪些页面不可以抓取。

robots协议用来告诉搜索引擎哪些页面能被抓取，哪些页面是不能被抓取的，我们通常用 robots来屏蔽网站的一些垃圾页面、重复页面、死链接通、动态和静态多路径的同一页面。这么做的好处是可以节省一部分的服务器带宽，同时也方便蜘蛛程序更好的来抓取网站内容。其实robots就像一个指路标一样，引导着蜘蛛程序爬取网站页面。

robots符号介绍

首先我们先来认识一下书写robots时常用到的几个字符

User-agent:写义搜索引擎类型，这里的首字母要大写U，结尾冒号:后要加一个空格键，如 User-agent:* 不带空格，User-agent: * 带空格的。

* 这里的星号是一个通配符，匹配0或多个任意字符

$ 是一个结束符

Disallow:表示不希望被访问的目录或URL

Allow:表示希望被访问的目录或URL

robots的确定写法

写法一：禁止所有搜索引擎来抓取网站任何页面

User-agent: *（此处*号也可以写成禁止某个蜘蛛抓取，例如百度的 User-agent: Baiduspider）

Disallow: /

写法二：允许所有搜索引擎抓取网站任何页面

User-agent: *

Allow: /

当然如果允许的话也可以写个空的robots.txt放网站根目录

其它写法举例:

User-agent: * 代表所有搜索引擎

Disallow: /abc/ 表示禁止抓取abc目录下的目录

Disallow: /abc/*.html 表示禁止抓取此目录下所有以 .html为后缀的URL包含子目录

Disallow: /*？*禁止抓取所有带？问号的URL

Disallow: /*jpg$ 禁止所有以.jpg结尾格式的图片

Disallow: /ab 禁止抓取所有以ab 开头的文件

Disallow: /ab/a.html 禁止抓取ab文件夹下面的a.html 文件

Allow: /ABC/ 表示允许抓取abc目录下的目录

百度robots的写法

淘宝robots的写法

最后附上我自己网站robots的写法

好了就先举例这些，最后让提醒各位站长，慎重写robots协议，确保网站上线之前解决所有问题后，建立robots.txt文本到根目录。

85、Mr宋 94-80 作业

发表评论

评论列表

这篇文章还没有收到评论，赶紧来抢沙发吧~

IT通信百科

robots,robots是什么意思？

RAKE,rake是什么意思

RSC,“Rsc”是什么意思？

相关文章

发表评论

评论列表