专业提供互联网互动产品解决方案

8+

年行业设计经验

20+

设计研发团队

1000+

客户服务案例

30+

大项目开发经验

首页 > 新闻资讯 > Robots协议

Robots协议

2020/10/27 | 浏览量:480 | 作者:专家

  Robots协议robots.txt是一种存放于网站根目录下的ASCII编码的文本文件,也称为爬虫协议、机器人协议等,全称是“网络爬虫排除标准”(Robots Exclusion Protocol)。 Robots协议是互联网爬虫的一项公认的道德规范,只是约定俗成的规范,所以并不能保证网站的隐私。这个协议的存在更多的是需要网络爬虫去遵守,而起不到防止爬虫的功能。

       为什么需要Robots协议?互联网上的网页是通过超级链接互相关联起来的,从而形成了网页的网状结构。爬虫的工作方式就像蜘蛛在网上沿着链接爬来爬去,最基本的流程可以简化如下:

       1.喂给爬虫一堆url,我们称之为种子(seeds);

       2.爬虫抓取seeds,解析html网页,抽取其中的超级链接;

       3.爬虫接着抓取这些新发现的链接指向的网页。

       4.步骤2和步骤3循环往复。

       通过上面的流程就能发现:对爬虫来说,网站非常被动,只有老老实实被抓取的份。一方面:对于网站的管理者来说,某些路径下是个人隐私或者网站管理使用,是不想被搜索引擎抓取。另一方面,爬虫使用者想要屏蔽一些网站中比较大的文件,如:图片,音乐,视频等,节省服务器带宽,还有屏蔽站点的一些死链接。这就需要提供一种网站和爬虫进行沟通的途径,给网站管理员表达自己意愿的机会,于是就有了robots协议。网站通过Robots协议告诉搜索引擎哪些页面可以抓取,哪些页面不能抓取。