robots协议;robots协议是什么?

Robots是一个英文单词,对英语比较懂的朋友相信都知道,Robots的中文意思是机器人。而我们通常提到的主要是Robots协议,Robots.txt被称之为机器人或Robots协议(也称为爬虫协议林夕阁、机器人协议等)它的全称是“网络爬虫排除标准”
英文“Robots Exclusion Protocol”这也是搜索引擎的国际默认公约。我们网站可以通过Robots协议从而告诉搜索引擎的蜘蛛哪些页面可以抓取,哪些页面不能抓取。Robots协议的本质是网站和搜索引擎爬虫的沟通方式,是用来指引搜索引擎更好地抓取网站里的内容。
比如说,一个搜索蜘蛛访问一个网站时,它第一个首先检查的文件就是该网站的根目录里有没有robots.txt文件。
如果有,蜘蛛就会按照该文件中的条件代码来确定能访问什么页面或内容robots协议;如果没有协议文件的不存在,所有的搜索蜘蛛将能够访问网站上所有没有被协议限制的内容页面。
而百度官方上的建议是:仅当您的网站包含不希望被搜索引擎收录的内容时,才需要使用robots.txt文件进行屏蔽。而如果您希望搜索引擎收录网站上所有内容,请勿建立robots.txt文件。