robotstxt:网站robots.txt文件怎么写?

robots.txt 用于指导网络爬虫(蜘蛛robotstxt、搜索引擎)访问网站指定目录火车头采集图片,英文也称之为“The Robots Exclusion Protocol”。robots.txt 的格式采用面向行的语法:空行、注释行(以 # 打头,具体使用方法和 UNIX 中的惯例一样)、规则行。规则行的格式为:Field: value。常见的规则行:User-Agent、Disallow、Allow行。robots 文件往往放置于根目录下,包含一条或更多的记录,这些记录通过空行分开(以 CR, CR/NL, or NL 作为结束符),每一条记录的格式如下所示:

1robots.txt文件:究竟干什么用的?

搜索引擎爬去我们页面的工具叫做搜索引擎机器人,也生动的叫做“蜘蛛”蜘蛛在爬去网站页面之前,会先去访问网站根目录下面的一个文件,就是robots.txt。这个文件其实就是给“蜘蛛”的规则,如果没有这个文件,蜘蛛会认为你的网站同意全部抓取网页。Robots.txr文件是一个纯文本文件,可以告诉蜘蛛哪些页面可以爬取(收录),哪些页面不能爬取。举个例子什么是商业模式:建立一个名为robots.txt的文本文件,然后输入User-agent: * 星号说明允许所有搜索引擎收录Disallow: index.php? 表示不允许收录以index.php?前缀的链接,比如index.php?=865Disallow: /tmp/ 表示不允许收录根目录下的tmp目录,包括目录下的文件,比如tmp/232.html