robots文件:织梦的robots文件需要禁止抓取哪些文件

主要是官方的一些文件夹robots文件,你可以参考一下这个 然后考虑禁止哪些

robots文件:织梦的robots文件需要禁止抓取哪些文件

../a 默认生成文件存放目录

robots文件:织梦的robots文件需要禁止抓取哪些文件

../data 系统缓存或其他可写入数据存放目录

../dede 默认后台登录管理(可任意改名)

../images 系统默认的部分系统需要的图片目录

../include 程序核心系统文件目录

../install 安装文件目录

../member 会员系统目录

../plus 插件及辅助功能目录

../special 专题目录

../templets 模版目录

../uploads 默认上传文件目录

../index.php 网站默认动态首页文件

../robots.txt 限定搜索引擎命令

../tags.php TAG标签文件

如何书写网站的robots文件

robots.txt 用于指导网络爬虫(蜘蛛、搜索引擎)访问网站指定目录,英文也称之为“The Robots Exclusion Protocol”robots文件。robots.txt 的格式采用面向行的语法:空行、注释行(以 # 打头,具体使用方法和 UNIX 中的惯例一样)、规则行。规则行的格式为:Field: value。常见的规则行:User-Agent、Disallow、Allow行。

robots 文件往往放置于根目录下robots文件,包含一条或更多的记录,这些记录通过空行分开(以 CR, CR/NL, or NL 作为结束符),每一条记录的格式如下所示: <field>:<optional space><value><optionalspace> robots 是站点与 spider 沟通的重要渠道,站点通过 robots 文件声明该网站中不想被搜索引擎收录的部分或者指定搜索引擎只收录特定的部分。

请注意,仅当您的网站包含不希望被搜索引擎收录的内容时,才需要使用 robots.txt 文件,怎么设置 robots.txt 文件这个你可以在搜外网和大家讨论。

1robots.txt文件:究竟是干什么用的

robots.txt基本介绍

robots.txt是一个纯文本文件,在这个文件中网站管理者可以声明该网站中不想被robots访问的部分,或者指定搜索引擎只收录指定的内容。

当一个搜索机器人(有的叫搜索蜘蛛)访问一个站点时,它会首先检查该站点根目录下是否存在robots.txt,如果存在,搜索机器人就会按照该文件中的内容来确定访问的范围;如果该文件不存在,那么搜索机器人就沿着链接抓取。

另外,robots.txt必须放置在一个站点的根目录下,而且文件名必须全部小写。