robots协议;爬虫拿到数据违法吗？数据可以商业化吗？有大神懂得吗？

网络爬虫涉及的法律问题可从信息层、策略层、数据层进行分析。在信息层，当抓取到具有著作权、个人信息等内容时，可能侵犯知识产权、人格权等法律法规21秒robots协议；在策略层，当爬虫技术涉及突破、绕开反爬虫策略、协议时，可能犯有提供侵入非法控制计算机信息系统程序工具罪或破坏计算机信息系统罪；在数据层，当爬虫活动的关联行为涉及破解客户端、加密算法等，可能犯有非法获取计算机信息系统数据罪等。

一般爬虫界有一个默认协议《Robots协议》（也称为爬虫协议大学生兼职论坛、机器人协议等），全称是“网络爬虫排除标准”（Robots Exclusion Protocol）robots协议。一般网站通过Robots协议告诉搜索引擎哪些页面可以抓取，哪些页面不能抓取。是网络资源提供者与搜索引擎之间的道德约定。

《Robots协议》的实施主要依赖一个文件百度竞价恶意点击软件：robots.txtrobots协议，

网站会将该文件置于根目录下。举个例子robots协议，当爬虫访问一个网站（比如http://x.y.z）时，首先会检查该网站中是否存在http://x.y.z/robots.txt

这个文件robots协议，如果爬虫找到这个文件，它就会根据这个文件的内容，来确定它访问权限的范围。

但正如上文所讲，该协议只是“道德约定”，并没有法律保障。也并不是遵循了这个协议就一定能避开一开始所讲的法律问题。

因此我建议使用爬虫以图商业目的的朋友首先要识别数据性质，是公开数据、半公开数据还是内部系统数据，对于内部系统数据，严格禁止侵入；爬取数据时避免获取个人信息、明确的著作权作品、商业秘密等；限定数据的应用场景，如遇涉及侵害他人的商业利益和竞争秩序的场景，要思之再三再做决策。

最后再谈谈如何避免踩雷。第一点，同业竞争者的数据最好不要爬，官司很容易上身；第二点，被公司定性为有商业价值的数据不要爬，有个案例是百度爬了美团的有价数据，结果被告得很惨；第三点，爬虫机器人千万别扰乱对方的正常运营，万一搞崩了别人的网站，后果很严重。

法律参考：

《刑法》第285条，非法获取计算机信息系统数据罪。最高处七年有期徒刑。

《刑法》第286条，破坏计算机信息系统罪。最高处五年以上。比如为了抓取数据，破解登陆密码，反编译APP。

《网络安全法》，倒卖隐私数据链条上的一环。你把抓取的数据倒卖给坏人，坏人拿数据做了坏事，你就是这其中一环。