Robots协议是什么?
网络爬虫其实是一种灰色产业!没有法律规定爬虫是违法的,也没有法律规定爬虫不违法,主要看爬取数据的类型,如:
一般来说,高度敏感的数据根本爬不了;如果是公司要求爬的,那出了事情就是公司的责任。
如果有些东西您不能确认是不是违法,可以向身边律师朋友咨询或者百度谷歌,切莫存侥幸心理!
屏幕前面的您心里一定要有杆称,搞爬虫真的可能会坐牢的。信息犯罪好像是直接坐牢的,而且不是按天算的,毕竟玫瑰金手铐可摆在那里呢!
这杆称就是 Robot.txt 协议。不过,Robot.txt 对学习聚焦型爬虫的我们帮助不大,就当一个常识学一下,也可以根据 Robot.txt 协议列出的网页作为指标,Robot.txt 协议允许的网页我们就能爬,不允许的就不爬呗。
Robots 协议是互联网爬虫的一项公认的道德规范,全称是“网络爬虫排除标准(Robots exclusion protocol)”,这个协议用来告诉通用型爬虫,哪些页面是可以抓取的,哪些不可以。
大多数网站都有 Robots 协议,那如何查看网站的 Robots 协议呢 ?
很简单,在网站的根目录域名后加上
在截取的部分,可以看到淘宝对百度和谷歌这两个爬虫的访问规定,以及对其TA通用型爬虫的规定。
因为网站上的目录其实就是电脑里的文件夹,robots.txt 协议处于网站的根目录下,任何人都可以直接输入路径打开并查看里面的内容,就可以比较清楚的了解网站的结构。
robots.txt 相关新闻:
如果符合某种特定模板系统的 Robots 协议,就可以立马寻找当前模版版本的通杀漏洞,以及登录模版网站的后台爆破管理员密码等。
上图所示网站就是 DedeCMS 模板搭建而成,模版原型是这样:
因为
- 高度敏感数据:行踪轨迹信息、通信内容、征信信息、财产信息;
- 敏感数据:住宿信息、通信记录、健康生理信息、交易信息;
- 其他个人信息:高度敏感数据和敏感数据。
一般来说,高度敏感的数据根本爬不了;如果是公司要求爬的,那出了事情就是公司的责任。
如果有些东西您不能确认是不是违法,可以向身边律师朋友咨询或者百度谷歌,切莫存侥幸心理!
屏幕前面的您心里一定要有杆称,搞爬虫真的可能会坐牢的。信息犯罪好像是直接坐牢的,而且不是按天算的,毕竟玫瑰金手铐可摆在那里呢!
这杆称就是 Robot.txt 协议。不过,Robot.txt 对学习聚焦型爬虫的我们帮助不大,就当一个常识学一下,也可以根据 Robot.txt 协议列出的网页作为指标,Robot.txt 协议允许的网页我们就能爬,不允许的就不爬呗。
Robots 协议是互联网爬虫的一项公认的道德规范,全称是“网络爬虫排除标准(Robots exclusion protocol)”,这个协议用来告诉通用型爬虫,哪些页面是可以抓取的,哪些不可以。
大多数网站都有 Robots 协议,那如何查看网站的 Robots 协议呢 ?
很简单,在网站的根目录域名后加上
/robots.txt
就可以了。例如,通过 https://www.taobao.com/robots.txt 这个链接可以查看淘宝的 Robots 协议。
User-agent: Baiduspider #百度爬虫 Allow: /article #允许访问 /article.htm Allow: /oshtml #允许访问 /oshtml.htm Allow: /ershou #允许访问 /ershou.htm Allow: /$ #允许访问根目录,即淘宝主页 Disallow: /product/ #禁止访问/product/ Disallow: / #禁止访问除 Allow 规定页面之外的其TA所有页面 User-Agent: Googlebot #谷歌爬虫 Allow: /article Allow: /oshtml Allow: /product #允许访问/product/ Allow: /spu Allow: /dianpu Allow: /oversea Allow: /list Allow: /ershou Allow: /$ Disallow: / #禁止访问除 Allow 规定页面之外的其TA所有页面 ...... #文件太长,省略了对其TA爬虫的规定,想看全文的话,点击上面的链接 User-Agent: * #除了指定的爬虫之外,其TA通用型爬虫 Disallow: / #禁止访问所有页面(歧视啊)
在截取的部分,可以看到淘宝对百度和谷歌这两个爬虫的访问规定,以及对其TA通用型爬虫的规定。
因为网站上的目录其实就是电脑里的文件夹,robots.txt 协议处于网站的根目录下,任何人都可以直接输入路径打开并查看里面的内容,就可以比较清楚的了解网站的结构。
robots.txt 相关新闻:
黑客技巧
我们可以通过 robots.txt 协议看到这个网站是不是一个网站模版系统建成的。如果符合某种特定模板系统的 Robots 协议,就可以立马寻找当前模版版本的通杀漏洞,以及登录模版网站的后台爆破管理员密码等。
上图所示网站就是 DedeCMS 模板搭建而成,模版原型是这样:
因为
/plus/ad_js.php
等都是 DedeCMS 网站通用的,只要在根目录后加/dede
,即可进入后台,再输入默认密码或许可以拿下哦。所有教程
- socket
- Python基础教程
- C#教程
- MySQL函数
- MySQL
- C语言入门
- C语言专题
- C语言编译器
- C语言编程实例
- GCC编译器
- 数据结构
- C语言项目案例
- C++教程
- OpenCV
- Qt教程
- Unity 3D教程
- UE4
- STL
- Redis
- Android教程
- JavaScript
- PHP
- Mybatis
- Spring Cloud
- Maven
- vi命令
- Spring Boot
- Spring MVC
- Hibernate
- Linux
- Linux命令
- Shell脚本
- Java教程
- 设计模式
- Spring
- Servlet
- Struts2
- Java Swing
- JSP教程
- CSS教程
- TensorFlow
- 区块链
- Go语言教程
- Docker
- 编程笔记
- 资源下载
- 关于我们
- 汇编语言
- 大数据
- 云计算
- VIP视频