怎么做好大数据安全访问管控？彭文华-鸟哥笔记

这是彭文华的第132篇原创

我发现呆过的公司基本上会分成两个极端：要么什么都自研，迫不得已才买现成的；要么什么都买买买，迫不得已才自研。市场上现在有很多大数据平台、数据中台的产品都已经把所有功能都集成好了，但是价格可不便宜啊。

比如我们平台建好了，要开放给各业务部门的数据分析师用，但是表太多了，没法管理，这可咋整？大数据平台资源可多呢，HIVE、HBase、Kafka等，每个组件弄一套用户名密码？那还不得废了！所以我们得有一套统一的授权系统来管理才行。

用户和资源

即便是没设计过权限的同学，凭着自己平时使用各种系统的感觉，也能理解必须得有一个表，用来存储所有用户和需要访问资源的对应关系。

用我们最朴素的理解，A用户过来申请访问B表，需要到用户-资源表中扫一下，有权限了，再去执行。这就是权限“鉴权”的逻辑。

但是这么做有个弊端，一旦用户和资源过多，就完蛋了。

这还是6个用户和6个资源，就已经是个灾难了，更别提咱大数据平台动辄几千个表，内部几十上百个人要用，要是加上HIVE、HBase、Kafka等N多组件，那就彻底歇菜了！

RBAC模型

架构感比较好的同学就立刻会想到一个解决方案：在用户和资源之间加一层，起到解耦的作用。

这样就轻松多了，一个权限决定了可以对资源做什么事情，比如增、删、改、查。但是这只是从资源侧解决了部分问题，还有用户侧也少了一些，那就再加一层。

这样就从资源端和用户端都做了一层抽象，也就多了一层解耦。在进行授权、鉴权等权限控制的时候就非常舒服了。进一步我们还可以将角色进行进一步的拆分，比如建个角色分组、分级，再加上组织架构等，这个权限功能就非常丰富了。

这就是传说中的RBAC（基于角色的访问控制Role-Based Access Control）。

至于RBAC的什么概念、什么原则，这里就不赘述了，各位可以去百度一下。意思就是建立一个用户、角色、权限和资源之间对应关系的访问控制模型。

大数据安全组件Ranger

这哥们说了，权限我明白了，那这个安全体系怎么落地呢？

这就要提到跟Apache基金会里与Atlas双贱合并的Ranger了！这个Ranger帮忙做了很多基础工作，向前打通了用户端，向后打通Hive、Base、Kafka、Yarn等组件，关键是他还能与Atlas打通了。而且还提供了统一的权限配置界面，非常友好！

Ranger为各个组件提供一个插件，相当于拦在用户请求的路径上，根据配置的访问策略决定是否应授权这个户请求。

我们可以在Ranger中对一个自营资源（一个或多个文件夹和/或文件）创建安全策略，然后为一组特定的用户和/或组分配特定的权限（例如：读取，写入，执行）。这些策略和权限在策略管理器中，Ranger把这些信息扔到了MySQL里存储。

不过Ranger也有很多不足之处，最让人上头的就是安装了。这玩意各种依赖特别多，而且还有版本限制，真是让人头大。

另外就是支持的组件还是不太够丰富，还有，Ranger好像没完全按照RBAC逻辑去设计，不过对于我们这样已经够用了。

三大安全组件对比

除了Ranger之外，其实还有两个：Kerberos和Sentry。Kerberos比较轻量级，相当于最简单的权限管理。Sentry功能也还行，但是交互性差点意思，连自己的Web UI都没有。

Kerberos轻量级到什么程度呢？就是只能控制你是否能访问Hive，某个表啥的就控制不了啦。不过据说可以集成LDAP，反正我没玩过，也不知道好使不好使。Kerberos实现的逻辑很简单，就是先买票，后上船。它的KDC服务端提供卖票服务，Client到KDC那边买个票，然后再去Server那边验票访问。

Sentry是CDH的标配，在CDH时代，Sentry基本是唯一的安全解决方案。但是升级为CDP之后，就抛弃Sentry，改用Ranger了，所以你看，还是Ranger比较好用吧？要不怎么会换掉呢，是吧？我这边也整（抄）了一个Sentry和Ranger的对比，各位凑合着看吧：

如果你的团队也遇到权限的问题，强烈建议用Ranger。

扩展阅读：《大数据治理与安全从理论到开源实践》+权限梳理模板，“大数据架构师”公众号后台回复“Ranger”即可下载。

配合以下文章享受更佳

下载 | 阿特拉斯耸耸肩，数据治理法力无边~~

干货 | 什么是数据地图、血缘分析和数据资产？

干货 | 数据资产化的前提-浅谈数据治理体系的建设

干货 | 什么是数据、元数据、主数据和参考数据？

我需要你的转发，爱你哟

本文系作者：大数据架构师授权发表，鸟哥笔记平台仅提供信息存储空间服务。

本文为作者独立观点，不代表鸟哥笔记立场，未经允许不得转载。

《鸟哥笔记版权及免责申明》如对文章、图片、字体等版权有疑问，请点击反馈举报