天道酬勤,学无止境

大数据平台安全策略(Kerberos,Sentry,Ranger)

近些年来大数据所用到的的安全方案主要有如下三种

  • Kerberos(业界常用的服务认证)
  • Sentry(Cloudera选用的方案,cdh版本集成)
  • Ranger(Hortonworks选用的方案,hdp发行版集成)

Kerberos

Kerberos只能控制你是否能访问服务,不能控制到很细的粒度
比如说,它可以控制你访问hive与否,但是对于hive的表没有用户级别的权限控制没有实现(需要集成LDAP一起使用才行)

kerberos的主要构成部分为Client,KDC,Service

构成作用
KDCKerberos的服务端程序,用来验证各个模块
Client需要访问服务的用户,KDC与Service会对用户的身份进行验证
Service集成了Kerberos的服务,如Hbase,Hdfs,Hive等

Kerberos协议过程

  • Client向KDC申请TGT
  • Client通过获得的TGT向KDC申请用于访问的Service的Ticket
  • Client用KDC返回的Ticket访问Service

可以用游乐园的思想来类比:

将KDC比作游乐园,Client比作游客,Service比作游乐园的各种活动项目
首先游客(Client)进入游乐园(KDC)需要游乐园的门票(TGT),玩耍各类项目需要对应项目的票据(ticket),比如玩耍摩天轮(Hbase)需要摩天轮的专属票据(ticket)

优点:

  • 服务认证,防止broker datanode regionserver等组件冒充加入集群
  • 解决了服务端到服务端的认证,也解决了客户端到服务端的认证

缺点

  • kerberos为了安全性使用临时ticket,认证信息会失效,用户多的情况下重新认证繁琐
  • kerberos只能控制你访问或者拒绝访问一个服务,不能控制到很细的粒度,比如hdfs的某一个路径,hive的某一个表,对用户级别上的认证并没有实现(需要配合LDAP)

Apache Sentry

Apache Sentry是Cloudera公司发布的一个Hadoop安全开源组件,它提供了细粒度级、基于角色的授权.

优点:

  • Sentry支持细粒度的hdfs元数据访问控制,对hive支持列级别的访问控制
  • Sentry通过基于角色的授权简化了管理,将访问同一数据集的不同特权级别授予多个角色
  • Sentry提供了一个统一平台方便管理
  • Sentry支持集成Kerberos

缺点:

  • 组件只支持hive,hdfs,impala 不支持hbase,yarn,kafka,storm等

Apache Ranger

Apache Ranger是Hortonworks公司发布的一个Hadoop安全开源组件

优点:

  • 提供了细粒度级(hive列级别)
  • 基于访问策略的权限模型
  • 权限控制插件式,统一方便的策略管理
  • 支持审计日志,可以记录各种操作的审计日志,提供统一的查询接口和界面
  • 丰富的组件支持(HDFS,HBASE,HIVE,YARN,KAFKA,STORM)
  • 支持和kerberos的集成
  • 提供了Rest接口供二次开发

选择Ranger的原因
多组件支持(HDFS,HBASE,HIVE,YARN,KAFKA,STORM),基本覆盖我们现有技术栈的组件
支持审计日志,可以很好的查找到哪个用户在哪台机器上提交的任务明细,方便问题排查反馈
拥有自己的用户体系,可以去除kerberos用户体系,方便和其他系统集成,同时提供各类接口可以调用

受限制的 HTML

  • 允许的HTML标签:<a href hreflang> <em> <strong> <cite> <blockquote cite> <code> <ul type> <ol start type> <li> <dl> <dt> <dd> <h2 id> <h3 id> <h4 id> <h5 id> <h6 id>
  • 自动断行和分段。
  • 网页和电子邮件地址自动转换为链接。

相关推荐
  • Ranger学习(一)—— 基础概念
    参考链接 1. Ranger架构分析:https://www.jianshu.com/p/d0bf6e77bb8f 2. 用户指南:https://cwiki.apache.org/confluence/display/RANGER/Apache+Ranger+0.5+-+User+Guide 3. Ranger原理:https://blog.csdn.net/qq475781638/article/details/90247153#2Apache_Sentry_48 一、背景 大数据最基本就是数据以及用于计算的资源,需要将相应的数据和资源开放给对应的用户使用,以防被窃取、被破坏造成损失,这个就涉及大数据安全。 主流的大数据安全组件Kerberos由于使用临时的用户验证机制不适用用户多的情况、Sentry只适用少部分的Hadoop生态组件应用场景少。 Apache Ranger作为标准化的访问控制层,引入统一的权限模型与管理界面,极大地简化了数据权限的管理,统一的权限管理降低了学习成本,非常易于使用。 Apache Ranger:一个用于在整个Hadoop平台上使用,用来监视和管理全面的数据安全性的框架。主要是提供一个集中式安全管理框架, 并解决授权和审计问题。 特点:集中式安全管理,可在Web UI或使用REST API管理所有与安全相关的任务;基于策略(Policy-Based
  • HDP安全架构
    HDP安全概述安全性对于在Hadoop生态系统中存储和处理敏感数据的组织来说至关重要。许多组织必须遵守严格的企业安全策略。Hadoop是一个用于数据存储和使用商品服务器对集群进行大规模处理的分布式框架。向Hadoop添加安全性具有挑战性,因为并非所有的交互都遵循传统的客户端 - 服务器模式。在Hadoop中,文件系统是分区和分布式的,需要在多个点进行授权检查。一、提交的作业后,在与客户端验证并提交作业的节点不同的节点上执行。二、次要服务,如工作流系统代表用户访问Hadoop。三、Hadoop集群扩展到数千台服务器和数万个并发任务。Hadoop供电的“Data Lake”可以为新一代大数据分析和洞察提供坚实的基础,但也可以增加对组织数据的访问点数量。随着不同类型的企业数据被集中到中央存储库中,固有的安全风险可能增加。Hortonworks了解每个业务的安全和治理的重要性。为了确保客户的有效保护,Hortonworks使用基于五个核心安全功能的整体方法:一、管理二、身份验证和外围安全三、授权四、审计五、数据保护理解hadoop 数据池的安全性几乎每个行业的普遍共识是,数据是竞争优势的一个重要的新驱动力。 Hadoop通过提供低成本,大规模的数据存储和处理在现代数据架构中发挥关键作用。成功的Hadoop旅程通常从数据架构优化或新的高级分析应用程序开始,这导致形成所谓的Data Lake
  • HDP安全架构
    HDP安全概述安全性对于在Hadoop生态系统中存储和处理敏感数据的组织来说至关重要。许多组织必须遵守严格的企业安全策略。Hadoop是一个用于数据存储和使用商品服务器对集群进行大规模处理的分布式框架。向Hadoop添加安全性具有挑战性,因为并非所有的交互都遵循传统的客户端 - 服务器模式。在Hadoop中,文件系统是分区和分布式的,需要在多个点进行授权检查。一、提交的作业后,在与客户端验证并提交作业的节点不同的节点上执行。二、次要服务,如工作流系统代表用户访问Hadoop。三、Hadoop集群扩展到数千台服务器和数万个并发任务。Hadoop供电的“Data Lake”可以为新一代大数据分析和洞察提供坚实的基础,但也可以增加对组织数据的访问点数量。随着不同类型的企业数据被集中到中央存储库中,固有的安全风险可能增加。Hortonworks了解每个业务的安全和治理的重要性。为了确保客户的有效保护,Hortonworks使用基于五个核心安全功能的整体方法:一、管理二、身份验证和外围安全三、授权四、审计五、数据保护理解hadoop 数据池的安全性几乎每个行业的普遍共识是,数据是竞争优势的一个重要的新驱动力。 Hadoop通过提供低成本,大规模的数据存储和处理在现代数据架构中发挥关键作用。成功的Hadoop旅程通常从数据架构优化或新的高级分析应用程序开始,这导致形成所谓的Data Lake
  • 从入门到精通 - Fayson带你玩转CDH
    Fayson保持每天推一篇文章,本文随之每天更新。 以下所有文章均为超链接,可以直接点击文章名跳转。 还没附上超链接的文章是还没上传的,会再后续更新后陆续补上 1.规划设计 1.1.on-premise部署规划 0001-《CDH网络要求(Lenovo参考架构)》 0062-《如何为Hadoop集群选择正确的硬件》 0158-《如何给Hadoop集群划分角色》 1.2.on private cloud部署规划 0200- 《如何在VMware上部署Hadoop》 1.3.on public cloud部署规划 0195- 《公有云中的Hadoop》 2.安装/升级/卸载 2.1.安装 0002-《CENTOS7.2安装CDH5.10和Kudu1.2》 0024-《CENTOS6.5安装CDH5.12.1(一)》 0025-《CENTOS6.5安装CDH5.12.1(二)》 0030-《如何在CDH中安装Kudu&Spark2&Kafka》 0072-《CDH安装前置准备》 0073-《CentOS6.5安装CDH5.13》 0167-《如何在Redhat7.3安装CDH5.14》 0270- 《如何在Redhat7.4安装CDH6.0.0_beta1》 0317- 《如何在Redhat7.4安装CDH5.15》 0377- 《如何在Redhat7.4安装CDH6.0》 0470-
  • 详解Linux运维工程师高级篇(大数据安全方向)
    详解linux运维工程师高级篇(大数据安全方向)简介: 从运维青铜到运维白银再到运维黄金,这里就要牵扯到方向问题也就是装备,根据自己的爱好,每个人都应该选择一个适合自己和喜欢自己的一个职业技术方向,如:大数据安全,开发运维,云计算运维等等。而掌握的越多前言技术也就是更多的装备,才能更好的在it行业混下去,毕竟it技术更新太快,初级篇和中级篇前面已介绍。初级篇:详解Linux运维工程师入门必备技能(青铜) 中级篇:详解Linux运维工程师打怪升级篇(白银) 现在给大家介绍大数据安全的正式面目:1.大数据基本组件2. Hadoop安全背景 共享集群 按照业务或应用的规则划分资源队列,并分配给特定用户 HDFS上存放各种数据,包括公共的、机密的 安全认证:确保某个用户是自己声称的那个用户 安全授权:确保某个用户只能做他允许的那些操作3. 设备说明服务IP主机名系统AmbariKerberos192.168.2.140hdp140CentOS 7.3namenode192.168.2.141hdp141CentOS 7.3datanode192.168.2.142hdp142CentOS 7.3datanode192.168.2.143hdp143CentOS 7.34. kerberos基本概念: Principal(安全个体):被认证的个体,有一个名字和口令 KDC
  • CDH6 开启kerberos Hive的Sentry 用户权限分配
    原理内容来之https://developer.aliyun.com/article/25491 Sentry简介: Apache Sentry是Cloudera公司发布的一个Hadoop开源组件,截止目前还是Apache的孵化项目,它提供了细粒度级、基于角色的授权以及多租户的管理模式。Sentry当前可以和Hive/Hcatalog、Apache Solr 和Cloudera Impala集成,未来会扩展到其他的Hadoop组件,例如HDFS和HBase。 安全授权:Sentry可以控制数据访问,并对已通过验证的用户提供数据访问特权。 细粒度访问控制:Sentry支持细粒度的Hadoop数据和元数据访问控制。在Hive和Impala中Sentry的最初发行版本中,Sentry在服务器、数据库、表和视图范围提供了不同特权级别的访问控制,包括查找、插入等,允许管理员使用视图限制对行或列的访问。管理员也可以通过Sentry和带选择语句的视图或UDF,根据需要在文件内屏蔽数据。 基于角色的管理:Sentry通过基于角色的授权简化了管理,你可以轻易将访问同一数据集的不同特权级别授予多个组。 多租户管理:Sentry允许为委派给不同管理员的不同数据集设置权限。在Hive/Impala的情况下,Sentry可以在数据库/schema级别进行权限管理。 统一平台:Sentry为确保数据安全
  • Apache Ranger 统一授权管理框架(一)编译安装
    一、Apache Ranger是什么? Apache Ranger是一个框架,Hadoop上对于保护数据安全性的安全框架。用于在整个Hadoop平台上启用,监视和管理全面的数据安全性。 二、特性 Apache Ranger具有以下特性: 集中式安全管理,可在中央UI或使用REST API管理所有与安全相关的任务。 使用Hadoop组件/工具执行特定操作和/或操作的精细授权,并通过中央管理工具进行管理 跨所有Hadoop组件标准化授权方法。 增强了对不同授权方法的支持-基于角色的访问控制,基于属性的访问控制等。 在Hadoop的所有组件中集中审核用户访问和管理操作(与安全性相关)。 三、ranger内部结构 1、包含的组件如下: Ranger Admin 用户管理策略,提供WebUI和RestFul接口 Ranger UserSync 用于将Unix系统或LDAP用户/组同步到RangerAdmin Ranger TagSync 同步Atlas中的Tag信息 Ranger KMS 2、依赖的组件如下: JDK 运行RangerAdmin RangerKMS RDBMS 1.存储授权策略 2.存储Ranger 用户/组 3.存储审核日志 Solr(可选) 存储审核日志 HDFS(可选) 存储审核日志 Kerberos(可选) 确保所有请求都被认证 3 来源:https:/
  • 回顾·基于Impala平台打造交互查询系统
    本文根据网易大数据蒋鸿翔老师DataFun Talk——“大数据从底层处理到数据驱动业务”中分享的《基于Impala平台打造交互查询系统》编辑整理而成,在未改变原意的基础上稍做整理。下面是今天分享的内容大纲,第一个讲一下交互式查询的特点,在大数据平台有很多查询平台可以选择,第二个讲一下依据项目如何选择平台,选型因素是什么。第三个讲一下Impala基本介绍,以及在Impala上的改进。接下来是impala的应用场景,最后介绍下Impala底层数据流,应用场景解析以及存在的一些问题。交互查询特点第一个就是数据量庞大,第二个关系模式相对比较复杂,依据你的设计不同,关系模式有很多种类。还有一个就是响应时间要求较高,对于对于绝大数要求查询返回时间在10秒以下;依据数据量的不同选择不同的存储,对于百万级数据采用MySQL,PostgreSQL,对于百万-百亿级别,传统数据库无法满足,采用分析性数据仓库实现Impala,Presto, Green Plum, Apache Drill;百亿级别以上很难做大数据分析,采用离线数据仓库,采用hive,spark。对于BE系统很多实用宽表做,因为其维度很多,一个用户经过慢慢信息积累可能会有几百个维度,假如对一个50个维度进行过滤,利用宽表结合一些特殊数据结构如倒排就会很容易实现。Elastic Search, Solr是搜索引擎,Click
  • 使用Apache Ranger提供授权 -- 02
    文章目录 基于资源的服务和策略配置资源的服务配置一个基于资源的服务:HBase配置一个基于资源的服务:HDFS配置一个基于资源的服务:Hive配置一个基于资源的服务:Kafka配置一个基于资源的服务:Knox配置一个基于资源的服务:Solr配置一个基于资源的服务:Storm配置一个基于资源的服务:YARN配置一个基于资源的服务:Atlas 配置资源的策略配置一个基于资源的策略:HBase配置一个基于资源的策略:HDFS配置一个基于资源的策略:Hive配置一个基于资源的策略:Kafka配置一个基于资源的策略:Knox配置一个基于资源的策略:Solr配置一个基于资源的策略:Storm配置一个基于资源的策略:YARN配置一个基于资源的策略:Atlas基于资源的策略中的通配符和变量 基于资源的导入导出策略为特定服务导入基于资源的策略为所有服务导入基于资源的策略导出特定服务的基于资源的策略导出所有服务的所有基于资源的策略 在Hive中的行级过滤和列屏蔽Hive行级过滤与Ranger策略Hive动态资源为基础的列屏蔽与Ranger策略Hive动态标签为基础的列屏蔽与Ranger策略 使用Apache Ranger提供授权 – 01 基于资源的服务和策略 配置资源的服务 当您登录到Ranger控制台时,将显示基于资源的策略的服务管理器页面。您也可以通过选择Access Manager >
  • Dataproc
    Dataproc Dataproc 是一项具有高度可伸缩性的全代管式服务,用于运行 Apache Spark、Apache Flink、Presto 和 30 多个开源工具和框架。使用 Dataproc 可以大规模实现数据湖现代化改造、ETL 和安全数据科学,并且 Dataproc 与 Google Cloud 全面集成,经济实惠。 免费试用 Dataproc 开放:按需构建全代管式开源集群,与数据湖元存储区集成灵活:混合式 OSS 和 GCP 原生服务,且跨平台紧密集成可控:使用 Dataproc Hub 实现可伸缩、安全且经济实惠的开源数据科学安全:配置高级安全设置,例如 Kerberos、Apache Ranger 和[个人身份验证](https://cloud.google.com/dataproc/docs/concepts/iam/personal-auth?skip_cache=true#:~:text=Dataproc Personal Cluster Authentication is,with a Credential Access Boundary.)经济高效:与按秒计价的本地数据湖相比,可将 TCO 费用降低 57% 优势 对开源数据处理进行现代化改造 无论您需要虚拟机还是 Kubernetes、额外的 Presto 内存,甚至 GPU,Dataproc
  • 大数据常用开源框架
    转自:数据社 主要基于对现阶段一些常用的大数据开源框架技术的整理,只是一些简单的介绍,并不是详细技术梳理。可能会有疏漏,发现再整理。参考的太多,就不一一列出来了。这只是作为一个梳理,对以后选型或者扩展的做个参考。 目录 系统平台 (Hadoop、CDH、HDP) 监控管理 (CM、Hue、Ambari、Dr.Elephant、Ganglia、Zabbix、Eagle) 文件系统 (HDFS、GPFS、Ceph、GlusterFS、Swift 、BeeGFS、Alluxio) 资源调度 (YARN、Mesos、) 协调框架 (ZooKeeper 、Etcd、Consul) 数据存储 (HBase、Cassandra、ScyllaDB 、MongoDB、Accumulo 、Redis 、Ignite、Arrow 、Geode、CouchDB、Kudu、CarbonData) 数据处理 (MapReduce、Spark、Flink、Storm、Tez、Samza、Apex、Beam、Heron) 查询分析(Hive、SparkSQL、Presto、Kylin、Impala、Druid、ElasticSearch、HAWQ、Lucene、Solr、 Phoenix) 数据收集 (Flume、Filebeat、Logstash、Chukwa ) 数据交换 (Sqoop 、Kettle
  • CDH配置Kerberos和Sentry (超详细)
    1.安全之Kerberos安全认证 1 Kerberos概述 1.1 什么是Kerberos Kerberos是一种计算机网络授权协议,用来在非安全网络中,对个人通信以安全的手段进行身份认证。这个词又指麻省理工学院为这个协议开发的一套计算机软件。软件设计上采用客户端/服务器结构,并且能够进行相互认证,即客户端和服务器端均可对对方进行身份认证。可以用于防止窃听、防止重放攻击、保护数据完整性等场合,是一种应用对称密钥体制进行密钥管理的系统。 Kerberos不是k8s,Kubernetes简称k8s,是一个开源的,用于管理云平台中多个主机上的容器化的应用,跟我们今天学的Kerberos是两回事,大家切记一定不要搞混。 1.2 Kerberos概念 Kerberos中有以下一些概念需要了解: 1)KDC:密钥分发中心,负责管理发放票据,记录授权。 2)Realm:Kerberos管理领域的标识。 3)principal:当每添加一个用户或服务的时候都需要向kdc添加一条principal,principl的形式为:主名称/实例名@领域名。 4)主名称:主名称可以是用户名或服务名,表示是用于提供各种网络服务(如hdfs,yarn,hive)的主体。 5)实例名:实例名简单理解为主机名。 关于 Kerberos 更多的原理讲解可参考以下链接: https://cloud.tencent
  • CDH大数据平台集成Apache Ranger安全管理框架解决方案
    一、总体解决方案 基于apache Ranger开源项目源代码进行二次开发,实现支持CDH集成的Ranger安全管理系统。另外需要在CDH管理界面上配置部分参数。 本文档经过测试验证的CDH和ranger版本: CDH版本:6.3.2 Apache Ranger版本:2.0.0 二、ranger插件公共模块agent-common修改 1、配置文件处理 问题描述: CDH在重启组件服务时为组件服务独立启动进程运行,动态生成运行配置文件目录和配置文件,ranger插件配置文件部署到CDH安装目录无法被组件服务读取到。 解决办法: 基于ranger 源代码二次开发,在agents-common模块org.apache.ranger.plugin.service .RangerBasePlugin类init()方法内部开始处插入copyConfigFile()方法调用,并定义copyConfigFile()方法,实现复制ranger配置文件到CDH组件服务的运行配置文件目录: private void copyConfigFile() { String serviceHome = "CDH_" + this.serviceType.toUpperCase() + "_HOME"; if ("CDH_HDFS_HOME".equals(serviceHome)) { serviceHome
  • 在CDH 6 中安装Sentry服务
    趁我未失忆之前,记录过去曾经的自己 文章目录 前言一、Sentry是什么?1.Sentry介绍2.最佳性能 二、添加Sentry服务与各组件集成配置1.Sentry服务安装 前言 在当要对某些用户在hive上操作可以对某些表或是数据的权限做控管时,就需要安装Sentry。通常会一起搭配Kerberos。cdh版本的hadoop在对数据安全上的处理通常采用Kerberos+Sentry的结构。kerberos主要负责平台用户的用户认证,sentry则负责数据的权限管理。 一、Sentry是什么? 1.Sentry介绍 Apache Sentry是Cloudera公司发布的一个Hadoop开源组件。Sentry为Hadoop集群上的经过身份验证的用户和应用程序提供了控制和实施数据特权级别的功能。目前Sentry当前可以与Apache Hive,Hive Metastore / HCatalog,Apache Solr,Impala和HDFS(仅限于Hive表数据)一起使用。Sentry被设计为Hadoop组件的可插入授权引擎。 它允许您定义授权规则,以验证用户或应用程序对Hadoop资源的访问请求。 Sentry是高度模块化的,可以支持对Hadoop中各种数据模型的授权。官网介绍 2.最佳性能 从官方网站上阐述有几点关于性能,要注意事项: 创建roles
  • 【2017年第1期】CCF大专委2017年大数据发展趋势预测
    周涛1,潘柱廷1,杨婧2,程学旗2 启明星辰信息技术有限公司,北京 100193; 中国科学院计算技术研究所,北京 100190 Developing tendency prediction of big data in 2017 from CCF TFBD ZHOU Tao, PAN Zhuting, YANG Jing, CHENG Xueqi 中图分类号:TP399 文献标识码:A doi:10.11959/j.issn.2096-0271.2017012 1 引言 2016年中国大数据技术大会(BDTC)于2016年12月8日在北京召开,在此次大会上发布了CCF大数据专家委员会(以下简称大专委)关于未来一年的大数据发展趋势预测,已成为每年大会的保留节目,也成为大专委的一项品牌活动。2017年的趋势报告一经发布,就引发了业界的广泛关注和持续传播。 本次大数据发展趋势预测经历了候选项征集和正式投票两个环节,最终形成的预测选项包括67项发展趋势选项和9项专项调研选项,投票范围面向大专委的正式委员和通讯委员。本次活动共收到有效投票82份,通过对这些投票的汇总、整理和解读,形成了本次对外发布的年度预测,这是大专委群体智慧的结晶。 任何形式的解读都难免掺杂解读者主观因素的影响。下面根据2016年的投票结果,对比往年的趋势预测情况,尽量从客观的角度对本次活动形成的趋势预测选项进行解读
  • CDH6 配置LDAP,Kerberos,Sentry
    CDH6 配置LDAP,Kerberos,Sentry 1. 开启Sentry 控制Hive,Hue,Impala权限 仅用作个人笔记,还没有二次验证 1.1 在mysql中配置数据库 [root@cdh1 ~]# mysql -uroot -p //登陆mysql mysql> CREATE DATABASE sentry DEFAULT CHARACTER SET utf8; //创建sentry库 mysql> grant all on sentry.* to 'sentry'@'%' identified by '123456'; //密码为123456 CREATE USER 'cdh'@'%' IDENTIFIED BY '123456'; mysql> flush privileges; //刷新使生效 可能会报错:ERROR 1819 (HY000): Your password does not satisfy the current policy requirements 是mysql默认密码安全等级过高 ,修改下等级即可(我的调整为6位) mysql> SHOW VARIABLES LIKE 'validate_password%'; +--------------------------------------+--------+ | Variable
  • 0634-6.2.0-如何在CDH中安装Sentry服务
    Fayson的github: https://github.com/fayson/cdhproject 推荐关注微信公众号:“Hadoop实操”,ID:gh_c4c535955d0f 1 安装前置 确认满足以下前置: 1.CM/CDH5.1.0或以上。 2.如果需要配置Sentry高可用,需要使用CM/CDH5.13.0以上。 3.如果需要配置Sentry高可用,需要准备一个关系型数据库用以保存Sentry的权限信息,而不是一个平面文件(flat file)。 4.使用的Java必须已经修复JDK-8055949。 https://bugs.openjdk.java.net/browse/JDK-8055949 5.HiveServer2和Hive Metastore(HMS)必须以强认证的方式运行。对于HiveServer2,强认证你可以选择Kerberos或者LDAP。对于Hive Metastore,只有Kerberos才是强认证的方式。 6.如果你需要将Impala与Sentry一起集成使用。Impala必须是1.4.0或更高版本,并且以强认证的方式运行。对于Impala,强认证你可以选择Kerberos或者LDAP。 7.如果你需要将Solr与Sentry一起集成使用,Sentry服务必须配置数据库。从CDH5.1.0开始才支持Solr,以下是不同版本的一些不同的特性:
  • ambari开启kerberos
    网上一些跟Ambari启用Kerberos,看似很简单,但实际按照这个配置,遇到的问题连解决方案都不好找。启用了kerberos,想要也没有那么简单,ambari关闭kerberos,大数据集群起都起不来,因为有些内容还得手工删除,真是骑虎难下。我之前开启了ranger,比较简单。后来想着kerberos也一样,于是也起来,结果发现安全模式下,会更改ambari的一些配置,导致一堆报错 Remove ats-hbase before switching between clusters,出了问题找这篇文章,才知道切换之前应该先卸载ats-hbase,可是大多数文章都不会有这些。 Ambari集群启用Kerberos安全认证 这里说把 krb5.conf kadm5.acl kdc.conf 复制到另外机器上,实际只需要复制一个krb5.conf就可以,其他两个在客户端机器上不会有影响。 在ambari中查看Tez Service Check,发现检查失败检查的原因也是yarn resouce manager 没有起来造成的 检查yarn的配置,发现Advanced y 来源:https://blog.csdn.net/warrah/article/details/113026314
  • 大数据方面的核心技术
    目录 分类1 一、大数据采集 二、大数据预处理 三、大数据存储 四、大数据分析挖掘 分类2 ​一、数据采集与预处理 二、数据存储 三、数据清洗 四、数据查询分析 五、数据可视化 分类1 简单来说,从大数据的生命周期来看,无外乎四个方面:大数据采集、大数据预处理、大数据存储、大数据分析,共同组成了大数据生命周期里最核心的技术,下面分开来说: 一、大数据采集 大数据采集,即对各种来源的结构化和非结构化海量数据,所进行的采集。 数据库采集:流行的有Sqoop和ETL,传统的关系型数据库MySQL和Oracle 也依然充当着许多企业的数据存储方式。当然了,目前对于开源的Kettle和Talend本身,也集成了大数据集成内容,可实现hdfs,hbase和主流Nosq数据库之间的数据同步和集成。网络数据采集:一种借助网络爬虫或网站公开API,从网页获取非结构化或半结构化数据,并将其统一结构化为本地数据的数据采集方式。文件采集:包括实时文件采集和处理技术flume、基于ELK的日志采集和增量采集等等。 二、大数据预处理 大数据预处理,指的是在进行数据分析之前,先对采集到的原始数据所进行的诸如“清洗、填补、平滑、合并、规格化、一致性检验”等一系列操作,旨在提高数据质量,为后期分析工作奠定基础。数据预处理主要包括四个部分:数据清理、数据集成、数据转换、数据规约。 数据清理:指利用ETL等清洗工具
  • cloudera,cdh, hive,impala,Kerberos
    Impala 认证现在可以通过 LDAP 和 Kerberos 联合使用来解决 Impala 是基于 Apache Hadoop 的一个开源的分析数据库,使用 Kerberos 和 LDAP 来支持认证 。Kerberos 在1.0版本中就已经被支持了,而 LDAP 是最近才被支持,在 CDH 5.2 中,你能够同时使用两者。 Kerberos Kerberos 仍然是 Apache Hadoop 的主要认证机制。 principal 是 Kerberos 主体,就要一个用户或者一个守护进程。对于我们来说,一个 principal 对于守护进程来说是name/hostname@realm,或者对于用户来说仅仅是name@realm。name 字段可能是一个进程,例如impala,或者是一个用户名,例如 myoder`。hostname 可能是一个机器的全名称,或者是一个 Hadoop 定义的_HOST 字符串,通常会机器全名称自动替换。realm 类似于(但不必要和其一样)一个 DNS 域名 组合后比如:principal=impala/jiangnandev.nam.nsroot.net@jiangnan.DYN.NSROOT.NET 在 Impala 中对 Kerberos 基本的支持很简单:提供以下参数,守护程序将使用给定的主体和 key