大数据HCIP-1128解决方案场景应用
大数据是价值密度较低的海量数据,所以分析和挖掘数据价值就非常重要
Ranger_Security (Kerbors + LDAP)
北向接口==给接口 被别的平台进行管理
南向接口==可以管理别的平台
大数据离线批处理场景
hbase 表如果删除,会需要做什么操作?
disable 停用表
round()--返回近似值(四舍五入)。
abs()--计算绝对值。
to_date( )-- yyyy-MM-dd HH:MM:ss 截取日期。
current_date--获取当前日期,当前是 2019-07-28。
trim( )--去除空字符串。
length( )--求字符串长度。
substr( )--字符串截取。
迭代计算 RDD、DS、DF
窄依赖遇到宽依赖就shuffle 每个stage在一台云主机 一对多shuffle
spark读取任务参数的优先级 从上层到底层
WD = D N
spark2.0提供了统一接口sparksession
相当于一种编程语言 通过语言调用函数操作数据处理工作
DataSet不需要反序列化,RDD需要
看到SQL就想到处理结构化数据 sparksql高端的离线处理引擎
电商大数据用户分析实战框架
大数据实时检索场景
也是大数据实时检索场景的特点
实时检索
检索响应速度要求高
同时处理的线程数多
海量数据
要支持结构化与非结构化数据(序列化信息检索 图片等小文件检索)
加载数据效率要求大
所以还要支持图检索
解决方案
HBaes -- 离线批处理
ES -- 实时检索 流式处理
GES -- 图引擎 图数据支持
实时检索引擎中
组件包括:HBaes列式数据库、ES实时搜索引擎、GES图搜索引擎
实时检索 组件
HBaes
分布式 NoSQL 面向列
适合储存大表 支持实时读写大表数据
表结构稀疏
数据底层存放在Hadoop生态的分布式文件系统HDFS中
需要ZooKeeper的高可用协同服务
HBase系统架构 (与ZK和HDFS协同)
客户端命令、Phoenix SQL、Java API、HiveSQL都可以操作HBase的数据
HBase是一个分布式、可扩展的大数据存储系统,它是建立在Hadoop文件系统(HDFS)之上的NoSQL数据库。以下是对每个选项的分析:
A. 需要ACID特性:HBase支持行级的ACID特性,但是对于跨行的事务支持有限。如果应用场景需要复杂的事务处理,HBase可能不是最佳选择。
B. 海量数据存储:HBase非常适合用于海量数据存储,这是它的主要优势之一。
C. 主键查询:HBase支持快速的主键查询,因为它的数据模型是基于行键的。
D. 大文件,视频等:HBase不是为存储大文件或视频设计的。它主要用于存储结构化或半结构化的大数据,并且每个单元(cell)的数据量通常较小。
ElasticSearch
基于Lucene的全文检索服务
一个分布式的restful风格的搜索和数据分析引擎,也可以作为NoSQL数据库使用
支持水平扩展
支持结构化和非结构化数据
倒排索引 通过value找key 通过关键词找到相应的文档 全文检索
整体结构
核心概念
Document 文档 是可以被索引的基本单位
GES
基于HBaes和ES的分布式图数据库
可横向扩展
不存在无向边
技术原理
基于HBaes分布式储存机制,支持处理海量数据
基于spark分布式内存计算,快速导入
基于ES的索引机制