大数据HCIA补充

发布于:2024-12-07 ⋅ 阅读:(146) ⋅ 点赞:(0)

大数据HCIP-1128解决方案场景应用

大数据是价值密度较低的海量数据,所以分析和挖掘数据价值就非常重要

Ranger_Security (Kerbors + LDAP)

北向接口==给接口 被别的平台进行管理

南向接口==可以管理别的平台

大数据离线批处理场景

hbase 表如果删除,会需要做什么操作?

disable 停用表

round()--返回近似值(四舍五入)。

abs()--计算绝对值。

to_date( )-- yyyy-MM-dd HH:MM:ss 截取日期。

current_date--获取当前日期,当前是 2019-07-28。

trim( )--去除空字符串。

length( )--求字符串长度。

substr( )--字符串截取。

迭代计算 RDD、DS、DF

窄依赖遇到宽依赖就shuffle 每个stage在一台云主机 一对多shuffle

spark读取任务参数的优先级 从上层到底层

WD = D N

spark2.0提供了统一接口sparksession

相当于一种编程语言 通过语言调用函数操作数据处理工作

DataSet不需要反序列化,RDD需要

看到SQL就想到处理结构化数据 sparksql高端的离线处理引擎

电商大数据用户分析实战框架

大数据实时检索场景

也是大数据实时检索场景特点

实时检索

检索响应速度要求

同时处理线程数

海量数据

支持结构化非结构化数据(序列化信息检索 图片等小文件检索)

加载数据效率要求

所以还要支持检索

解决方案

HBaes -- 离线批处理

ES -- 实时检索 流式处理

GES -- 引擎 图数据支持

实时检索引擎中

组件包括HBaes列式数据库ES实时搜索引擎GES图搜索引擎

实时检索 组件
HBaes

分布式 NoSQL 面向

适合储存大表 支持实时读写大表数据

表结构稀疏

数据底层存放在Hadoop生态的分布式文件系统HDFS中

需要ZooKeeper的高可用协同服务

HBase系统架构 (与ZK和HDFS协同)

客户端命令、Phoenix SQL、Java API、HiveSQL都可以操作HBase的数据

HBase是一个分布式、可扩展的大数据存储系统,它是建立在Hadoop文件系统(HDFS)之上的NoSQL数据库。以下是对每个选项的分析:

A. 需要ACID特性:HBase支持行级的ACID特性,但是对于跨行的事务支持有限。如果应用场景需要复杂的事务处理,HBase可能不是最佳选择。

B. 海量数据存储:HBase非常适合用于海量数据存储,这是它的主要优势之一。

C. 主键查询:HBase支持快速的主键查询,因为它的数据模型是基于行键的。

D. 大文件,视频等:HBase不是为存储大文件或视频设计的。它主要用于存储结构化或半结构化的大数据,并且每个单元(cell)的数据量通常较小。

ElasticSearch

基于Lucene全文检索服务

一个分布式restful风格搜索和数据分析引擎也可以作为NoSQL数据库使用

支持水平扩展

支持结构化非结构化数据

倒排索引 通过valuekey 通过关键词找到相应文档 全文检索

整体结构

核心概念

Document 文档 是可以被索引的基本单位

GES

基于HBaes和ES的分布式数据库

横向扩展

不存在无向

技术原理

基于HBaes分布式储存机制支持处理海量数据

基于spark分布式内存计算快速导入

基于ES索引机制


网站公告

今日签到

点亮在社区的每一天
去签到