目录
Flink为什么用aggregate()不用process()
自定义UDF, UDTF实现步骤,有哪些方法?UDTF中的ObjectInspector了解吗?
Spark自定义Partitioner 实现里面要求的方法 具体是哪几个方法?
给出快速排序和归并排序算法的平均时间复杂度和最坏情况时间复杂度
描述图的深度优先搜索(DFS)和广度优先搜索(BFS)算法的实现细节
详细讲述spark提交一个程序的整体执行流程,包括向yarn申请资源、DAG切割、TaskScheduler、执行task等过程
自定义UDF,UDTF,UDAf讲一下这几个函数的区别,编写的时候要继承什么类,实现什么方法
sparksql调优的方法依赖日志诊断,具体不同情况如何根据日理去调优
Spark Streaming的工作机制。Spark的工作机制,怎么绘制DAG的?
Spark Streaming的双流join的过程,怎么做的?讲一下。
1. 使用 CREATE TEMPORARY TABLE 语句
2. 使用 CREATE TABLE AS SELECT (CTAS)
介绍一下group by max在hive的实现原理(从mr介绍一下过程),map阶段在干什么事情
HIVE窗口函数lead、lag、first_value、last_value的区别
说一下你们公司的数据是怎么分层处理的,每一层都解决了什么问题
讲几个你工作中常用的spark 或者hive 的参数,以及这些参数做什么用的
count(1)如果其中有Null值,和count()一样吗,为什么
mapreduce和spark处理distinct去重操作的执行计划以及原理
ngnix,负载均衡用的是哪个策略?iphash还是最小连接,还是权重?
码入MySQL这块怎么做的?你是通过什么往里面写数据的?要监听mysql要开始row模式吗?
ZK的ZAB选举算法。他的一个选举算法。ZK里的节点类型有几种?
HBase的架构。region主要是用来管理最终table的一个存储。Store里面又有什么呢?
RowKey的设计原则?为什么不能超过一定的长度?为什么要唯一?rowkey太长会影响Hfile的存储是吧?Hfile里面会有memstore,是占内存里的,太长的话放不了太多数据,减慢检索效率。
Consumer Group中Consumer和Partition的对应关系
Kafka支持什么语义(三种语义),怎么实现Exactly Once
讲一下spark是如何将一个sql翻译成代码执行的,里面的原理介绍一下?
spark 程序里面的count distinct 具体是如何执行的
hadoop reduce怎么知道去哪里拉去task任务结果
id department salary manager_id 找出员工薪水比领导薪水高的人员
有这样一个需求,统计一个用户的已经曝光了某一个页面,想追根溯是从哪几个页面过来的,然后求出在这几个来源所占的比例。你要怎么建模处理?
n*m的带有数字的矩阵,从左上角走到右下角,问最短的路径上经过的数字的和是多少?
2. student course score 找出哪些学生课程比平均课程成绩高?
Flink为什么用aggregate()
不用process()
在Apache Flink中,aggregate()
和process()
是两种不同的操作方式。aggregate()
主要用于对流或批处理数据进行聚合操作,而process()
则提供了更高级的事件处理能力,允许用户自定义如何处理每个元素。
为什么使用aggregate()
简化聚合操作:
aggregate()
函数通常用于简单的聚合场景,例如计算流数据的总和、平均值等。它简化了常见的聚合操作,使得代码更加简洁易读。性能优势: 使用
agg