大数据培训课程之countByKey()案例

发布于:2022-12-19 ⋅ 阅读:(495) ⋅ 点赞:(0)

大数据培训课程saveAsObjectFile(path) 

作用:用于将RDD中的元素序列化成对象,存储到文件中。

 大数据培训课程 countByKey()案例

作用:针对(K,V)类型的RDD,返回一个(K,Int)的map,表示每一个key对应的元素个数。

需求:创建一个PairRDD,统计每种key的个数

(1)创建一个PairRDD

scala> val rdd = sc.parallelize(List((1,3),(1,2),(1,4),(2,3),(3,6),(3,8)),3)

rdd: org.apache.spark.rdd.RDD[(Int, Int)] = ParallelCollectionRDD[95] at parallelize at <console>:24

(2)统计每种key的个数

scala> rdd.countByKey

res63: scala.collection.Map[Int,Long] = Map(3 -> 2, 1 -> 3, 2 -> 1)

 大数据培训课程 foreach(func)案例

作用:在数据集的每一个元素上,运行函数func进行更新。

需求:创建一个RDD,对每个元素进行打印

(1)创建一个RDD

scala> var rdd = sc.makeRDD(1 to 5,2)

rdd: org.apache.spark.rdd.RDD[Int] = ParallelCollectionRDD[107] at makeRDD at <console>:24

(2)对该RDD每个元素进行打印

scala> rdd.foreach(println(_))

3

4

5

1

2

想要了解跟多关于大数据培训课程内容欢迎关注尚硅谷大数据培训,尚硅谷除了这些技术文章外还有免费的高质量大数据培训课程视频供广大学员下载学习。 


网站公告

今日签到

点亮在社区的每一天
去签到