企业快速开发平台Spring Cloud+Spring I_ SparkCore之Partitiion(企业应用快速开发平台)

fangcloud 530 2022-06-07

本文转载自网络公开信息

1.概念 首先先了解一下Spark RDD,Spark RDD是一种分布式的数据集,但是由于数据量很大,因此要它被切分并存储在各个结点的分区当中,这个“分区”就是Partition-

需要框架源码的朋友可以微信我: 445909108

RDD包含多个Partition

如图RDD1就包含了4个Partition,RDD2包含了两个Partition

分区Partition定义: partition 是弹性分布式数据集RDD的最小单元 partition 是指的spark在计算过程中,生成的数据在计算空间内最小单元 同一份数据(RDD)的partition 大小不一,数量不定,是根据application里的算子和最初读入的数据分块数量决定的 2.Spark Core的数据分区方式 HashPartitioner(哈希分区) RangePartitioner(范围分区) 2.1.HashPartitioner HashPartitioner采用哈希的方式对键值对数据进行分区 分区规则 公式:partitionId = Key.hashCode % numPartitions 解释 partitionId代表该Key对应的键值对数据应当分配到的Partition标识 Key.hashCode表示该Key的哈希值 numPartitions表示包含的Partition个数 缺点 会带来分区数据不均衡的问题也就是分区倾斜 因为可能出现很多数据通过公式全部都得到相同的partitionId,也就是在某些分区数据很多,但是其他分区数据相对较少 这样会影响性能,举个极端的例子:当所有数据通过哈希分区结果全部都被划分到同一个分区,这就相当于没有分区了 2.2.RangePartitioner 出现的原由 目的是为了解决HashPartitioner所带来的分区倾斜问题 RangePartitioner基于抽样的思想来对数据进行分区 如图

本站部分文章、图片属于网络上可搜索到的公开信息,均用于学习和交流用途,不能代表亿方云的观点、立场或意见。我们接受网民的监督,如发现任何违法内容或侵犯了您的权益,请第一时间联系小编邮箱daifeng@360.cn 处理。
上一篇:一组数据读懂“2021中国民营企业500强”(2021中国民营企业500强发布)
下一篇:网盘排行榜(2022网盘十大品牌排行榜)
相关文章

 发表评论

暂时没有评论,来抢沙发吧~