大数据中Spark数据倾斜表现及解决方案是什么-快上网网站建设公司

大数据中Spark数据倾斜表现及解决方案是什么

今天就跟大家聊聊有关大数据中Spark数据倾斜表现及解决方案是什么，可能很多人都不太了解，为了让大家更加了解，小编给大家总结了以下内容，希望大家根据这篇文章可以有所收获。

我们提供的服务有：成都做网站、网站制作、微信公众号开发、网站优化、网站认证、北海街道ssl等。为1000+企事业单位解决了网站和推广的问题。提供周到的售前咨询和贴心的售后服务，是有科学管理、有技术的北海街道网站制作公司

数据倾斜描述

Spark数据倾斜表现

Spark引擎的大部分task执行时间比较一致，但是存在一些task的执行时间特别长，例如，500个task，其中498个执行较快，10分钟执行完成，剩余的两个task需要执行半个小时以上。
例行化执行的代码，某一天发生OOM问题，大概率是有数据倾斜了。

数据倾斜产生的原因是：shuffle的时候，需要将各个节点的相同的key拉取到同一个节点上，如果这个key对应的数据量非常大的时候，就会发生数据倾斜。

数据倾斜只会发生在shuffle过程中，Spark引擎会触发Shuffle的RDD算子有：distinct、repartition、reduceByKey、groupByKey、aggregateByKey、join

常见解决方案

调整并行度

需要Shuffle的操作算子上直接设置并行度或者使用spark.default.parallelism设置。如果是Spark SQL，还可通过SET spark.sql.shuffle.partitions=num_tasks设置并行度。

该方法使用场景少，只能缓解数据倾斜，不能彻底解决数据倾斜。

Map side join

通过Spark的Broadcast机制，将Reduce Join转化为Map Join，避免Shuffle，从而完全消除Shuffle带来的数据倾斜。

参与Join的一侧数据集足够小，并且主要适用于Join的场景，不适合聚合的场景，适用条件有限。

异常值过滤

通过Spark的reduceByKey，统计每一个key的数量，超过指定数量的key或者数量top的key，作为异常key。当然也可以使用Sample对RDD进行抽样后，进行key的统计。

该方法的特点是：简单、粗暴，有一定的适用场景。

key值转换：加随机数

这个可以理解为大招

对于单个RDD的Shuffle操作，如groupByKey，将key值加上一个随机数的前缀。这样就需要执行二次聚合操作。
对于多个RDD的Shuffle操作，如join，将其中的一个有明显数据倾斜的RDD的key，加上n以内的随机数的前缀，另一个RDD的每一个key，都加上0-n的前缀，相当于RDD膨胀了n倍。

实际场景中可能需要上述方案的组合操作，比如：异常值过滤 + key值转换：加随机数，可以进行性能的优化：根据异常值，对RDD进行拆分：分别拆分成两个RDD，对于没有数据倾斜的，正常操作。对于有数据倾斜的加上随机前缀，再进行Shuffle操作。

看完上述内容，你们对大数据中Spark数据倾斜表现及解决方案是什么有进一步的了解吗？如果还想了解更多知识或者相关内容，请关注创新互联行业资讯频道，感谢大家的支持。

网站名称：大数据中Spark数据倾斜表现及解决方案是什么
标题来源：http://www.cdkjz.cn/article/ghdhsi.html

多年建站经验

多一份参考，总有益处

联系快上网，免费获得专属《策划方案》及报价

咨询相关问题或预约面谈，可以通过以下方式与我们联系

网站建设

网站推广

案例

方案

电商网站开发

微信小程序

我们

联系

精准传达 • 有效沟通

查看其它板块

大数据中Spark数据倾斜表现及解决方案是什么

数据倾斜描述

常见解决方案

调整并行度

Map side join

异常值过滤

key值转换：加随机数

多一份参考，总有益处

联系快上网，免费获得专属《策划方案》及报价

大客户专线成都：13518219792 座机：028-86922220

友情链接交换友情链接

网络推广

Network promotion

网站方案

Solution

电商网站开发

E-commerce & System

我们

About Us

联系

Contact Us

精准传达 • 有效沟通

查看其它板块

大数据中Spark数据倾斜表现及解决方案是什么

数据倾斜描述

常见解决方案

调整并行度

Map side join

异常值过滤

key值转换：加随机数

相关资讯

ssl证书颁发的步骤

无法解析域名的原因有哪些？

电子商务网站seo如何被快速收录？seo是什么意思？

快速建站方法和哪个建站系统好用

注册域名在哪里注册比较好，应该怎么选？

如何借助大数据和人工智能来提供金融服务

域名空间一年多少钱怎么检查网站空间的大小

重庆数据湖产业园开工汇聚大数据产业生态圈

多一份参考，总有益处

联系快上网，免费获得专属《策划方案》及报价

大客户专线 成都：13518219792 座机：028-86922220

友情链接 交换友情链接

大客户专线成都：13518219792 座机：028-86922220

友情链接交换友情链接