网站建设 >

查看其它板块

Prime_DSC_MentionCalcSpark性能调优

Prime_DSC_MentionCalcSpark系统简介

创新互联公司始终坚持【策划先行，效果至上】的经营理念，通过多达十多年累计超上千家客户的网站建设总结了一套系统有效的全网营销推广解决方案，现已广泛运用于各行各业的客户，其中包括：成都混凝土泵车等企业，备受客户称誉。

实现功能 : 根据条件(siteId, startTime, endTime, campaignId, folder)从HBase数据源中读取文本数据作为输入,把提交的关键词作为条件,输出在文本中关键词提及的次数

存在问题 : 对于大数据量的计算时间较长.

解决思路 :

把HBase结果反射成TweetBean修改成TweetBean的setXXX的方式构造TweetBean
1. 当有5W条数据,通过反射转成TweetBean需要60s,通过TweetBean的setXX的方法需要20s
把读取HBase的所有字段改成读取HBase的需要的字段
1. 当有5W条数据,读取所有字段时需要60s,读取需要的字段需要25s
从UC取DC数据时,不使用map函数,替换成mapPartition函数,这样使用可以从HBase批量取数据,仅需要一次HBase连接即可
存储计算结果,使用foreachPartition函数. 当遍历Iterator时不是每次在循环里面都存储计算结果,而是在循环外面维护队列,批量存储结果
根据Spark集群资源,合理利用Spark集群的资源,如资源越多,集群计算能力越强.而比较合理的机器资源和任务并行度的关系是 : 任务数 = 机器CPU核数 * (2 或者 3), 所以设置RDD的分区数为集群CPU核数 * 2
从HBase读取数据的并行度跟表的region数相关.默认情况下,建表时只有一个region,而当region越来越大时,需要split成两个region,region越多split的阈值越大,导致很多数据都存在一个region中.此时如果需要查询一张表,假设该表有5个region,则会有5个线程同时查询5个region的数据,但是如果其中一个region很大,是其他region的10倍,则该region的读取是其他region读取性能的10倍,导致整个任务的delay. 解决该问题的方法可以先通过预分区和对rowkey使用hash/MD5等算法使数据均匀的分布在各个region,这样在读取数据时可以根据数据均匀分配而更好的并发读取数据.

当前文章：Prime_DSC_MentionCalcSpark性能调优
文章地址：http://www.cdkjz.cn/article/jgjsei.html

返回首页了解更多建站资讯

多年建站经验

多一份参考，总有益处

联系快上网，免费获得专属《策划方案》及报价

咨询相关问题或预约面谈，可以通过以下方式与我们联系

大客户专线成都：13518219792 座机：028-86922220

在线咨询提交需求

友情链接交换友情链接

电商网店重庆做网站云服务器香港网站营销推广四川绵阳机房成都网站建设西部信息机房广汉网站建设 IDC机房托管贵阳联通机房

成都网站建设公司地址：成都市青羊区太升南路288号锦天国际A座10层建设咨询028-86922220

专家团队为您提供成都网站建设,成都网站设计,成都品牌网站设计,成都营销型网站制作等服务,成都建网站就找快上网！ | 成都网站建设哪家好？ | 网站建设地图

网站建设

网站推广

案例

方案

电商网站开发

微信小程序

我们

联系

精准传达 • 有效沟通

查看其它板块

Prime_DSC_MentionCalcSpark性能调优

多一份参考，总有益处

联系快上网，免费获得专属《策划方案》及报价

大客户专线成都：13518219792 座机：028-86922220

友情链接交换友情链接

网络推广

Network promotion

网站方案

Solution

电商网站开发

E-commerce & System

我们

About Us

联系

Contact Us

精准传达 • 有效沟通

查看其它板块

Prime_DSC_MentionCalcSpark性能调优

相关资讯

大数据对社会工作行业有什么影响

详解微信小程序调用支付接口支付

Python正则表达式的使用教程

什么是MooseFS以及怎么进行高可用部署

Python中numpy怎么用

新手学习Java语言的要点有哪些

Java8中怎么处理时区

如何优化SEO关键词排名

多一份参考，总有益处

联系快上网，免费获得专属《策划方案》及报价

大客户专线 成都：13518219792 座机：028-86922220

友情链接 交换友情链接

大客户专线成都：13518219792 座机：028-86922220

友情链接交换友情链接