Hive中Join的原理和机制是什么-快上网网站建设公司

Hive中Join的原理和机制是什么

本篇内容介绍了“Hive中Join的原理和机制是什么”的有关知识，在实际案例的操作过程中，不少人都会遇到这样的困境，接下来就让小编带领大家学习一下如何处理这些情况吧！希望大家仔细阅读，能够学有所成！

永靖网站建设公司创新互联,永靖网站设计制作，有大型网站制作公司丰富经验。已为永靖超过千家提供企业网站建设服务。企业网站搭建\外贸营销网站建设要多少钱，请找那个售后服务好的永靖做网站的公司定做！

九、Hive中Join的原理和机制

笼统的说，Hive中的Join可分为Common Join（Reduce阶段完成join）和Map Join（Map阶段完成join）。本文简单介绍一下两种join的原理和机制。

9.1 Hive Common Join

如果不指定MapJoin或者不符合MapJoin的条件，那么Hive解析器会将Join操作转换成Common Join,即：在Reduce阶段完成join.
整个过程包含Map、Shuffle、Reduce阶段。

Map阶段

读取源表的数据，Map输出时候以Join on条件中的列为key，如果Join有多个关联键，则以这些关联键的组合作为key;
Map输出的value为join之后所关心的(select或者where中需要用到的)列；同时在value中还会包含表的Tag信息，用于标明此value对应哪个表；
按照key进行排序

Shuffle阶段

根据key的值进行hash,并将key/value按照hash值推送至不同的reduce中，这样确保两个表中相同的key位于同一个reduce中

Reduce阶段
根据key的值完成join操作，期间通过Tag来识别不同表中的数据。

以下面的HQL为例，图解其过程：

SELECT
a.id,a.dept,b.age
FROM a join b
ON (a.id = b.id);

Hive中Join的原理和机制是什么

看了这个图，应该知道如何使用MapReduce进行join操作了吧。

9.2 Hive Map Join

MapJoin通常用于一个很小的表和一个大表进行join的场景，具体小表有多小，由参数hive.mapjoin.smalltable.filesize来决定，该参数表示小表的总大小，默认值为25000000字节，即25M。
Hive0.7之前，需要使用hint提示 /*+ mapjoin(table) */才会执行MapJoin,否则执行Common Join，但在0.7版本之后，默认自动会转换Map Join，由参数hive.auto.convert.join来控制，默认为true.
仍然以9.1中的HQL来说吧，假设a表为一张大表，b为小表，并且hive.auto.convert.join=true,那么Hive在执行时候会自动转化为MapJoin。

Hive中Join的原理和机制是什么

如图中的流程，首先是Task A，它是一个Local Task（在客户端本地执行的Task），负责扫描小表b的数据，将其转换成一个HashTable的数据结构，并写入本地的文件中，之后将该文件加载到DistributeCache中，该HashTable的数据结构可以抽象为：

key	value
1	26
2	34

Hive中Join的原理和机制是什么

图中红框圈出了执行Local Task的信息。

接下来是Task B，该任务是一个没有Reduce的MR，启动MapTasks扫描大表a,在Map阶段，根据a的每一条记录去和DistributeCache中b表对应的HashTable关联，并直接输出结果。
由于MapJoin没有Reduce，所以由Map直接输出结果文件，有多少个Map Task，就有多少个结果文件。

“Hive中Join的原理和机制是什么”的内容就介绍到这里了，感谢大家的阅读。如果想了解更多行业相关的知识可以关注创新互联网站，小编将为大家输出更多高质量的实用文章！

当前文章：Hive中Join的原理和机制是什么
当前路径：http://www.cdkjz.cn/article/jgjigo.html

多年建站经验

多一份参考，总有益处

联系快上网，免费获得专属《策划方案》及报价

咨询相关问题或预约面谈，可以通过以下方式与我们联系

网站建设

网站推广

案例

方案

电商网站开发

微信小程序

我们

联系

精准传达 • 有效沟通

查看其它板块

Hive中Join的原理和机制是什么

九、Hive中Join的原理和机制

9.1 Hive Common Join

9.2 Hive Map Join

多一份参考，总有益处

联系快上网，免费获得专属《策划方案》及报价

大客户专线成都：13518219792 座机：028-86922220

友情链接交换友情链接

网络推广

Network promotion

网站方案

Solution

电商网站开发

E-commerce & System

我们

About Us

联系

Contact Us

精准传达 • 有效沟通

查看其它板块

Hive中Join的原理和机制是什么

九、Hive中Join的原理和机制

9.1 Hive Common Join

9.2 Hive Map Join

相关资讯

c语言函数形参作用范围 c语言中函数的形参类型

php获取数据库源码下载 php获取数据库内容

路由器设置命令 路由器设置命令在哪里

服务器安全设置(二十二) 服务器安全措施有哪些

域名怎么绑定别人域名 域名怎么绑定自家电脑

go语言tcp Go语言圣经

路由器怎么分 路由器怎么分好坏

分布式路由器安装 分布式路由器如何安装

多一份参考，总有益处

联系快上网，免费获得专属《策划方案》及报价

大客户专线 成都：13518219792 座机：028-86922220

友情链接 交换友情链接

路由器设置命令路由器设置命令在哪里

域名怎么绑定别人域名域名怎么绑定自家电脑

路由器怎么分路由器怎么分好坏

分布式路由器安装分布式路由器如何安装

大客户专线成都：13518219792 座机：028-86922220

友情链接交换友情链接