如何进行spark2.0.1安装部署及使用jdbc连接基于hive的sparksql-快上网网站建设公司

如何进行spark2.0.1安装部署及使用jdbc连接基于hive的sparksql

如何进行spark2.0.1安装部署及使用jdbc连接基于hive的sparksql，相信很多没有经验的人对此束手无策，为此本文总结了问题出现的原因和解决方法，通过这篇文章希望你能解决这个问题。

创新互联公司是一家集网站建设,和平企业网站建设,和平品牌网站建设,网站定制,和平网站建设报价,网络营销,网络优化,和平网站推广为一体的创新建站企业，帮助传统企业提升企业形象加强企业竞争力。可充分满足这一群体相比中小企业更为丰富、高端、多元的互联网需求。同时我们时刻保持专业、时尚、前沿，时刻以成就客户成长自我，坚持不断学习、思考、沉淀、净化自己，让我们为更多的企业打造出实用型网站。

1、安装

如下配置，除了配置spark还配置了spark history服务

#先到http://spark.apache.org/根据自己的环境选择编译好的包，然后获取下载连接
cd /opt
mkdir spark
wget http://d3kbcqa49mib13.cloudfront.net/spark-2.0.1-bin-hadoop2.6.tgz
tar -xvzf spark-2.0.1-bin-hadoop2.6.tgz
cd spark-2.0.1-bin-hadoop2.6/conf

复制一份spark-env.sh.template，改名为spark-env.sh。然后编辑spark-env.sh

export JAVA_HOME=/usr/java/jdk1.8.0_111
export SPARK_MASTER_HOST=hadoop-n

复制一份spark-defaults.conf.template，改成为spark-defaults.conf，然后编辑spark-defaults.conf

#指定master地址，以便在启动的时候不用再添加--master参数来启动集群
spark.master                     			        spark://hadoop-n:7077
#对sql查询进行字节码编译，小数据量查询建议关闭
spark.sql.codegen                			        true
#开启任务预测执行机制，当出现比较慢的任务时，尝试在其他节点执行该任务的一个副本，帮助减少大规模集群中个别慢任务的影响
spark.speculation		 			                true
#默认序列化比较慢，这个是官方推荐的
spark.serializer		 			                org.apache.spark.serializer.KryoSerializer
#自动对内存中的列式存储进行压缩
spark.sql.inMemoryColumnarStorage.compressed		true
#是否开启event日志
spark.eventLog.enabled				            	true
#event日志记录目录，必须是全局可见的目录，如果在hdfs需要先建立文件夹
spark.eventLog.dir				                	hdfs://hadoop-n:9000/spark_history_log/spark-events
#是否启动压缩
spark.eventLog.compress					true

复制一份slaves.template，改成为slaves，然后编辑slaves

hadoop-d1
hadoop-d2

从$HIVE_HOME/conf下拷贝一份hive-site.xml到当前目录下。

编辑/etc/下的profile，在末尾处添加

export SPARK_HOME=/opt/spark/spark-2.0.1-bin-hadoop2.6
export PATH=$PATH:$SPARK_HOME/bin
export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop
export SPARK_HISTORY_OPTS="-Dspark.history.ui.port=18080 -Dspark.history.retainedApplications=3 -Dspark.history.fs.logDirectory=hdfs://hadoop-n:9000/spark_history_log/spark-events"

为了保证绝对生效，/etc/bashrc也做同样设置，然后刷新设置

source /etc/profile
source /etc/bashrc

2、启动

a）首先启动hadoop；

cd $HADOOP_HOME/sbin
./start-dfs.sh

访问http://ip:port：50070查看是否启动成功

b）然后启动hive

cd $HIVE_HOME/bin
./hive --service metastore

执行beeline或者hive命令查看是否启动成功，默认hive日志在/tmp/${username}/hive.log

c）最后启动spark

cd $SPARK_HOME/sbin
./start-all.sh

sprark ui ：http://hadoop-n:8080

如何进行spark2.0.1安装部署及使用jdbc连接基于hive的sparksql

spark客户端

cd $SPARK_HOME/bin
./spark-shell

sparksql客户端

cd $SPARK_HOME/bin
./spark-sql

注意执行命令后提示的webui的端口号，通过webui可以查询对应监控信息。

启动thriftserver

cd $SPARK_HOME/sbin
./start-thriftserver.sh

spark thriftserver ui：http://hadoop-n:4040

如何进行spark2.0.1安装部署及使用jdbc连接基于hive的sparksql

启动historyserver

cd $SPARK_HOME/sbin
./start-history-server.sh

spark histroy ui：http://hadoop-n:18080

如何进行spark2.0.1安装部署及使用jdbc连接基于hive的sparksql

3、使用jdbc连接基于hive的sparksql

a）如果hive启动了hiveserver2，关闭

b）执行如下命令启动服务

cd $SPARK_HOME/sbin
./start-thriftserver.sh

执行如下命令测试是否启动成功

cd $SPARK_HOME/bin
./beeline -u jdbc:hive2://ip:10000
#如下是实际输出
[root@hadoop-n bin]# ./beeline -u jdbc:hive2://hadoop-n:10000
Connecting to jdbc:hive2://hadoop-n:10000
16/11/08 21:03:05 INFO jdbc.Utils: Supplied authorities: hadoop-n:10000
16/11/08 21:03:05 INFO jdbc.Utils: Resolved authority: hadoop-n:10000
16/11/08 21:03:05 INFO jdbc.HiveConnection: Will try to open client transport with JDBC Uri: jdbc:hive2://hadoop-n:10000
Connected to: Spark SQL (version 2.0.1)
Driver: Hive JDBC (version 1.2.1.spark2)
Transaction isolation: TRANSACTION_REPEATABLE_READ
Beeline version 1.2.1.spark2 by Apache Hive
0: jdbc:hive2://hadoop-n:10000> show databases;
+---------------+--+
| databaseName  |
+---------------+--+
| default       |
| test          |
+---------------+--+
2 rows selected (0.829 seconds)
0: jdbc:hive2://hadoop-n:10000>

编写代码连接sparksql

按照自己的环境添加依赖


		
			jdk.tools
			jdk.tools
			1.6
			system
			${JAVA_HOME}/lib/tools.jar
		
		
			org.apache.hive
			hive-jdbc
			1.2.1
		

		
			org.apache.hadoop
			hadoop-common
			2.6.0

然后编写类

/**   
 *
 * @Title: HiveJdbcTest.java 
 * @Package com.scc.hive 
 * @Description: TODO(用一句话描述该文件做什么) 
 * @author scc
 * @date 2016年11月9日 上午10:16:32   
 */
package com.scc.hive;

import java.sql.Connection;
import java.sql.DriverManager;
import java.sql.ResultSet;
import java.sql.SQLException;
import java.sql.Statement;

/**
 *
 * @ClassName: HiveJdbcTest
 * @Description: TODO(这里用一句话描述这个类的作用)
 * @author scc
 * @date 2016年11月9日 上午10:16:32
 * 
 */
public class HiveJdbcTest {
    private static String driverName = "org.apache.hive.jdbc.HiveDriver";

    public static void main(String[] args) throws SQLException {
        try {
            Class.forName(driverName);
        } catch (ClassNotFoundException e) {
            e.printStackTrace();
            System.exit(1);
        }

        Connection con = DriverManager.getConnection("jdbc:hive2://10.5.3.100:10000", "", "");
        Statement stmt = con.createStatement();
        String tableName = "l_access";
        String sql = "";
        ResultSet res = null;
        sql = "describe " + tableName;
        res = stmt.executeQuery(sql);
        while (res.next()) {
            System.out.println(res.getString(1) + "\t" + res.getString(2));
        }

        sql = "select * from " + tableName + " limit 10;";
        res = stmt.executeQuery(sql);
        while (res.next()) {
            System.out.println(res.getObject("id"));
        }

        sql = "select count(1) from " + tableName;
        res = stmt.executeQuery(sql);
        while (res.next()) {
            System.out.println("count:" + res.getString(1));
        }
    }
}

下面是控制台输出

log4j:WARN No appenders could be found for logger (org.apache.hive.jdbc.Utils).
log4j:WARN Please initialize the log4j system properly.
log4j:WARN See http://logging.apache.org/log4j/1.2/faq.html#noconfig for more info.
id	int
req_name	string
req_version	string
req_param	string
req_no	string
req_status	string
req_desc	string
ret	string
excute_time	int
req_time	date
create_time	date
212
213
214
215
216
217
218
219
220
221
count:932

4、注意事项

集群要配置ssh免密码登录
不要忘记拷贝hive的配置文件，不然spark会在本地创建物理数据库文件
hive启动时提示ls: cannot access /opt/spark/spark-2.0.1-bin-hadoop2.6/lib/spark-assembly-*.jar: No such file or directory，不影响程序运行。

看完上述内容，你们掌握如何进行spark2.0.1安装部署及使用jdbc连接基于hive的sparksql的方法了吗？如果还想学到更多技能或想了解更多相关内容，欢迎关注创新互联行业资讯频道，感谢各位的阅读！

新闻名称：如何进行spark2.0.1安装部署及使用jdbc连接基于hive的sparksql
分享URL：http://www.cdkjz.cn/article/jgeihs.html

多年建站经验

多一份参考，总有益处

联系快上网，免费获得专属《策划方案》及报价

咨询相关问题或预约面谈，可以通过以下方式与我们联系

网站建设

网站推广

案例

方案

电商网站开发

微信小程序

我们

联系

精准传达 • 有效沟通

查看其它板块

如何进行spark2.0.1安装部署及使用jdbc连接基于hive的sparksql

1、安装

2、启动

3、使用jdbc连接基于hive的sparksql

4、注意事项

多一份参考，总有益处

联系快上网，免费获得专属《策划方案》及报价

大客户专线成都：13518219792 座机：028-86922220

友情链接交换友情链接

网络推广

Network promotion

网站方案

Solution

电商网站开发

E-commerce & System

我们

About Us

联系

Contact Us

精准传达 • 有效沟通

查看其它板块

如何进行spark2.0.1安装部署及使用jdbc连接基于hive的sparksql

1、安装

2、启动

3、使用jdbc连接基于hive的sparksql

4、注意事项

相关资讯

vb.net函数库 vbnet invoke

阿里云更改服务器系统版本 阿里云服务器如何更改操作系统

访问wordpress 访问限制无法退出登录Apple ID

阿里云服务器能挂QQ吗 阿里云服务器可以挂脚本吗

怎么用mysql分组 mysql分组后怎么拿到每组数据

zblog高端模板 zblog主题开发教程

java倒正三角形源代码 java怎么打出倒直角三角形

go语言资料推荐 go语言入门好书

多一份参考，总有益处

联系快上网，免费获得专属《策划方案》及报价

大客户专线 成都：13518219792 座机：028-86922220

友情链接 交换友情链接

阿里云更改服务器系统版本阿里云服务器如何更改操作系统

阿里云服务器能挂QQ吗阿里云服务器可以挂脚本吗

大客户专线成都：13518219792 座机：028-86922220

友情链接交换友情链接