CSDN|秋名山老司机从上车到翻车的悲痛经历,带你深刻了解什么是 Spark on Hive!| 原力计划
本文插图
作者 | Alice菌责编 | 夕颜出品 | CSDN博客本篇博客将为大家分享的内容是如何实现Spark on Hive , 即让Hive只作为存储角色 , Spark负责sql解析优化 , 执行…话不多说 , 直接上车!
上车前需知 Spark on hive 与 hive on spark 的区别
1. Spark on hive
是spark 通过Spark-SQL使用hive 语句 , 操作hive ,底层运行的还是 spark rdd 。
(1)就是通过sparksql , 加载hive的配置文件 , 获取到hive的元数据信息
(2)spark sql获取到hive的元数据信息之后就可以拿到hive的所有表的数据
(3)接下来就可以通过spark sql来操作hive表中的数据
2.hive on spark
是把hive查询从mapreduce 的mr (Hadoop计算引擎)操作替换为spark rdd(spark 执行引擎) 操作. 相对于spark on hive,这个要实现起来则麻烦很多, 必须重新编译你的spark和导入jar包 , 不过目前大部分使用的是spark on hive 。
本文插图
上车
概述
最权威的解释请见Apache Spark官网 , http://spark.apache.org/docs/latest/sql-data-sources-hive-tables.html
本文插图
其中最关键的一句博主已经为大家提取出来了
Configuration of Hive is done by placing your hive-site.xml, core-site.xml (for security configuration), and hdfs-site.xml (for HDFS configuration) file in conf/.到底是什么意思呢 , 这里先卖个关子 , 看到后面大伙就懂了 。
- Hive查询流程及原理
- 执行HQL时 , 先到MySQL元数据库中查找描述信息 , 然后解析HQL并根据描述信息生成MR任务;
- Hive将SQL转成MapReduce执行速度慢;
- 使用SparkSQL整合Hive其实就是让SparkSQL去加载Hive 的元数据库 , 然后通过SparkSQL执行引擎去操作Hive表内的数据;
发车
一、Hive开启MetaStore服务
<1>修改 hive/conf/hive-site.xml 新增如下配置:
<?xml version="1.0"?><?xml-stylesheet type="text/xsl" href="http://news.hoteastday.com/a/configuration.xsl"?><configuration><property><name>hive.metastore.warehouse.dir</name><value>/user/hive/warehouse</value></property><property><name>hive.metastore.local</name><value>false</value><name>hive.metastore.uris</name><value>thrift://node01:9083</value></property></configuration><2>后台启动 Hive MetaStore服务 nohup /export/servers/hive/bin/hive --service metastore 2>&1 >> /var/log.log &二、SparkSQL整合Hive MetaStore Spark 有一个内置的 MateStore , 使用 Derby 嵌入式数据库保存数据 , 但是这种方式不适合生产环境 , 因为这种模式同一时间只能有一个 SparkSession 使用 , 所以生产环境更推荐使用 Hive 的 MetaStore 。
推荐阅读
- CSDN|由 Apache 说开,中国开源项目已经走向世界!
- CSDN|软件对于英特尔意味着什么?
- CSDN|中国首家苹果零售店重开业,苹果CEO库克发文揭幕;“携号转网”服务用户破千万;GitHub 完成北极源代码存档|极客头条
- 智能机器人|快商通智能客服云平台荣获CSDN“AI优秀案例实践奖”
- CSDN|万亿美元软件浪潮来临,开发者是核心!
- 行业互联网|快商通智能客服云平台荣获CSDN“AI优秀案例实践奖”
- CSDN|OpenInfra Days China 2020 官网正式上线,含免费注册通道!
- 老司机出品TB|被追捧的SUV,13万降至11万,月销1.8万,看啥飞度
- 老司机出品TB|“价格屠夫”!一箱油830Km,美过奔驰,才不足11万
- CSDN|实战 | 对抗外部威胁防护和勒索病毒,大厂怎么做?
