本书从理论知识入手,结合数据仓库的概念帮助读者更好地理解Hive,在掌握Hive相关理论知识的基础上,逐步深入地学习Hive。“工欲善其事,必先利其器”,首先从创建虚拟机并安装Linux操作系统开始逐步完成Hive的部署,然后在部署完成的Hive环境基础上,学习Hive数据定义语言、Hive数据操作语言和Hive数据查询语言的相关操作,在学习了上述三种语言之后,接下来深入学习Hive的其他功能,包括Hive内置函数、Hive自定义函数、Hive的新特性事务以及Hive的相关优化,从而帮助读者掌握Hive的强大功能和特性。最后,本书通过一个综合项目——教育大数据分析平台,使读者对Hive数据仓库在实际应用中涉及的相关知识内容具有更深入的理解,在此项目中不仅会涉及使用Hive实现数据仓库分层、数据转换和数据分析的相关操作,而且还涉及使用Sqoop将数据仓库中的数据进行导出和导入,以及使用FineBI工具实现数据可视化功能。 本书附有配套视频、源代码、习题、教学设计、教学课件等资源。同时,为了帮助初学者更好地学习本书的内容,还提供了在线答疑,欢迎读者关注。 本书可以作为高等学校本、专科计算机相关专业,信息管理等相关专业的大数据课程教材,也可以供相关技术人员参考,是一本适合广大计算机编程爱好者的优秀读物。
Hive提出海量数据可以继续沿用传统数据分析方法SQL语句来处理的思想,开发人员不需要学习新的计算机语言而继续使用熟悉的SQL结构化查询语句来处理大规模的数据,Hive中的SQL语句我们称之为HiveQL查询语句,HiveQL查询语句的语法结构与传统SQL语句的语法结构几乎是一模一样的。Hive运行在Hadoop分布式系统中,这使得Hive不仅可以使用HDFS进行分布式存储,而且还可以通过MapReduce分布式计算框架来查询数据,相比于传统数据仓库来说,Hive在存储性能和查询效率上都得到了很好的提升。 本书将带领大家认识Hive的相关技术。通过学习本书,使读者对Hive有一个深刻的认识,本书共分为9章。
- 版权: 清华大学出版社
- 出版: 2021-09-01
- 更新: 2023-08-15
- 书号:9787302589594
- 中图:TP311.13
- 学科:工学控制科学与工程工学计算机科学与技术