简介
本书内容涵盖了目前使用广泛的大数据处理系统Hadoop生态圈中的几大核心软件系统:分布式大数据处理系统Hadoop、数据库HBase、数据仓库工具Hive、内存大数据计算框架Spark和Spark SQL,详细介绍了它们的架构、工作原理、部署方法、常用配置、常用操作命令、SQL引擎等内容。本书对上述几大系统的各种安装部署方式给出了详细步骤,常用命令也都有具体示例介绍,是一本实操性很强的工具书,能帮助初学者快速掌握这几款常用的大数据处理系统。 本书以浅显易懂的语言风格和图文并茂的操作示例带读者迈入大数据实践之门,可以作为培养应用型人才的课程教材,也可作为开发人员的自学教材和参考手册。
编辑推荐
本书介绍了目前大数据处理的两套主流框架Hadoop和Spark,包括Hadoop分布式文件系统、MapReduce计算框架、HBase数据库、Hive结构化数据处理模块、Spark计算框架和Spark SQL 结构化数据处理模块。书中按照顺序由浅入深地介绍了各模块的系统原理、部署方法、配置方法、基本操作等内容。本书侧重于实践操作,通过实践学习大数据技术,在使用大数据工具的过程中使读者逐步了解大数据处理的基本概念、方法和步骤,强化实际操作能力。可以作为大数据初学者的自学教材和参考手册。
更多出版物信息
- 版权: 清华大学出版社
- 出版: 2018-06-01
- 更新: 2023-07-17
- 书号:9787302494256
- 中图:TP274
- 学科:工学控制科学与工程工学计算机科学与技术