简介
本书较为全面地介绍了大数据开发技术平台Hadoop及其生态系统的相关知识。全书共12章,包括Hadoop概述、大数据开发平台Hadoop环境的搭建、Hadoop通用命令与编程原理、Hadoop分布式文件存储HDFS、作业调度与集群资源管理框架YARN、Hadoop分布式计算框架MapReduce、Hadoop数据库HBase、Hadoop数据仓库Hive、Hadoop数据的快速通用计算引擎Spark,以及大数据应用开发综合实例。本书从应用角度出发,重点培养学生应用大数据技术平台Hadoop解决实际问题的能力。 本书内容新颖,简明易懂,可操作性强,可作为普通高等学校、高职高专院校数据科学与大数据、软件工程等计算机相关专业和信息管理类专业“大数据开发技术”课程的教材,也可作为大数据技术培训的教材,还适合大数据技术研发人员和广大计算机爱好者自学使用。
编辑推荐
本书分为三大部分,第一部分主要介绍大数据开发技术平台Hadoop,分为6章,介绍Hadoop各部分的主要技术及其应用,包括Hadoop架构及组成、平台搭建、HDFS、YARN、MapReduce等内容;第二部分介绍Hadoop 家族的其他几个重要项目,这些都与基本的大数据开发应用紧密相关,包括数据库HBase、数据仓库Hive、Spark;第三部分介绍大数据应用开发综合实例,介绍了编程环境与数据准备、大数据分析与数据可视化、一个具体大数据应用领域“电影推荐”的具体实施方法。
更多出版物信息
- 版权: 清华大学出版社
- 出版: 2021-07-01
- 更新: 2023-06-22
- 书号:9787302579700
- 中图:TP274
- 学科:工学控制科学与工程工学计算机科学与技术