-
收藏
-
加书架
-
引用
本书以Hadoop 3.x及其生态体系中常用的大数据开源项目为主线,从大数据的概念入手,进而讲解Hadoop及其生态体系中常用大数据开源项目的架构和原理,并且在本书的最后一章通过一个项目案例对Hadoop的综合运用进行讲解。本书共分为11章,第1章主要讲解了大数据和Hadoop基础知识,包括大数据概述、大数据的应用场景、Hadoop的优缺点和Hadoop的生态体系等内容。第2章主要讲解了Hadoop集群的部署和简单使用,包括虚拟机的创建、Centos Stream 9的安装与配置、JDK的安装、基于伪分布式部署Hadoop、基于完全分布式部署Hadoop,以及通过一个案例-词频统计演示Hadoop集群的简单使用。第3~4章主要讲解了Hadoop核心组件HDFS、MapReduce和YARN的概念及使用,包括HDFS架构、HDFS文件读写流程、HDFS的Shell和Java API操作、MapReduce编程模型、MapReduce工作原理、YARN基本架构等内容,并且通过3个MapReduce的经典案例讲解MapReduce和YARN的使用。第5~10章主要讲解了Hadoop生态体系中常用大数据开源项目的概念和使用,包括Hive、ZooKeeper、Flume、Azkaban和Sqoop,其中第6章基于ZooKeeper对Hadoop高可用集群的概念和实现进行了讲解。第11章通过综合项目-网站流量日志数据分析系统对Hadoop及其生态系统的综合运用进行操作和讲解,包括系统概述、需求分析、数据采集的实现、数据预处理的实现、数据分析的实现等。 本书附有配套视频、教学PPT、教学设计、测试题等资源,同时,为了帮助初学者更好地学习本书中的内容,还提供了在线答疑,欢迎读者关注。
本书附有配套视频、教学PPT、教学设计、测试题等资源,同时,为了帮助初学者更好地学习本书中的内容,还提供了在线答疑,欢迎读者关注。
- 版权: 清华大学出版社
- 出版: 2023-07-01
- 更新: 2023-12-15
- 书号:9787302633969
- 中图:TP274
- 学科:工学控制科学与工程工学计算机科学与技术