本书基于长期的教学实践以及同国内外顶尖公司的交流合作编写完成,系统介绍了Hadoop 2.0-YARN的基本概念与运行模式。全书共分为7章。内容涵盖Hadoop 2.0的架构、重要组件、主要计算模式、资源调度等重要问题。第1章回顾了YARN的起源,并与Hadoop 1.0进行了对比分析。第2章介绍了YARN的基本框架,对YARN中最重要的几个组件,如资源管理、节点管理、应用程序管理等做了说明。第3章通过Hadoop 2.0-YARN的安装、编译,以及简单的MapReduce调试示例,让读者能够迅速掌握YARN的基本操作,使得读者有一个初步的实践体验。第4章对YARN的通信原理和过程进行讨论,通过Protocol Buffer、YARN RPC的实例分析让读者理解YARN的通信协调过程。之后转入对YARN 状态机进行深入分析,详细介绍了YARN中4类状态机的转换过程,同时提供了YARN状态机监控软件设计案例。第5章对基于YARN的几种计算模式(MapReduce、Storm、Spark)进行了讨论,每一种模式都提供了相应的安装步骤、案例分析。第6章叙述了YARN调度器,详细分析了YARN资源调度负载模拟器——SLS和Google第三代调度器omega的基本原理,并分别给出了两种调度器的运行实例。第7章通过Tez和显示工作流引擎设计,使得读者对YARN工作流运行情况有一定了解。本书最大的特点是理论与实践结合,通过示例分析的形式降低了读者的学习难度,避免了理论学习的枯燥性,本书的部分案例直接选自BAT中的工程实例,这使得本书更具有实战性。广大本科和研究生同学,可以参照本书实例,为他们进行分布式、云计算平台学习,专业课项目设计或毕业论文提供参考。本书也可作为业界研发人员的工程实践参考。
- 版权: 清华大学出版社
- 出版: 2015-09-01
- 更新: 2023-06-07
- 书号:9787302411390
- 中图:TP274
- 学科:工学控制科学与工程工学计算机科学与技术