本书系统阐述了Spark架构原理和环境部署搭建,以及使用Spark执行大数据批处理、流处理、图计算、数据湖等方面的技术。 全书共分为14章:第1章和第2章是基础,第3章至第10章为Spark各模块的讲解和应用,第11章为Spark调优技术,第12章至第14章讲解下一代大数据技术-数据湖。 书中主要内容包括:Spark的体系架构、Spark集群安装与部署模式、Spark+Maven开发环境搭建、Spark+SBT开发环境搭建、Zeppelin交互式开发环境搭建、Spark RDD、Spark SQL批处理技术、Spark结构化流处理技术、Spark图处理库(GraphX和GraphFrame)、下一代大数据技术-数据湖(Delta Lake、Iceberg和Hudi)。 书中内容全面系统,包含大量应用示例,面向零基础小白,知识点深浅适当,代码完整易懂。不仅可以学会理论知识还可以灵活应用。书中示例基于Spark 3.1.2和Scala语言开发,。书中通过多个综合项目案例详细阐述了如何使用Spark开发批、流计算项目,内容完整、步骤清晰,提供了工程化的解决方案。 本书可作为大数据和Spark初学者的入门书籍,也可作为从事跨平台开发的技术人员及培训机构的参考书籍。
本书具有以下几个特点: (1) 面向零基础读者,知识点深浅适当,代码完整易懂。 (2) 内容全面系统,包括架构原理、开发环境及程序部署、流和批计算、图计算等,并特别包含了Delta Lake、Iceberg、Hudi等数据湖内容。 (3) 版本先进,所有代码均基于Spark 3.1.2。特别值得一提的是,图计算部分抛弃了性能欠佳的GraphX,而是引入了下一代Spark图计算库GraphFrames进行讲解和演示。 (4) 全书包含大量的示例代码讲解和完整项目案例。
- 版权: 清华大学出版社
- 出版: 2023-07-01
- 更新: 2024-05-28
- 书号:9787302628866
- 中图:TP274
- 学科:工学控制科学与工程工学计算机科学与技术