本书基于Spark 3.2.x版本,从Spark核心编程语言Scala讲起,涵盖了当前整个Spark生态系统主流的大数据开发技术。全书共9章,第1章讲解了Scala语言的基础知识,包括IDEA工具的使用等;第2章讲解了Spark的主要组件、集群架构原理、集群环境搭建以及Spark应用程序的提交和运行;第3~9章讲解了离线计算框架Spark RDD、Spark SQL和实时计算框架Kafka、Spark Streaming、Structured Streaming以及图计算框架GraphX等的基础知识、架构原理,同时包括常用Shell命令、API操作、内核源码剖析,并通过多个实际案例讲解各个框架的具体应用以及与Hadoop生态系统框架Hive、HBase、Kafka的整合操作。 本书通俗易懂,案例丰富,注重实操,适合Spark新手和大数据开发人员阅读,也可作为培训机构和高校大数据及相关专业的教学用书。
本书使用Spark 3.2.x撰写,使用通俗易懂的语言描述,对于小白来说非常友好。 知识全面,全书围绕Spark大数据生态构建知识体系,涵盖Spark 3架构原理、集群搭建、计算框架、Shell 命令、API操作、内核源码剖析、与Hive和Kafaka与HBase的整合操作等内容 由行业大数据专家倾力打造,专业性毋庸置疑,全书运用十分通俗的语言和详尽的代码分析,帮助从未接触过Spark的读者无痛上手,如果你想学习Spark,本书是一个值得入手的选择。 拒绝纸上谈兵,全书提供20个大小案例和项目,并使用手把手的教学方法,各章还提供动手练习题,让读者快速掌握实用大数据项目技能。 配套丰富的资源,包括上机练习源码、教学视频、PPT课件,读者还可以关注作者公众号“奋斗在IT”获取更多大数据学习资源。
- 版权: 清华大学出版社
- 出版: 2022-09-03
- 更新: 2023-06-19
- 书号:9787302614500
- 中图:TP274
- 学科:工学控制科学与工程工学计算机科学与技术