本书运用Spark计算框架的核心组件对电商数据进行分析,以项目形式呈现,其内容涵盖环境搭建、数据分析、数据持久化和数据可视化, 涉及JavaEE、ECharts、Hadoop、HBase、Spark、Kafka和ZooKeeper等技术点的综合应用。针对项目开发过程的每个环节都进行了深入讲解,使读者由浅入深地了解每个环节的知识内容。 本书共分为7章。第1章主要介绍项目开发的基本情况;第2章主要介绍大数据集群环境的搭建;第3章主要介绍通过Spark实现热门品类Top10分析,并对分析结果进行持久化操作;第4章主要介绍通过Spark实现各区域热门商品Top3分析,并对分析结果进行持久化操作;第5章主要介绍通过Spark SQL实现网站转化率统计,并对分析结果进行持久化操作;第6章主要介绍通过Spark Streaming实现广告点击流实时统计,并实时持久化统计结果;第7章主要介绍通过可视化技术将第3~6章的分析与统计结果进行图形化展示。 本书配有视频、源代码、教学设计、教学PPT、教学大纲等资源。同时,为了帮助初学者更好地学习书中的内容,还提供了在线答疑,欢迎读者关注。 本书适合拥有Spark基础的读者阅读,也可以作为高等院校相关课程的教学参考书。读者不仅能够通过项目实战巩固基础知识的学习效果,还能学习商业智能系统的开发过程。
目前市面上已经有很多大数据技术相关书籍,然而大部分书籍是基于理论或基础操作讲解单个技术点,这些书籍虽然可以使初学者掌握单个技术点的基础技能,不过对于多技术点整合使用存在一定局限性,需要读者自己去摸索,并且针对技术点的实际应用方面,欠缺带领读者体验在多技术点融合的基础上实现真实项目的操作与讲解。 作为Spark实训项目的教程,最重要且最难的一件事情就是将一些复杂、难以理解的思想和问题简单化,让初学者能够轻松理解并快速掌握Spark项目的开发流程。本教材对Spark项目开发过程的每个环节都进行了深入讲解,使读者由浅入深的了解每个环节知识内容。
- 版权: 清华大学出版社
- 出版: 2021-07-01
- 更新: 2023-08-21
- 书号:9787302581475
- 中图:TP274
- 学科:工学控制科学与工程工学计算机科学与技术