-
收藏
-
加书架
-
引用
本书特色
获奖作品
亮点
课件
教学大纲
其他素材
简介
本书围绕Spark生态圈相关系统介绍了实时流处理架构Spark。全书共9章,其中第1章主要带大家认识了Spark框架的底层实现语言——Scala。第2章主要讲解了Spark集群环境的搭建。第3-8章主要介绍了弹性分布式数据集RDD、结构化数据文件处理Spark SQL、分布式数据库HBase、分布式订阅消息系统Kafka、实时计算框架Spark Streaming以及机器学习算法库MLib。第9章是一个综合项目,主要通过实时交易数据数据,其目的是教会大家如何利用Spark构建大数据架构并进行开发,同时加深Spark技术的理解。
编辑推荐
《Spark大数据分析与实战》由传智播客教育科技公司编写,实用性强,案例翔实,配套数字资源丰富。 针对具有Hadoop基础的读者,帮助读者掌握Spark的基础知识和应用。不仅介绍了Spark基础使用方法,而且还深入浅出讲解了Spark的编程模型、运行机制、存储原理和运行架构等内容。 内容的编写致力于原理与实践并进,让读者不会因为枯燥的原理而厌烦,穿插真实企业级项目,让读者具有开发项目的基础能力。
更多出版物信息
- 版权: 清华大学出版社
- 出版: 2019-09-01
- 更新: 2023-07-19
- 书号:9787302534327
- 中图:TP274
- 学科:工学控制科学与工程工学计算机科学与技术
获奖信息
国家软件与集成电路公共服务平台信息技术紧缺人才培养工程指定教材