简介
本书基础理论、应用开发以及实际案例相结合,围绕Hadoop、Spark生态圈循序渐进地介绍关于大数据技术领域中的基础知识、应用开发技术和基于Spark的常见机器学习算法,最后以两个实战案例全面、系统地应用了本书介绍的基础知识和应用开发方法。全书共14章,分别为大数据概述、Hadoop简介及安装部署、HDFS、MapReduce计算框架、Hive数据仓库、HBase分布式数据库、Spark基础、Spark RDD弹性分布式数据集、Spark SQL、Spark Streaming实时计算框架、Spark Streaming与Flume、Kafka的整合、Spark MLlib 机器学习、实战案例——分布式优惠券后台应用系统和实战案例——新闻话题实时统计分析系统,书中的每个知识点都有相应的实现代码和实例。 本书主要面向广大从事大数据分析、应用开发、机器学习、数据挖掘的专业人员以及从事高校信息技术专业的教师和高等院校的在读学生及相关领域的广大科研人员。
编辑推荐
(1)以实战开发为导向,对基础理论知识点与开发过程进行详细讲解。 (2)实战案例丰富,涵盖18 个完整项目案例和2个综合案例,综合案例可以加深对本书所学的知识点的理解和掌握。 (3)代码详尽,避免对 API 的形式展示,规避重复代码。 (4)语言简明易懂,由浅入深带你学会以 Hadoop生态圈为核心的开发技术和大数据常见的机器学习算法。
更多出版物信息
- 版权: 清华大学出版社
- 出版: 2022-01-01
- 更新: 2023-06-19
- 书号:9787302591818
- 中图:TP274
- 学科:工学控制科学与工程工学计算机科学与技术