简介
本书系统介绍了大数据技术的相关知识,全书共13章,内容包括Hadoop大数据处理架构、HDFS分布式文件系统、YARN资源管理、MapReduce分布式计算框架、HBase分布式数据库、流数据采集、典型非关系数据库的安装与使用、分布式数据分析工具Pig、Spark大数据处理框架、基于Python语言的Spark RDD编程、基于Python语言的Spark SQL结构化数据处理、Hive分布式数据仓库、典型数据可视化工具的使用。本书对大数据相关技术给出详细的编程示例,并给出详细的注解。 本书可作为高等院校计算机、信息管理、软件工程、人工智能、数据科学与大数据技术等相关专业的大数据技术课程教材,也可供相关技术人员参考。
编辑推荐
内容系统全面:涵盖Hadoop大部分生态组件。 理论实践结合:每章知识点配丰富实例实践。 原理浅显易懂:对操作给出示例代码和注解。 入门门槛较低:零基础轻松快速掌握Hadoop。 配套资源丰富:有教学课件、教学大纲、源代码、教学视频。
更多出版物信息
- 版权: 清华大学出版社
- 出版: 2024-07-01
- 更新: 2024-11-07
- 书号:9787302666790
- 中图:TP274
- 学科:工学控制科学与工程工学计算机科学与技术