Hadoop+Spark大数据分析实战

作者: 迟殿委

出版社: 清华大学出版社

出版日期: 2022-07-01

电子书 ¥24.15 定价:69.0
  • 收藏

  • 加书架

  • 引用

简介

本书是Hadoop + Spark大数据分析技术入门书,基于Hadoop和Spark两大框架体系的3.2版本,以通俗易懂的方式介绍Hadoop + Spark原生态组件的原理、集群搭建、实战操作,以及整个Hadoop生态系统主流的大数据分析技术。 本书共分14章。第1章讲解Hadoop框架及新版本特性,并详细讲解大数据分析环境的搭建工作,包括Linux操作系统的安装、SSH工具使用和配置等;第2章讲解Hadoop伪分布式的安装和开发体验,使读者熟悉Hadoop大数据开发两大核心组件,即HDFS和MapReduce;第3~12章讲解Hadoop生态系统各框架HDFS、MapReduce、输入输出、Hadoop集群配置、高可用集群、HBase、Hive、数据实时处理系统Flume,以及Spark框架数据处理、机器学习等实战技术,并通过实际案例加深对各个框架的理解与应用;第13~14章分别通过影评分析、旅游酒店评价分析实战项目来贯穿大数据分析的完整流程。 本书可以作为大数据分析初学者的入门指导书,也可以作为大数据开发人员的参考手册,同时也适合作为高等院校大数据相关专业的教材或教学参考书。

编辑推荐

本书全面讲解Hadoop生态圈各组件的核心知识、操作和分析技术,系统介绍Spark框架搭建、操作和典型的机器学习分析技术。最后通过两个综合实战项目——影评分析、旅游酒店评价分析,来贯穿大数据分析的完整流程。

更多出版物信息
  • 版权: 清华大学出版社
  • 出版: 2022-07-01
  • 作者:迟殿委
  • 更新: 2023-06-19
  • 书号:9787302608844
  • 中图:TP274
  • 学科:
    工学
    控制科学与工程
    工学
    计算机科学与技术