Hadoop与Spark入门

作者: 覃雄派、陈跃国

出版社: 清华大学出版社

出版日期: 2022-11-01

电子书 ¥38.35 定价:59.0
  • 收藏

  • 加书架

  • 引用

简介

本书为一本大数据技术的入门书籍,介绍Hadoop大数据平台和Spark大数据平台及相关工具的原理,以及如何进行部署和简单开发。 全书包含13章: 第1、2章介绍如何为深入学习Hadoop和Spark做环境准备,包括VMware虚拟机的创建和CentOS操作系统安装。第3~6章介绍Hadoop大数据平台的基本原理,包括HDFS、MapReduce计算模型、HBase数据库,以及Hive数据仓库的原理、部署方法和开发技术。第7~11章介绍Spark大数据平台的基本原理,包括弹性分布式数据集、转换与动作操作、宽依赖与窄依赖、有向无环图表达的作业及其处理过程等,并且介绍了Spark Core、Spark SQL、Spark MLlib、Spark GraphX的部署和开发技术。最后两章介绍了Flume(第12章)和Kafka(第13章)两个工具,Flume用于大量日志的收集和处理,Kafka用于对大量快速到达的数据进行及时、可靠、暂时的存储。 本书适合高等院校高年级本科生以及硕士研究生使用,也可以供非计算机专业学生及相关领域技术人员参考。

编辑推荐

本书篇幅不长,内容易懂,有利于快速入门。 兼顾原理讲解和具体操作,实践性强,使读者兴趣盎然,更有成就感。 利用虚拟化技术,无须搭建物理集群,在一台计算机上完成分布式部署,万事不求人,玩转Hadoop和Spark。

更多出版物信息
  • 版权: 清华大学出版社
  • 出版: 2022-11-01
  • 作者:覃雄派、陈跃国
  • 更新: 2023-11-24
  • 书号:9787302613633
  • 中图:TP274-43
  • 学科:
    工学
    控制科学与工程
    工学
    计算机科学与技术