《大数据实践》刘鹏、张燕、袁晓东和黄必栋 9787302494256 【清华大学出版社官方正版电子书】- 文泉书局

大数据实践

作者：刘鹏、张燕、袁晓东和黄必栋

出版社：清华大学出版社

出版日期： 2018-06-01

优惠券：
￥3
￥10
￥30
￥70
领券

电子书：￥37.7 （ 定价：58.0 ）

支持送礼物

送给好友

收藏
加书架
引用

简介

本书内容涵盖了目前使用广泛的大数据处理系统Hadoop生态圈中的几大核心软件系统：分布式大数据处理系统Hadoop、数据库HBase、数据仓库工具Hive、内存大数据计算框架Spark和Spark SQL，详细介绍了它们的架构、工作原理、部署方法、常用配置、常用操作命令、SQL引擎等内容。本书对上述几大系统的各种安装部署方式给出了详细步骤，常用命令也都有具体示例介绍，是一本实操性很强的工具书，能帮助初学者快速掌握这几款常用的大数据处理系统。本书以浅显易懂的语言风格和图文并茂的操作示例带读者迈入大数据实践之门，可以作为培养应用型人才的课程教材，也可作为开发人员的自学教材和参考手册。

编辑推荐

本书介绍了目前大数据处理的两套主流框架Hadoop和Spark，包括Hadoop分布式文件系统、MapReduce计算框架、HBase数据库、Hive结构化数据处理模块、Spark计算框架和Spark SQL 结构化数据处理模块。书中按照顺序由浅入深地介绍了各模块的系统原理、部署方法、配置方法、基本操作等内容。本书侧重于实践操作，通过实践学习大数据技术，在使用大数据工具的过程中使读者逐步了解大数据处理的基本概念、方法和步骤，强化实际操作能力。可以作为大数据初学者的自学教材和参考手册。

更多出版物信息

版权：清华大学出版社
出版： 2018-06-01
作者：刘鹏、张燕、袁晓东和黄必栋
更新： 2023-07-17
书号：9787302494256
中图：TP274
学科：

工学

控制科学与工程
工学

计算机科学与技术

封面 1

扉页 2

内容简介 3

版权页 3

编写委员会 4

总序 5

前言 8

目录 11

第1章　大数据概述 15

第2章　Hadoop基础 23

第3章　Hadoop数据库HBase 57

第4章　数据仓库工具Hive 117

第5章　内存大数据计算框架Spark 165

第6章　Spark SQL 200

正文结束 221

附录A大数据和人工智能实验环境 222

附录B Hadoop环境要求 232

附录C名词解释 234

作者信息

刘鹏、张燕、袁晓东和黄必栋

袁晓东-数据库和大数据专家，1998年毕业于南京大学计算机系，获软件博士学位。曾任职于Oracel公司纽约分部、趋势科技南京研发中心，现为南京市领军型科技创业人才，云白科技创始人，江苏省计算机学会软件专委会委员，东南大学研究生院校外导师。