Hadoop+Spark+Python大数据处理从算法到实战

作者: 朱春旭

出版社: 北京大学出版社

出版日期: 2021-06-01

电子书 暂不销售 定价:99.0
  • 收藏

  • 加书架

  • 引用

简介

2020年3月,国家提出要加快5G网络,数据中心等新型基础设施(简称新基建)进度。其中,信息化新型基础设施包含了云计算、大数据、人工智能、区块链、5G等内容。本书围绕新基建的云计算、机器学习及人工智能展开讲述大数据处理分析与实战应用,分为如下五个部分。第1部分:介绍了大数据的概念与特点,以及几个典型的产业应用场景。通过这些案例简介,期望读者能够了解大数据的前景,以及作为科技工作者肩负的使命。第2部分:介绍了目前云计算中的一个重要研究与应用领域----容器云。这一部分包含容器技术Docker与容器编排工具Kubernetes。Docker能封装操作系统、应用程序及其执行环境。对于整个大数据来说,Docker是Hadoop、Hbase、Spark这些组件的基础运行平台。一般大数据运行平台规模都比较宏大,因此这里使用了Kubernetes来对容器进行管理。这样,就构建了基于容器云的大数据平台。第3部分:是大数据分析的基础,也是大数据分析技术的重点。首先介绍了Hadoop的框架原理、调度原理、MapReduce原理与编程模型、环境搭建。由于Hadoop的HDFS存在一定的读写局限,因此引入了Hbase以支持实时读写。同样HDFS的数据也存在一定的分析局限,因此引入了Hive来构建数据仓库,以提高分析效率。在本篇最后,还引入了Spark这样的高性能框架,进一步提高了大数据处理能力。第4部分:是机器学习相关算法的应用篇。机器学习是一个复杂的过程,涉及到统计学、微积分、信息论等内容。考虑到学习门槛,在这一环节,首先简单介绍了相关算法的原理,然后介绍相对容易使用的机器学习工具Sklearn,使得读者建立起对机器学习开发流程的基本认知,之后介绍应用于大数据环境下Spark的机器学习库。相信通过对这一部分内容的学习,读者已经掌握了基本的机器学习问题的处理。第5部分:通过第一个实例介绍了如何使用Spark机器学习库中的协同过滤算法,来实现基于Web的推荐系统;通过第二个实例介绍了如何使用OpenCV与TensorFlow构建卷积神经网络来实现基于Web的人脸识别。 本书内容精练、重点突出、实例丰富,是广大数据分析工作者的参考书,同时也非常适合大、中专院校师生学习阅读,还可作为高等院校统计分析及相关专业的教材。

更多出版物信息
  • 版权: 北京大学出版社
  • 出版: 2021-06-01
  • 作者:朱春旭
  • 更新: 2023-03-22
  • 书号:9787301321447
  • 中图:TP274
  • 学科:
    工学
    控制科学与工程
    工学
    计算机科学与技术