简介
本书基于计算机类专业对大数据平台技术和大规模数据处理的实战需求,在阐述数据科学、Hadoop和Spark配置要点和大数据处理周期的基础上,重点阐述大数据采集与存储、预处理、特征工程、数据可视化分析、机器学习基础等大数据处理技术及其Python实现,以及基于Hadoop和Spark平台的Python接口调用和机器学习编程实例分析。本书既强调了大数据处理周期的基本原理和关键技术,又突出机器学习算法及其在分布式系统中的应用编程方法。 本书可作为高等院校计算机、大数据、人工智能、软件工程等专业的教材,也可作为大数据技术研发人员和研究生的学习参考用书。
编辑推荐
本书是在Hadoop/Spark平台下开展Python应用开发,针对大数据处理周期,全面开展架构原理和编程实践的综合书籍。配套资源丰富,包括操作视频、PPT和实战程序。
更多出版物信息
- 版权: 清华大学出版社
- 出版: 2021-08-01
- 更新: 2023-06-22
- 书号:9787302581321
- 中图:TP181;TP311.561
- 学科:工学控制科学与工程工学计算机科学与技术工学软件工程交叉学科智能科学与技术