简介
Apache HAWQ是一个SQL-on-Hadoop产品,它非常适合用于Hadoop平台上快速构建数据仓库系统。HAWQ具有大规模并行处理、完善的SQL兼容性、支持存储过程和事务、出色的性能表现等特性,还可与开源数据挖掘库MADlib轻松整合,从而使用SQL就能进行数据挖掘与机器学习。 《HAWQ数据仓库与数据挖掘实战》内容分技术解析、实战演练与数据挖掘三个部分共27章。技术解析部分说明HAWQ的基础架构与功能特性,包括安装、连接、对象与资源管理、查询优化、备份恢复、高可用性等。实战演练部分用一个完整的示例,说明如何使用HAWQ取代传统数据仓库,包括ETL处理、自动调度系统、维度表与事实表技术、OLAP与数据的图形化表示等。数据挖掘部分用实例说明HAWQ与MADlib整合,实现降维、协同过滤、关联规则、回归、聚类、分类等常见数据挖掘与机器学习方法。 《HAWQ数据仓库与数据挖掘实战》适合数据库管理员、大数据技术人员、Hadoop技术人员、数据仓库技术人员,也适合高等院校和培训机构相关专业的师生教学参考。
编辑推荐
HAWQ安装、连接、对象与资源管理、查询优化、备份恢复、高可用性、运维监控 ETL处理、自动调度系统、维度表与事实表技术、OLAP与数据的图形化表示 降维、协同过滤、关联规则、回归、聚类、分类等常见数据挖掘与机器学习方法
更多出版物信息
- 版权: 清华大学出版社
- 出版: 2018-04-01
- 更新: 2023-07-18
- 书号:9787302498025
- 中图:TP274;TP311.13
- 学科:工学控制科学与工程工学计算机科学与技术