数据清洗是大数据预处理的关键环节。面对错综复杂的数据,传统的清洗“脏”数据工作单调且异常辛苦,如果能利用正确的工具和方法,可以让数据清洗工作变得事半功倍。本书讲解数据清洗的理论知识和实际应用,全书共8章: 第1章主要带领大家简单认识数据清洗;第2章主要讲解ETL技术相关的知识;第3章讲解Kettle工具的基本使用;第4章主要讲解数据清洗的第一步——数据抽取;第5章主要讲解数据清洗与检验;第6章主要讲解数据转换相关的知识;第7章主要讲解数据加载相关的知识;第8章利用前面章节所学的知识构建一个DVD租赁商店数据仓库,目的是实现定期从源数据库sakila中抽取增量数据,转换成符合DVD租赁业务的数据,最后加载到DVD租赁商店数据仓库中,便于后续在线DVD租赁商店的决策者对数据进行分析得出商业决策。本书附有配套视频、源代码、习题、教学设计、教学课件等资源。同时,为了帮助初学者更好地学习本书中的内容,还提供了在线答疑,欢迎读者关注。 本书可作为高等院校本专科计算机、信息管理等相关专业的大数据课程教材,也可供相关技术人员参考,是一本适合广大计算机编程爱好者的优秀读物。
数据清洗是数据挖掘与分析过程中不可缺少的环节,但因为数据类型极其复杂,传统的清洗脏数据工作单调乏味且异常辛苦。如果能使用正确的工具和方法,就可以让数据清洗工作事半功倍。本书讲述了大量的数据清洗的原理和方法,并介绍了真实的案例。让读者看了就懂,懂了就会做。 本书的读者可以零基础入门,不管会不会编程,都可以通过本书学会数据清洗。 每章开头都配有学习目标,每章末尾提供一套习题供读者练习,便于读者学习。 借助大量图示分析工作原理,降低学习难度,提升读者的学习兴趣。 本书采用理论+案例式的方式编排,几乎每个小节都配有动手案例,每个案例都清晰介绍了应用场景、实现步骤,让读者可以边学边练。 本书最后一章讲解了具有真实场景的DVD租赁业务数据清洗项目的全过程,让读者迅速积累实际项目经验,为未来的工作奠定理论和实践基础。 本书配套了丰富的教学资源供广大师生使用,另外,作者团队还提供了贴心、专业的在线咨询服务,随时解决教师和学生在使用本教材、资源过程中遇到的问题。
- 版权: 清华大学出版社
- 出版: 2020-04-01
- 更新: 2023-08-15
- 书号:9787302550877
- 中图:TP274
- 学科:工学控制科学与工程工学计算机科学与技术