数据清洗

作者: 刘鹏 张燕 李法平 陈潇潇

出版社: 清华大学出版社

出版日期: 2018-06-01

电子书 ¥37.7 定价:58.0 纸书价格¥53.90,点此比价
  • 收藏

  • 加书架

  • 引用

简介

数据清洗是大数据领域不可缺少的环节,用来发现并纠正数据中可能存在的错误,针对数据审查过程中发现的错误值、缺失值、异常值、可疑数据,选用适当方法进行“清理”,使“脏”数据变为“干净”数据。 本书共分为8章:第1章主要介绍数据清洗的概念、任务和流程,数据标准化概念及数据仓库技术等;第2章主要介绍Windows和类UNIX操作系统下的数据常规格式、数据编码及数据类型转换等;第3章介绍ETL概念、数据清洗的技术路线、ETL工具及ETL子系统等;第4章介绍Excel、Kettle、OpenRefine、DataWrangler和Hawk的安装及使用等;第5章介绍Kettle下文本文件抽取、Web数据抽取、数据库数据抽取及增量数据抽取等;第6章介绍数据清洗步骤、数据检验、数据错误处理、数据质量评估及数据加载;第7章介绍网页结构,利用网络爬虫技术进行数据采集,利用JavaScript技术进行行为日志数据采集等;第8章介绍RDBMS的数据清洗方法和数据脱敏处理技术等。 本书系统地讲解了数据清洗理论和实际应用,适用于高职高专院校和应用型本科的大数据课程教学,也适用于希望了解数据清洗的广大读者。

编辑推荐

数据清洗是大数据技术不可缺少的环节,用来发现并纠正数据中可能存在的错误,针对数据审查过程中发现的错误值、缺失值、异常值、可疑数据,选用适当方法进行“清理”,把“脏”的数据变为“干净”的数据。本书详细讲解了ETL技术方法和常用工具、常用的数据清洗工具、数据抽取、数据转换与加载、对Web数据的采集、对RDBMS数据的清洗操作。目前市面上此类书还很少,对数据清洗从业人员是一本不可多得的技术参考书,也可以作为应用型院校的课程教材。

更多出版物信息
  • 版权: 清华大学出版社
  • 出版: 2018-06-01
  • 作者:刘鹏 张燕 李法平 陈潇潇
  • 更新: 2023-07-10
  • 书号:9787302493273
  • 中图:TP274
  • 学科:
    工学
    控制科学与工程
    工学
    计算机科学与技术

作者信息

刘鹏 张燕 李法平 陈潇潇

李法平- 副教授/系统分析师,硕士,重庆电子工程职业学院软件学院移动应用开发教研室主任,主要从事高职软件类专业教学研究、教育信息化系统和企业信息化系统等应用技术研究。

相关图书