简介
本书基于“基础知识” +“代码示例” +“应用案例”的模式编写,共包括 7个项目。项目 1主要介绍互联网数据采集的入门知识;项目 2通过一个入门级的简单案例,介绍互联网数据采集的基本流程;项目 3通过一个进阶的案例,详细介绍在没有给出官方开放 API的情况下,如何通过抓包工具获取 XHR请求地址;项目 4主要介绍 HTML文档数据的采集,对 HTML进行解析,以及如何提取数据的属性与文本;项目 5主要讲解批量获取数据的整理与合并技巧;项目 6重点讲解如何通过 Python的 pymysql库对 MySQL进行读写;项目 7给出了对半结构化数据进行处理的最佳实践。本书内容条理清晰、案例丰富,可以作为职业院校大数据、人工智能、云计算等相关专业的教材,也可以作为行业从业人员的参考用书。 本书封面贴有清华大学出版社防伪标签,无标签者不得销售。
编辑推荐
本书在内容编排上采用“基础知识”+“代码示例”+“应用案例”的模式,涵盖了互联网数据采集中最主要的知识点,通过真实的案例使用场景,让读者能举一反三,从而将技术应用到实际工作中。
更多出版物信息
- 版权: 清华大学出版社
- 出版: 2022-11-01
- 更新: 2023-06-19
- 书号:9787302619109
- 中图:TP274
- 学科:工学控制科学与工程工学计算机科学与技术