本书通过精选案例引导读者系统学习,系统完整地介绍了网络爬虫的开发知识和技巧。 本书主要基于Python 3.7开发网络爬虫,主要内容包括认识爬虫、爬虫需要具备的基础知识、数据提取的方式、如何提高爬虫的效率、数据的存储、动态页面的爬取、机器识别、模拟登陆、设置代理IP、Scrapy爬虫框架和分布式爬虫等知识点。为了让读者更好的掌握这些技术和更多的了解爬虫的功能,本书后提供了九个实战项目,通过大量案例操作,来让读者提高爬虫的反爬和数据提取等爬虫技术实战的能力。 本书不仅适合零基础或有部分编码能力并对爬虫技术有兴趣的读者,而且适合准备从事或学习数据科学与人工智能相关行业的读者。
● 案例完整 本书中的所有案例都是通过“理论讲解 + 环境搭建 + 完整代码及分析 + 运行结果”这种完善的结构进行讲解的。此外,复杂的案例配有项目结构图,有难度的案例还分析了底层源码,并且对于所有案例的讲解,都考虑到了读者可能会遇到的各种问题。 ● 案例经典实用 本书中的案例大多是由真实项目简化而来的,既体现了所述知识点的精华,又屏蔽了无关技术的干扰。此外,本书在案例讲解时,也充分考量了相关知识的各种实际应用场景,将同一个技术在多个场景下的不同角色都做了充分的讲解。 ● 进阶的必学技术一网打尽 本书讲解的爬虫分析、发送请求、数据提取、数据存储、并发爬虫和分布式爬虫等技术是每一位爬虫程序员在进阶路上的必学知识。本书将这些技术的核心要点进行了深入细致的讲解,可以帮助读者尽快取得技术上的突破。 ● 系统讲解前沿稀缺知识 本书中介绍的Selenium和Scrapy等技术,均被国内外各大互联网公司大量使用,但目前这些技术的相关资料却少之又少,实战型的书籍更是匮乏。本书对这些学习资源相对稀缺,但同时又是经典必学的知识进行了较为系统的讲解,非常有助于读者快速提升自己已有的知识体系。 ● 文字通俗易懂 本书的作者不仅有着多年的开发经验,还承担过多年的技术讲师及教学管理工作,非常擅长用清晰易懂的文字阐述各种难点技术。
- 版权: 北京大学出版社
- 出版: 2020-05-01
- 更新: 2023-03-22
- 书号:9787301312827
- 中图:TP311.561
- 学科:工学控制科学与工程工学计算机科学与技术工学软件工程