本书从实战角度系统论述了Python 爬虫技术的核心知识,并通过大量的真实项目帮助读者深入掌握Python 爬虫技术及其实现。本书提供了大量实战案例,演绎采用各种技术编写Python 爬虫的方式。读者可以任意组合使用这些技术,完成非常复杂的爬虫应用。本书共20 章,分为五篇。第一篇:基础知识(第1~2 章),主要包括Python 编程环境的搭建、IDE 的安装和使用、HTTP 的基础知识、网页基础(HTML、CSS、JavaScript)、爬虫的基本原理、Session、Cookie。第二篇:网络库(第3~5 章),主要包括网络库urllib、urllib3 和requests 的核心使用方法,例如,发送HTTP 请求、处理超时、设置HTTP 请求头、处理中文字符、搭建和使用代理、解析链接、Robots 协议等。第三篇:解析库(第6~9 章),主要包括3 个常用解析库(lxml、Beautiful Soup 和pyquery)的使用方法,同时介绍了多种用于分析HTML 代码的技术,例如,正则表达式、XPath、CSS 选择器、方法选择器等。第四篇:数据存储(第10~11 章),主要包括Python 中数据存储的解决方案,如文件存储和SQLite 数据库。第五篇:爬虫高级应用(第12~20 章),主要包括Python 爬虫的一些高级技术,如抓取异步数据、Selenium、Splash、抓取移动App 数据、Appium、多线程爬虫、爬虫框架Scrapy、通过OpenCV 技术识别验证码;最后给出一个综合的实战案例,该案例综合了Python 爬虫、数据存储、PyQt、多线程、数据可视化、Web 等多种技术实现一个可视化爬虫。
“私房菜谱” √ Python爬虫基础知识 √ Python网络库 √ Python解析库 √ Python数据存储 √ Python异步数据抓取 √ Python Splash爬虫 √ Python移动App数据抓取 √ Python多线程爬虫 √ Python可见即可“爬” √ Python Scrapy实战 √ Python识别验证码 √ Python项目实战 “实战项目” √ 抓取小说目录与正文 √ 抓取豆瓣网图书榜单 √ 抓取房屋租赁信息 √ 抓取豆瓣网音乐排行榜 √ 抓取百度网站图片搜索中的图片 √ 检测滑动验证码 √ 可视化爬虫抓取和分析当当网图书评论
- 版权: 清华大学出版社
- 出版: 2023-09-01
- 更新: 2024-01-10
- 书号:9787302640516
- 中图:TP312PY
- 学科:工学控制科学与工程工学计算机科学与技术工学软件工程