Python爬虫从菜鸟到高手

作者: 李宁

出版社: 清华大学出版社

出版日期: 2023-09-01

电子书 ¥77.34 定价:119.0
  • 收藏

  • 加书架

  • 引用

简介

本书从实战角度系统论述了Python 爬虫技术的核心知识,并通过大量的真实项目帮助读者深入掌握Python 爬虫技术及其实现。本书提供了大量实战案例,演绎采用各种技术编写Python 爬虫的方式。读者可以任意组合使用这些技术,完成非常复杂的爬虫应用。本书共20 章,分为五篇。第一篇:基础知识(第1~2 章),主要包括Python 编程环境的搭建、IDE 的安装和使用、HTTP 的基础知识、网页基础(HTML、CSS、JavaScript)、爬虫的基本原理、Session、Cookie。第二篇:网络库(第3~5 章),主要包括网络库urllib、urllib3 和requests 的核心使用方法,例如,发送HTTP 请求、处理超时、设置HTTP 请求头、处理中文字符、搭建和使用代理、解析链接、Robots 协议等。第三篇:解析库(第6~9 章),主要包括3 个常用解析库(lxml、Beautiful Soup 和pyquery)的使用方法,同时介绍了多种用于分析HTML 代码的技术,例如,正则表达式、XPath、CSS 选择器、方法选择器等。第四篇:数据存储(第10~11 章),主要包括Python 中数据存储的解决方案,如文件存储和SQLite 数据库。第五篇:爬虫高级应用(第12~20 章),主要包括Python 爬虫的一些高级技术,如抓取异步数据、Selenium、Splash、抓取移动App 数据、Appium、多线程爬虫、爬虫框架Scrapy、通过OpenCV 技术识别验证码;最后给出一个综合的实战案例,该案例综合了Python 爬虫、数据存储、PyQt、多线程、数据可视化、Web 等多种技术实现一个可视化爬虫。

编辑推荐

“私房菜谱” √ Python爬虫基础知识 √ Python网络库 √ Python解析库 √ Python数据存储 √ Python异步数据抓取 √ Python Splash爬虫 √ Python移动App数据抓取 √ Python多线程爬虫 √ Python可见即可“爬” √ Python Scrapy实战 √ Python识别验证码 √ Python项目实战 “实战项目” √ 抓取小说目录与正文 √ 抓取豆瓣网图书榜单 √ 抓取房屋租赁信息 √ 抓取豆瓣网音乐排行榜 √ 抓取百度网站图片搜索中的图片 √ 检测滑动验证码 √ 可视化爬虫抓取和分析当当网图书评论

更多出版物信息
  • 版权: 清华大学出版社
  • 出版: 2023-09-01
  • 作者:李宁
  • 更新: 2024-01-10
  • 书号:9787302640516
  • 中图:TP312PY
  • 学科:
    工学
    控制科学与工程
    工学
    计算机科学与技术
    工学
    软件工程

作者信息

李宁

李宁, 欧瑞科技创始人&CEO,宁哥教育创始人,东北大学计算机硕士。曾任国内某大型软件公司项目经理、宁哥教育教学总监、51CTO学院讲师、CSDN特级讲师。从事软件研究和开发超过15年,一直从事Python、人工智能、区块链、、Node.js、Java以及跨平台技术的研究和技术指导工作,对国内外相关领域的技术、理论和实践有很深的理解和研究