实战Python网络爬虫

作者: 黄永祥

出版社: 清华大学出版社

出版日期: 2019-06-01

电子书 ¥35.64 定价:99.0 纸书价格¥90.40,点此比价
  • 收藏

  • 加书架

  • 引用

简介

本书从原理到实践,循序渐进地讲述了使用Python开发网络爬虫的核心技术。全书从逻辑上可分为基础篇、实战篇和爬虫框架篇三部分。基础篇主要介绍了编写网络爬虫所需的基础知识,包括网站分析、数据抓取、数据清洗和数据入库。网站分析讲述如何使用Chrome和Fiddler抓包工具对网站做全面分析;数据抓取介绍了Python爬虫模块Urllib和Requests的基础知识;数据清洗主要介绍字符串操作、正则和BeautifulSoup的使用;数据入库讲述了MySQL和MongoDB的操作,通过ORM框架SQLAlchemy实现数据持久化,进行企业级开发。实战篇深入讲解了分布式爬虫、爬虫软件的开发、12306抢票程序和微博爬取等。框架篇主要讲述流行的爬虫框架Scrapy,并以Scrapy与Selenium、Splash、Redis结合的项目案例,让读者深层次了解Scrapy的使用。此外,本书还介绍了爬虫的上线部署、如何自己动手开发一款爬虫框架、反爬虫技术的解决方案等内容。 本书使用Python 3.X编写,技术先进,项目丰富,适合欲从事爬虫工程师和数据分析师岗位的初学者、大学生和研究生使用,也很适合有一些网络爬虫编写经验,但希望更加全面、深入理解Python爬虫的开发人员使用。

更多出版物信息
  • 版权: 清华大学出版社
  • 出版: 2019-06-01
  • 作者:黄永祥
  • 更新: 2023-06-19
  • 书号:9787302524892
  • 中图:TP311.561
  • 学科:
    工学
    控制科学与工程
    工学
    计算机科学与技术
    工学
    软件工程