玩转Python网络爬虫

作者: 黄永祥

出版社: 清华大学出版社

出版日期: 2018-08-01

电子书 ¥45.54 定价:69.0
  • 收藏

  • 加书架

  • 引用

简介

本书站在初学者的角度,从原理到实践,循序渐进地讲述了使用Python开发网络爬虫的核心技术。全书从逻辑上可分为基础篇、实战篇和爬虫框架篇三部分。基础篇主要介绍了编写网络爬虫所需的基础知识,分别是网站分析、数据抓取、数据清洗和数据入库。网站分析讲述如何使用Chrome和Fiddler抓包工具对网络做全面分析;数据抓取介绍了Python爬虫模块Urllib和Requests的基础知识;数据清洗主要介绍字符串操作、正则和Beautiful Soup的使用;数据入库分别讲述了MySQL和MongoDB的操作,通过ORM框架SQLAlchemy实现数据持久化,实现企业级开发。实战篇深入讲解了分布式爬虫、爬虫软件开发与应用、12306抢票程序和微博爬取,所举示例均来自于开发实践,可帮助读者快速提升技能,开发实际项目。框架篇主要讲述Scrapy的基础知识,并通过爬取QQ音乐为实例,让读者深层次了解Scrapy的使用。 本书内容丰富,注重实战,适用于从零开始学习网络爬虫的初学者,或者是已经有一些网络爬虫编写经验,但希望更加全面、深入理解Python爬虫的开发人员。

编辑推荐

本书站在初学者的角度,从原理到实践,深入、系统地阐述了使用Python 3开发网络爬虫的核心技术,全书从逻辑上可分为基础篇、实战篇和爬虫框架篇三部分。 基础篇 主要介绍了编写网络爬虫所需的基础知识,包括网站分析、数据抓取、数据清洗和数据入库。 网站分析讲述如何使用Chrome和Fiddler抓包工具对网站做全面分析。 数据抓取介绍了Python爬虫模块Urllib和Requests的基础知识。 数据清洗主要介绍字符串操作、正则表达式和Beautiful Soup的使用。 数据入库分别讲述了MySQL和MongoDB的操作,通过ORM框架SQLAlchemy实现数据持久化,实现企业级开发。 实战篇 深入讲解了分布式爬虫、爬虫软件的开发与应用、12306抢票程序和微博爬取,所举实例均来自于编者的开发实践,可帮助读者快速提升技能,开发自己的实际项目。 爬虫框架篇 主要讲述Scrapy的原理和特性,通过爬取QQ音乐实例,介绍Scrapy在网络爬虫中的应用技巧。本部分内容可使读者深入地了解Scrapy的使用,并举一反三,编写出复杂的网络爬虫程序。 本书既介绍编写网络爬虫的各种技术,又注重以网络爬虫和网站分析的思想为出发点,培养读者编写网络爬虫的逻辑思维,使读者能够针对不同的网站制定出不同的爬虫方案;此外,还介绍了反爬虫机制和相应的解决方案,是读者入职爬虫工程师的很好实践。 本书所有程序代码均在Python 3.5环境下测试通过,读者可从网络上下载本书所有实例源代码。

更多出版物信息
  • 版权: 清华大学出版社
  • 出版: 2018-08-01
  • 作者:黄永祥
  • 更新: 2023-07-18
  • 书号:9787302503286
  • 中图:TP311.561
  • 学科:
    工学
    控制科学与工程
    工学
    计算机科学与技术
    工学
    软件工程

作者信息

黄永祥

黄永祥,信息管理与信息系统专业学士,曾从事过系统开发和自动化开发,精通B/S和C/S自动化测试技术,多年网络爬虫开发经验,对反爬虫机制有独到的见解,精通Flask、Django等Web框架并有丰富的网站开发经验。曾就职于广州易点科技有限公司,担任Python开发工程师,目前就职于广东数据集成有限公司。热爱分享和新技术的探索,在CSDN上发表多篇Python技术文章。

相关图书