Scrapy网络爬虫开发实战

作者: 罗刚

出版社: 清华大学出版社

出版日期: 2024-06-01

电子书 ¥45.37 定价:69.8
  • 收藏

  • 加书架

  • 引用

简介

本书介绍了Scrapy网络爬虫快速入门,Python开发快速入门,使用 BeautifulSoup实现定向采集,网络爬虫抓取原理与Python实现, URL地址查新所用到的数据结构,把抓取下来的文本存入数据库。还介绍了从互联网提取信息的方法,具体包括识别网页的编码,用正则表达式提取字符串,从文本中提取结构化信息,以及从文件提取信息。然后介绍使用Scrapy框架开发爬虫,如何实现分布式爬虫,如何开发网络爬虫图形用户界面。最后介绍影视采集器和暗网爬虫的案例。本书适合零基础开始学习开发网络爬虫的读者或者需要提高的专业技术人员参考。

编辑推荐

《Scrapy网络爬虫开发实战》由猎兔搜索技术团队核心成员编写,使用流行的Scrapy框架开发网络爬虫的应用,适合需要具体实现网络爬虫应用的开发人员或者对网络爬虫等相关领域感兴趣的人士参考。

更多出版物信息
  • 版权: 清华大学出版社
  • 出版: 2024-06-01
  • 作者:罗刚
  • 更新: 2024-06-26
  • 书号:9787302658580
  • 中图:TP311.561
  • 学科:
    工学
    控制科学与工程
    工学
    计算机科学与技术
    工学
    软件工程

作者信息

罗刚

罗刚,2004年开始创建猎兔搜索技术,10多年来一直从事搜索引擎、自然语言处理、图像识别等技术的研发和团队管理工作。 曾经担任新东方公司研究员,国防大学科研处技术顾问,工信部舆情开发顾问,红象云腾公司技术顾问,青岛大快搜索公司首席架构师,中和云技术合伙人,东南大学社会导师,北京石油化工学院社会导师。近几年同时开展了学员就业培训工作,成功培训了50多位专业的软件工程师,培养的工程师目前分布在百度、美团、Nuance、云知声、摄星等相关公司研发中心。

相关图书