当前位置: 图书 > 图书分类 > 图书详情

Python网络爬虫技术案例教程[黑龙江省规](双色)(含微课)

ISBN:978-7-5647-8761-5/01

主编:林忠会、代飞、迟永芳

出版社:电子科大

适用层次:职业通用

出版/修订日期:2024-11-01

¥58.80

前往购买 加入购物车
收藏
简介 目录 微课

本书以案例为主线,全面地介绍了Python网络爬虫在不同场景下采用不同技术爬取网络数据的方法。全书共10章,内容包括网络爬虫入门、爬虫基础、网页解析基础、爬取动态加载数据、反爬虫策略、模拟登录和处理验证码、爬取App和PC客户端数据、爬虫框架Scrapy、分布式爬虫、项目实战——京东商品信息爬取及数据分析。

本书内容全面、案例典型、实用性强,且配套资源丰富,涵盖程序源代码、习题答案、优质课件和核心内容的视频讲解等。

本书可作为各类院校计算机、大数据、人工智能等相关专业及教育培训机构的专用教材,也可供网络爬虫爱好者及相关从业者参考使用。

1  网络爬虫入门

本章导读

学习目标

1.1  网络爬虫概述

1.1.1  网络爬虫原理

1.1.2  网络爬虫分类

1.1.3  网络爬虫应用

1.2  网络爬虫工作流程

1.2.1  爬取网页

1.2.2  解析网页

1.2.3  存储数据

1.3  网络爬虫协议

1.3.1  网络爬虫合法性

1.3.2  Robots协议

1.4  搭建Python开发环境

1.4.1  安装Anaconda

1.4.2  安装PyCharm

实战演练——使用PyCharm配置Conda环境

本章小结

课后习题


2  爬虫基础

本章导读

学习目标

2.1  HTTP基本原理

2.1.1  HTTP请求

2.1.2  HTTP响应

2.2  urllib库

2.2.1  案例引入——爬取有道在线翻译网站的数据

2.2.2  urllib库简介

2.2.3  发送请求

2.2.4  处理异常

2.2.5  解析URL

2.2.6  分析Robots协议

2.3  requests库

2.3.1  案例引入——爬取豆瓣网站的数据

2.3.2  安装requests库

2.3.3  请求方法

2.3.4  传递URL参数

2.3.5  定制请求头

2.3.6  设置Cookie

2.3.7  设置超时

2.3.8  获取二进制文件

2.4  字符编码

2.4.1  Python的字符编码

2.4.2  解决乱码问题

实战演练——爬取豆瓣电影TOP250网站的数据

本章小结

课后习题


3  网页解析基础

本章导读

学习目标

3.1  网页基础

3.2  lxml库

3.2.1  案例引入——爬取小说《三国演义》章节信息

3.2.2  lxml库简介

3.2.3  XPath语法

3.2.4  典型案例

3.3  beautifulsoup4库

3.3.1  案例引入——爬取Q房租房网站的数据

3.3.2  beautifulsoup4库简介

3.3.3  beautifulsoup4基本用法

3.3.4  方法选择器

3.3.5  CSS选择器

3.3.6  典型案例

3.4  正则表达式

3.4.1  案例引入——爬取百度搜索首页的数据

3.4.2  正则表达式基础

3.4.3  re模块

3.5  存储数据至文件

3.5.1  存储数据至JSON文件

3.5.2  存储数据至CSV文件

实战演练——爬取Q房租房网站房源信息

本章小结

课后习题


4  爬取动态加载数据

本章导读

学习目标

4.1  动态加载数据概述

4.2  逆向分析请求页面

4.2.1  案例引入——爬取京东网站的数据

4.2.2  分析页面

4.3  Selenium模拟浏览器

4.3.1  案例引入——Selenium模拟浏览器访问淘宝网站

4.3.2  Selenium简介

4.3.3  安装ChromeDriver

4.3.4  selenium库的使用

4.3.5  典型案例

4.4  存储数据至数据库

4.4.1  MySQL数据库

4.4.2  MongoDB数据库

实战演练——爬取中国知网文章信息

本章小结

课后习题


5  反爬虫策略

本章导读

学习目标

5.1  反爬虫策略

5.2  应对反爬虫的措施

5.2.1  使用代理IP

5.2.2  降低请求频率

5.2.3  典型案例

实战演练——爬取哔哩哔哩网站视频信息

本章小结

课后习题


6  模拟登录和处理验证码

本章导读

学习目标

6.1  模拟登录

6.2  处理验证码

6.2.1  处理图片验证码

6.2.2  处理点触验证码

6.2.3  处理滑动拼图验证码

本章小结

课后习题


7  爬取AppPC客户端数据

本章导读

学习目标

7.1  爬取App数据

7.1.1  下载和安装Fiddler

7.1.2  设置Fiddler和Android手机

7.1.3  Fiddler抓包分析

7.1.4  爬取思路

7.1.5  典型案例

7.2  爬取PC客户端数据

7.2.1  下载和安装Proxifier

7.2.2  设置Fiddler和Proxifier

7.2.3  典型案例

实战演练——爬取出版资格准题库App模拟试题

本章小结

课后习题


8  爬虫框架Scrapy

本章导读

学习目标

8.1  Scrapy框架

8.2  Scrapy应用

8.2.1  创建项目

8.2.2  修改items脚本

8.2.3  创建spider脚本

8.2.4  修改settings脚本

8.2.5  运行爬虫程序

8.2.6  修改pipelines脚本

8.2.7  定制Middleware

实战演练——爬取中国大学MOOC网站课程信息

本章小结

课后习题


9  分布式爬虫

本章导读

学习目标

9.1  分布式爬虫原理

9.2  Scrapy-Redis分布式爬虫

9.2.1  安装和配置Redis数据库

9.2.2  安装redis-py库

9.2.3  安装scrapy-redis库

9.2.4  配置Scrapy-Redis

9.2.5  运行Scrapy-Redis分布式爬虫

9.3  使用Scrapyd部署分布式爬虫

9.3.1  安装和运行Scrapyd

9.3.2  安装Scrapyd-Client

9.3.3  配置Scrapyd-Client

9.3.4  使用Scrapyd-Client部署爬虫

本章小结

课后习题


10  项目实战——京东商品信息爬取及数据分析

本章导读

学习目标

10.1  项目需求

10.2  爬虫实现

10.2.1  初始化模块

10.2.2  搜索模块

10.2.3  解析模块

10.2.4  主模块

10.3  爬虫数据分析

10.3.1  加载数据

10.3.2  预处理数据

10.3.3  分析数据

本章小结


参考文献

搭建Python开发环境

播放 下载

使用PyCharm配置Conda环境

播放 下载

HTTP基本原理

播放 下载

安装requests库

播放 下载

请求方法

播放 下载

传递URL参数

播放 下载

定制请求头

播放 下载

设置Cookie

播放 下载

XPath语法

播放 下载

beautifulsoup4基本使用

播放 下载

CSS选择器

播放 下载

逆向分析请求页面

播放 下载

定位节点

播放 下载

模拟浏览器操作

播放 下载

页面等待

播放 下载

pymongo库基本操作

播放 下载

使用代理IP

播放 下载

降低请求频率

播放 下载

处理图片验证码

播放 下载

处理点触验证码

播放 下载

处理滑动拼图验证码

播放 下载

设置Fiddler

播放 下载

Fiddler抓包分析

播放 下载

Scrapy应用

播放 下载

Scrapy-Redis分布式爬虫

播放 下载

第1章 网络爬虫入门

第2章 爬虫基础

第3章 网页解析基础

第4章 爬取动态加载数据

第5章 反爬虫策略

第6章 模拟登录和处理验证码

第7章 爬取App和PC客户端数据

第8章 爬虫框架Scrapy

第9章 分布式爬虫

封面和样张
  • 封面和样张

配套资料
  • 程序源代码

  • 答案

  • 课件

  • 课件(最新)

推荐课程
购买提示

没有微课下载权限,如需下载请先购买~

商品信息

Python网络爬虫技术案例教程[黑龙江省规](双色)(含微课)微课

0

付款方式

去支付

0M/0M

0%

文件加载中,请耐心等待

取消

APP