ISBN:978-7-5647-8761-5/01
主编:林忠会、代飞、迟永芳
出版社:电子科大
适用层次:职业通用
出版/修订日期:2024-11-01
¥58.80
本书以案例为主线,全面地介绍了Python网络爬虫在不同场景下采用不同技术爬取网络数据的方法。全书共10章,内容包括网络爬虫入门、爬虫基础、网页解析基础、爬取动态加载数据、反爬虫策略、模拟登录和处理验证码、爬取App和PC客户端数据、爬虫框架Scrapy、分布式爬虫、项目实战——京东商品信息爬取及数据分析。
本书内容全面、案例典型、实用性强,且配套资源丰富,涵盖程序源代码、习题答案、优质课件和核心内容的视频讲解等。
本书可作为各类院校计算机、大数据、人工智能等相关专业及教育培训机构的专用教材,也可供网络爬虫爱好者及相关从业者参考使用。
第1章 网络爬虫入门
本章导读
学习目标
1.1 网络爬虫概述
1.1.1 网络爬虫原理
1.1.2 网络爬虫分类
1.1.3 网络爬虫应用
1.2 网络爬虫工作流程
1.2.1 爬取网页
1.2.2 解析网页
1.2.3 存储数据
1.3 网络爬虫协议
1.3.1 网络爬虫合法性
1.3.2 Robots协议
1.4 搭建Python开发环境
1.4.1 安装Anaconda
1.4.2 安装PyCharm
实战演练——使用PyCharm配置Conda环境
本章小结
课后习题
第2章 爬虫基础
本章导读
学习目标
2.1 HTTP基本原理
2.1.1 HTTP请求
2.1.2 HTTP响应
2.2 urllib库
2.2.1 案例引入——爬取有道在线翻译网站的数据
2.2.2 urllib库简介
2.2.3 发送请求
2.2.4 处理异常
2.2.5 解析URL
2.2.6 分析Robots协议
2.3 requests库
2.3.1 案例引入——爬取豆瓣网站的数据
2.3.2 安装requests库
2.3.3 请求方法
2.3.4 传递URL参数
2.3.5 定制请求头
2.3.6 设置Cookie
2.3.7 设置超时
2.3.8 获取二进制文件
2.4 字符编码
2.4.1 Python的字符编码
2.4.2 解决乱码问题
实战演练——爬取豆瓣电影TOP250网站的数据
本章小结
课后习题
第3章 网页解析基础
本章导读
学习目标
3.1 网页基础
3.2 lxml库
3.2.1 案例引入——爬取小说《三国演义》章节信息
3.2.2 lxml库简介
3.2.3 XPath语法
3.2.4 典型案例
3.3 beautifulsoup4库
3.3.1 案例引入——爬取Q房租房网站的数据
3.3.2 beautifulsoup4库简介
3.3.3 beautifulsoup4基本用法
3.3.4 方法选择器
3.3.5 CSS选择器
3.3.6 典型案例
3.4 正则表达式
3.4.1 案例引入——爬取百度搜索首页的数据
3.4.2 正则表达式基础
3.4.3 re模块
3.5 存储数据至文件
3.5.1 存储数据至JSON文件
3.5.2 存储数据至CSV文件
实战演练——爬取Q房租房网站房源信息
本章小结
课后习题
第4章 爬取动态加载数据
本章导读
学习目标
4.1 动态加载数据概述
4.2 逆向分析请求页面
4.2.1 案例引入——爬取京东网站的数据
4.2.2 分析页面
4.3 Selenium模拟浏览器
4.3.1 案例引入——Selenium模拟浏览器访问淘宝网站
4.3.2 Selenium简介
4.3.3 安装ChromeDriver
4.3.4 selenium库的使用
4.3.5 典型案例
4.4 存储数据至数据库
4.4.1 MySQL数据库
4.4.2 MongoDB数据库
实战演练——爬取中国知网文章信息
本章小结
课后习题
第5章 反爬虫策略
本章导读
学习目标
5.1 反爬虫策略
5.2 应对反爬虫的措施
5.2.1 使用代理IP
5.2.2 降低请求频率
5.2.3 典型案例
实战演练——爬取哔哩哔哩网站视频信息
本章小结
课后习题
第6章 模拟登录和处理验证码
本章导读
学习目标
6.1 模拟登录
6.2 处理验证码
6.2.1 处理图片验证码
6.2.2 处理点触验证码
6.2.3 处理滑动拼图验证码
本章小结
课后习题
第7章 爬取App和PC客户端数据
本章导读
学习目标
7.1 爬取App数据
7.1.1 下载和安装Fiddler
7.1.2 设置Fiddler和Android手机
7.1.3 Fiddler抓包分析
7.1.4 爬取思路
7.1.5 典型案例
7.2 爬取PC客户端数据
7.2.1 下载和安装Proxifier
7.2.2 设置Fiddler和Proxifier
7.2.3 典型案例
实战演练——爬取出版资格准题库App模拟试题
本章小结
课后习题
第8章 爬虫框架Scrapy
本章导读
学习目标
8.1 Scrapy框架
8.2 Scrapy应用
8.2.1 创建项目
8.2.2 修改items脚本
8.2.3 创建spider脚本
8.2.4 修改settings脚本
8.2.5 运行爬虫程序
8.2.6 修改pipelines脚本
8.2.7 定制Middleware
实战演练——爬取中国大学MOOC网站课程信息
本章小结
课后习题
第9章 分布式爬虫
本章导读
学习目标
9.1 分布式爬虫原理
9.2 Scrapy-Redis分布式爬虫
9.2.1 安装和配置Redis数据库
9.2.2 安装redis-py库
9.2.3 安装scrapy-redis库
9.2.4 配置Scrapy-Redis
9.2.5 运行Scrapy-Redis分布式爬虫
9.3 使用Scrapyd部署分布式爬虫
9.3.1 安装和运行Scrapyd
9.3.2 安装Scrapyd-Client
9.3.3 配置Scrapyd-Client
9.3.4 使用Scrapyd-Client部署爬虫
本章小结
课后习题
第10章 项目实战——京东商品信息爬取及数据分析
本章导读
学习目标
10.1 项目需求
10.2 爬虫实现
10.2.1 初始化模块
10.2.2 搜索模块
10.2.3 解析模块
10.2.4 主模块
10.3 爬虫数据分析
10.3.1 加载数据
10.3.2 预处理数据
10.3.3 分析数据
本章小结
参考文献
搭建Python开发环境
使用PyCharm配置Conda环境
HTTP基本原理
安装requests库
请求方法
传递URL参数
定制请求头
设置Cookie
XPath语法
beautifulsoup4基本使用
CSS选择器
逆向分析请求页面
定位节点
模拟浏览器操作
页面等待
pymongo库基本操作
使用代理IP
降低请求频率
处理图片验证码
处理点触验证码
处理滑动拼图验证码
设置Fiddler
Fiddler抓包分析
Scrapy应用
Scrapy-Redis分布式爬虫
没有微课下载权限,如需下载请先购买~
Python网络爬虫技术案例教程[黑龙江省规](双色)(含微课)微课
¥0微信支付
支付宝支付
购物车
联系客服
APP下载
帮助
微信公众号
教师服务号
学生服务号
返回顶部
验证身份
重置密码
完成
*请输入正确的手机号
*请输入验证码
验证身份
重置密码
完成
*请输入密码
*请输入密码
验证身份
重置密码
完成
5s 跳转登录页
*请输入密码
*请输入密码
0M/0M
文件加载中,请耐心等待