文旌课堂

图书分类

新书推荐
国家规划教材
新机械、机电与自动化专业基础
旅游与酒店管理精品教材

当前位置：图书 > 图书分类 > 图书详情

搜索

Python网络爬虫技术案例教程（双色）（含微课）

ISBN：978-7-5647-8761-5/01

主编：林忠会、代飞、迟永芳

出版社：电子科大

适用层次：职业通用

出版/修订日期：2024-11-01

简介目录微课

教材习题

本书以案例为主线，全面地介绍了Python网络爬虫在不同场景下采用不同技术爬取网络数据的方法。全书共10章，内容包括网络爬虫入门、爬虫基础、网页解析基础、爬取动态加载数据、反爬虫策略、模拟登录和处理验证码、爬取App和PC客户端数据、爬虫框架Scrapy、分布式爬虫、项目实战——京东商品信息爬取及数据分析。

本书内容全面、案例典型、实用性强，且配套资源丰富，涵盖程序源代码、习题答案、优质课件和核心内容的视频讲解等。

本书可作为各类院校计算机、大数据、人工智能等相关专业及教育培训机构的专用教材，也可供网络爬虫爱好者及相关从业者参考使用。

第1章 网络爬虫入门

本章导读

学习目标

1.1 网络爬虫概述

1.1.1 网络爬虫原理

1.1.2 网络爬虫分类

1.1.3 网络爬虫应用

1.2 网络爬虫工作流程

1.2.1 爬取网页

1.2.2 解析网页

1.2.3 存储数据

1.3 网络爬虫协议

1.3.1 网络爬虫合法性

1.3.2 Robots协议

1.4 搭建Python开发环境

1.4.1 安装Anaconda

1.4.2 安装PyCharm

实战演练——使用PyCharm配置Conda环境

本章小结

课后习题

第2章 爬虫基础

本章导读

学习目标

2.1 HTTP基本原理

2.1.1 HTTP请求

2.1.2 HTTP响应

2.2 urllib库

2.2.1 案例引入——爬取有道在线翻译网站的数据

2.2.2 urllib库简介

2.2.3 发送请求

2.2.4 处理异常

2.2.5 解析URL

2.2.6 分析Robots协议

2.3 requests库

2.3.1 案例引入——爬取豆瓣网站的数据

2.3.2 安装requests库

2.3.3 请求方法

2.3.4 传递URL参数

2.3.5 定制请求头

2.3.6 设置Cookie

2.3.7 设置超时

2.3.8 获取二进制文件

2.4 字符编码

2.4.1 Python的字符编码

2.4.2 解决乱码问题

实战演练——爬取豆瓣电影TOP250网站的数据

本章小结

课后习题

第3章 网页解析基础

本章导读

学习目标

3.1 网页基础

3.2 lxml库

3.2.1 案例引入——爬取小说《三国演义》章节信息

3.2.2 lxml库简介

3.2.3 XPath语法

3.2.4 典型案例

3.3 beautifulsoup4库

3.3.1 案例引入——爬取Q房租房网站的数据

3.3.2 beautifulsoup4库简介

3.3.3 beautifulsoup4基本用法

3.3.4 方法选择器

3.3.5 CSS选择器

3.3.6 典型案例

3.4 正则表达式

3.4.1 案例引入——爬取百度搜索首页的数据

3.4.2 正则表达式基础

3.4.3 re模块

3.5 存储数据至文件

3.5.1 存储数据至JSON文件

3.5.2 存储数据至CSV文件

实战演练——爬取Q房租房网站房源信息

本章小结

课后习题

第4章 爬取动态加载数据

本章导读

学习目标

4.1 动态加载数据概述

4.2 逆向分析请求页面

4.2.1 案例引入——爬取京东网站的数据

4.2.2 分析页面

4.3 Selenium模拟浏览器

4.3.1 案例引入——Selenium模拟浏览器访问淘宝网站

4.3.2 Selenium简介

4.3.3 安装ChromeDriver

4.3.4 selenium库的使用

4.3.5 典型案例

4.4 存储数据至数据库

4.4.1 MySQL数据库

4.4.2 MongoDB数据库

实战演练——爬取中国知网文章信息

本章小结

课后习题

第5章 反爬虫策略

本章导读

学习目标

5.1 反爬虫策略

5.2 应对反爬虫的措施

5.2.1 使用代理IP

5.2.2 降低请求频率

5.2.3 典型案例

实战演练——爬取哔哩哔哩网站视频信息

本章小结

课后习题

第6章 模拟登录和处理验证码

本章导读

学习目标

6.1 模拟登录

6.2 处理验证码

6.2.1 处理图片验证码

6.2.2 处理点触验证码

6.2.3 处理滑动拼图验证码

本章小结

课后习题

第7章爬取App和PC客户端数据

本章导读

学习目标

7.1 爬取App数据

7.1.1 下载和安装Fiddler

7.1.2 设置Fiddler和Android手机

7.1.3 Fiddler抓包分析

7.1.4 爬取思路

7.1.5 典型案例

7.2 爬取PC客户端数据

7.2.1 下载和安装Proxifier

7.2.2 设置Fiddler和Proxifier

7.2.3 典型案例

实战演练——爬取出版资格准题库App模拟试题

本章小结

课后习题

第8章 爬虫框架Scrapy

本章导读

学习目标

8.1 Scrapy框架

8.2 Scrapy应用

8.2.1 创建项目

8.2.2 修改items脚本

8.2.3 创建spider脚本

8.2.4 修改settings脚本

8.2.5 运行爬虫程序

8.2.6 修改pipelines脚本

8.2.7 定制Middleware

实战演练——爬取中国大学MOOC网站课程信息

本章小结

课后习题

第9章 分布式爬虫

本章导读

学习目标

9.1 分布式爬虫原理

9.2 Scrapy-Redis分布式爬虫

9.2.1 安装和配置Redis数据库

9.2.2 安装redis-py库

9.2.3 安装scrapy-redis库

9.2.4 配置Scrapy-Redis

9.2.5 运行Scrapy-Redis分布式爬虫

9.3 使用Scrapyd部署分布式爬虫

9.3.1 安装和运行Scrapyd

9.3.2 安装Scrapyd-Client

9.3.3 配置Scrapyd-Client

9.3.4 使用Scrapyd-Client部署爬虫

本章小结

课后习题

第10章 项目实战——京东商品信息爬取及数据分析

本章导读

学习目标

10.1 项目需求

10.2 爬虫实现

10.2.1 初始化模块

10.2.2 搜索模块

10.2.3 解析模块

10.2.4 主模块

10.3 爬虫数据分析

10.3.1 加载数据

10.3.2 预处理数据

10.3.3 分析数据

本章小结

参考文献

搭建Python开发环境

播放下载

使用PyCharm配置Conda环境

播放下载

HTTP基本原理

播放下载

安装requests库

播放下载

请求方法

播放下载

传递URL参数

播放下载

定制请求头

播放下载

设置Cookie

播放下载

XPath语法

播放下载

beautifulsoup4基本使用

播放下载

CSS选择器

播放下载

逆向分析请求页面

播放下载

定位节点

播放下载

模拟浏览器操作

播放下载

页面等待

播放下载

pymongo库基本操作

播放下载

使用代理IP

播放下载

降低请求频率

播放下载

处理图片验证码

播放下载

处理点触验证码

播放下载

处理滑动拼图验证码

播放下载

设置Fiddler

播放下载

Fiddler抓包分析

播放下载

Scrapy应用

播放下载

Scrapy-Redis分布式爬虫

播放下载

第1章网络爬虫入门

课后习题
练习

第2章爬虫基础

第3章网页解析基础

第4章爬取动态加载数据

第5章反爬虫策略

第6章模拟登录和处理验证码

第7章爬取App和PC客户端数据

第8章爬虫框架Scrapy

第9章分布式爬虫

封面和样张

封面和样张

配套资料

课件
课件（最新）
教案
答案
课程标准
程序源代码

推荐课程

Python网络爬虫技术案例教程（双色）（含微课）

商品信息

付款方式

账号登录

学号登录

注册账号

APP扫码登录

APP扫码登录

绑定手机号

设置密码

绑定文旌账号

找回密码

找回密码

找回密码

设置密码

Python网络爬虫技术案例教程（双色）（含微课）

商品信息

付款方式

账号登录

学号登录

注册账号

APP扫码登录

APP扫码登录

绑定手机号

设置密码

绑定文旌账号

找回密码

找回密码

找回密码

设置密码

你尚未设置密码，是否前往立即设置？