Python网络爬虫实战入门精选

时间2024-05-17 00:54:03发布访客分类HTML浏览29

导读： 网络爬虫（又被称为网页蜘蛛，网络机器人），是一种按照一定的规则，自动地抓取万维网信息的程序。爬虫的基本流程：发起请求：通过HTTP库向目标站点发起请求，也就是发送一个Request，请求可以包含额外的header...

　　网络爬虫（又被称为网页蜘蛛，网络机器人），是一种按照一定的规则，自动地抓取万维网信息的程序。　　爬虫的基本流程：　　发起请求：　　通过HTTP库向目标站点发起请求，也就是发送一个Request，请求可以包含额外的header等信息，等待服务器响应　　获取响应内容：　　如果服务器能正常响应，会得到一个Response，Response的内容便是所要获取的页面内容，类型可能是HTML,Json字符串，二进制数据（图片或者视频）等类型　　解析内容：　　得到的内容可能是HTML,可以用正则表达式，页面解析库进行解析，可能是Json,可以直接转换为Json对象解析，可能是二进制数据，可以做保存或者进一步的处理　　保存数据：　　保存形式多样，可以存为文本，也可以保存到数据库，或者保存特定格式的文件　　准备安装以下三个库：　　Urllib是python内置的标准库模块，使用它可以像访问本地文本文件一样读取网页的内容。Python的Urllib库模块包括以下四个模块：　　urllib.request 请求模块　　urllib.error 异常处理模块　　urllib.parse url解析模块　　urllib.robotparser解析模块　　基本使用步骤：　　（1）导入urllib.request模块　　（2）连接要访问的网站，发起请求　　（3）获取网站代码信息　　（1）BeautifulSoup模块的基本元素　　（2）标签树　　在解析网页文档的过程中，需要应用BeautifulSoup模块对HTML内容进行遍历。　　设有如下的一个HTML文档：　　（3）BeautifulSoup模块对象"标签树"的上行遍历属性　　（4）BeautifulSoup模块对象"标签树"的下行遍历属性　　（5）BeautifulSoup模块对象的信息提取方法　　爬取某网站的网络版小说《红楼梦》。打开《红楼梦》小说的目录页面会如图所示。　　运用F12，找对应章节的位置　　首先爬取对应章节的网址：　　爬取每一章节的内容：　　当然如此显示会很不好看，我们去试一下生成一本《红楼梦》.txt，默认存在我的D盘　　感悟：效果很不错，以后看小说不愁没资源了，自行爬取txt导入手机免费看（也可以复制粘贴到word自动分行），当然之前还在52pj看过爬妹子图，乐趣无穷。

声明：本文内容由网友自发贡献，本站不承担相应法律责任。对本内容有异议或投诉，请联系2913721942#qq.com核实处理，我们将尽快回复您，谢谢合作！

若转载请注明出处： Python网络爬虫实战入门精选
本文地址： https://pptw.com/jishu/661640.html

手把手教会你爬取网页数据知识分享 Python实现简易Web爬虫详解整理