首页前端开发HTMLPython网络爬虫实战入门精选

Python网络爬虫实战入门精选

时间2024-05-17 00:54:03发布访客分类HTML浏览29
导读: 网络爬虫(又被称为网页蜘蛛,网络机器人),是一种按照一定的规则,自动地抓取万维网信息的程序。 爬虫的基本流程: 发起请求: 通过HTTP库向目标站点发起请求,也就是发送一个Request,请求可以包含额外的header...
  网络爬虫(又被称为网页蜘蛛,网络机器人),是一种按照一定的规则,自动地抓取万维网信息的程序。   爬虫的基本流程:   发起请求:   通过HTTP库向目标站点发起请求,也就是发送一个Request,请求可以包含额外的header等信息,等待服务器响应   获取响应内容:   如果服务器能正常响应,会得到一个Response,Response的内容便是所要获取的页面内容,类型可能是HTML,Json字符串,二进制数据(图片或者视频)等类型   解析内容:   得到的内容可能是HTML,可以用正则表达式,页面解析库进行解析,可能是Json,可以直接转换为Json对象解析,可能是二进制数据,可以做保存或者进一步的处理   保存数据:   保存形式多样,可以存为文本,也可以保存到数据库,或者保存特定格式的文件   准备安装以下三个库:   Urllib是python内置的标准库模块,使用它可以像访问本地文本文件一样读取网页的内容。Python的Urllib库模块包括以下四个模块:   urllib.request 请求模块   urllib.error 异常处理模块   urllib.parse url解析模块   urllib.robotparser解析模块   基本使用步骤:   (1)导入urllib.request模块   (2)连接要访问的网站,发起请求   (3)获取网站代码信息   (1)BeautifulSoup模块的基本元素   (2)标签树   在解析网页文档的过程中,需要应用BeautifulSoup模块对HTML内容进行遍历。   设有如下的一个HTML文档:   (3)BeautifulSoup模块对象"标签树"的上行遍历属性   (4)BeautifulSoup模块对象"标签树"的下行遍历属性   (5)BeautifulSoup模块对象的信息提取方法   爬取某网站的网络版小说《红楼梦》。打开《红楼梦》小说的目录页面会如图所示。   运用F12,找对应章节的位置   首先爬取对应章节的网址:   爬取每一章节的内容:   当然如此显示会很不好看,我们去试一下生成一本《红楼梦》.txt,默认存在我的D盘   感悟:效果很不错,以后看小说不愁没资源了,自行爬取txt导入手机免费看(也可以复制粘贴到word自动分行),当然之前还在52pj看过爬妹子图,乐趣无穷。

声明:本文内容由网友自发贡献,本站不承担相应法律责任。对本内容有异议或投诉,请联系2913721942#qq.com核实处理,我们将尽快回复您,谢谢合作!


若转载请注明出处: Python网络爬虫实战入门精选
本文地址: https://pptw.com/jishu/661640.html
手把手教会你爬取网页数据知识分享 Python实现简易Web爬虫详解整理

游客 回复需填写必要信息