首页前端开发HTMLPython爬虫入门指南精选分享

Python爬虫入门指南精选分享

时间2024-05-17 00:50:03发布访客分类HTML浏览31
导读: 最近想写一个爬取中国天气网的爬虫。所以打算写一个关于爬虫的系列教程,本文介绍爬虫的基础知识和简单使用。 获取HTML文件Beautiful Soup4库安装Beautiful Soup4对象类型说明爬取网页标题爬取网页图片 ...
  最近想写一个爬取中国天气网的爬虫。所以打算写一个关于爬虫的系列教程,本文介绍爬虫的基础知识和简单使用。   获取HTML文件Beautiful Soup4库安装Beautiful Soup4对象类型说明爬取网页标题爬取网页图片   维基百科是这样解释爬虫的。   网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动的抓取万维网信息的程序或者脚本。   实现一个爬虫,大概只需要三步   根据url获取HTML数据解析获取到的HTML数据,获取信息存储数据   HTML是创建网页的标记语言,其中嵌入了文本、图像等数据,然后被浏览器读取并渲染成我们看到的网页的样子。   使用python内置库urllib中的urlopen函数,就可以根据url获取HTML文件。   在HTML中 用于标记的符号称为超文本标记语言标签,HTML标签的组成如下。   HTML标签以尖括号标识标签名称,如大多数HTML标签是成对存在的(开始标签和结束标签),如也有极少数单独存在的标签,如标签中还可以添加属性值。   这里以中国天气网为例,使用python内置库urllib中的urlopen函数获取该网站的HTML文件。   获取到的HTML文件   读取到网页内容后,需要在HTML文件中找到我们需要的信息。这里使用库来实现这个功能。   Beautiful库的官网介绍如下   Beautiful Soup提供一些简单的、python式的函数用来处理导航、搜索、修改分析树等功能。它是一个工具箱,通过解析文档为用户提供需要抓取的数据,因为简单,所以不需要多少代码就可以写出一个完整的应用程序。   目前Beautiful Soup4已经被移植到BS4中了,所以安装使用如下命令,我这里使用的清华源。   安装成功后,cmd中会显示   现在在jupyter里使用如下代码测试一下是否成功安装。一定要注意大写   Beautiful Soup4将HTML文档转换成树形结构,每个节点都是Python对象。这些对象可以归为4类   Tag:HTML中的标签加上标签内的内容(例如下面的爬取标题)。   它有两个属性(name和attrs),name用来获取标签的名称;attrs用来获取属性。   NavigableString :标签内部文字的属性。   使用.string可以获得标签内的文字内容   BeautifulSoup :表示一个文档的全部内容。   Comment 特殊的NavigableString对象。   还是以刚才的中国天气网为例,现在我们来爬取它的标题。   爬取到的信息如下   获取网页中的一张图片步骤如下   使用BeautifulSoup中的findall方法获取网页所有图片的url。根据图片的地址,使用 urllib.urlretrieve函数下载图片。   图片信息一般都包含在'img'标签中,所以我们通过来爬取网页的图片信息。   爬取到的图片信息如下   可以看到,图片的属性有class、src和长宽等,src代表链接地址。   得到图片信息后,需要提取图片链接来下载(这里我选的第五张图片),   然后使用urllib.urlretrieve函数下载图片。   完整程序如下   爬取到的图片   在学习Python一年中,收集了很多Python学习资料,在这里整理一下,分享给各位!   Python入门、数据分析、爬虫、运维、机器学习方面的学习资料   如果觉得本文还可以,还请各位点个赞。

声明:本文内容由网友自发贡献,本站不承担相应法律责任。对本内容有异议或投诉,请联系2913721942#qq.com核实处理,我们将尽快回复您,谢谢合作!


若转载请注明出处: Python爬虫入门指南精选分享
本文地址: https://pptw.com/jishu/661638.html
一篇带你Python爬虫入门 手把手教会你爬取网页数据知识分享

游客 回复需填写必要信息