Python爬虫入门指南精选分享

时间2024-05-17 00:50:03发布访客分类HTML浏览31

导读： 最近想写一个爬取中国天气网的爬虫。所以打算写一个关于爬虫的系列教程，本文介绍爬虫的基础知识和简单使用。获取HTML文件Beautiful Soup4库安装Beautiful Soup4对象类型说明爬取网页标题爬取网页图片 ...

　　最近想写一个爬取中国天气网的爬虫。所以打算写一个关于爬虫的系列教程，本文介绍爬虫的基础知识和简单使用。　　获取HTML文件Beautiful Soup4库安装Beautiful Soup4对象类型说明爬取网页标题爬取网页图片　　维基百科是这样解释爬虫的。　　网络爬虫（又被称为网页蜘蛛，网络机器人，在FOAF社区中间，更经常的称为网页追逐者），是一种按照一定的规则，自动的抓取万维网信息的程序或者脚本。　　实现一个爬虫，大概只需要三步　　根据url获取HTML数据解析获取到的HTML数据，获取信息存储数据　　HTML是创建网页的标记语言，其中嵌入了文本、图像等数据，然后被浏览器读取并渲染成我们看到的网页的样子。　　使用python内置库urllib中的urlopen函数，就可以根据url获取HTML文件。　　在HTML中用于标记的符号称为超文本标记语言标签，HTML标签的组成如下。　　HTML标签以尖括号标识标签名称，如大多数HTML标签是成对存在的（开始标签和结束标签），如也有极少数单独存在的标签，如标签中还可以添加属性值。　　这里以中国天气网为例，使用python内置库urllib中的urlopen函数获取该网站的HTML文件。　　获取到的HTML文件　　读取到网页内容后，需要在HTML文件中找到我们需要的信息。这里使用库来实现这个功能。　　Beautiful库的官网介绍如下　　Beautiful Soup提供一些简单的、python式的函数用来处理导航、搜索、修改分析树等功能。它是一个工具箱，通过解析文档为用户提供需要抓取的数据，因为简单，所以不需要多少代码就可以写出一个完整的应用程序。　　目前Beautiful Soup4已经被移植到BS4中了，所以安装使用如下命令，我这里使用的清华源。　　安装成功后，cmd中会显示　　现在在jupyter里使用如下代码测试一下是否成功安装。一定要注意大写　　Beautiful Soup4将HTML文档转换成树形结构，每个节点都是Python对象。这些对象可以归为4类　　Tag：HTML中的标签加上标签内的内容（例如下面的爬取标题）。　　它有两个属性（name和attrs），name用来获取标签的名称；attrs用来获取属性。　　NavigableString ：标签内部文字的属性。　　使用.string可以获得标签内的文字内容　　BeautifulSoup ：表示一个文档的全部内容。　　Comment 特殊的NavigableString对象。　　还是以刚才的中国天气网为例，现在我们来爬取它的标题。　　爬取到的信息如下　　获取网页中的一张图片步骤如下　　使用BeautifulSoup中的findall方法获取网页所有图片的url。根据图片的地址，使用 urllib.urlretrieve函数下载图片。　　图片信息一般都包含在'img'标签中，所以我们通过来爬取网页的图片信息。　　爬取到的图片信息如下　　可以看到，图片的属性有class、src和长宽等，src代表链接地址。　　得到图片信息后，需要提取图片链接来下载（这里我选的第五张图片），　　然后使用urllib.urlretrieve函数下载图片。　　完整程序如下　　爬取到的图片　　在学习Python一年中，收集了很多Python学习资料，在这里整理一下，分享给各位！　　Python入门、数据分析、爬虫、运维、机器学习方面的学习资料　　如果觉得本文还可以，还请各位点个赞。

声明：本文内容由网友自发贡献，本站不承担相应法律责任。对本内容有异议或投诉，请联系2913721942#qq.com核实处理，我们将尽快回复您，谢谢合作！

若转载请注明出处： Python爬虫入门指南精选分享
本文地址： https://pptw.com/jishu/661638.html

一篇带你Python爬虫入门手把手教会你爬取网页数据知识分享