首页前端开发HTML最通俗易懂的网页基础教程分享

最通俗易懂的网页基础教程分享

时间2024-05-16 22:30:03发布访客分类HTML浏览28
导读: 1. HTML HTML是用来描述网页的一种语言,其全称叫做作Hyper Text Markup Language,翻译过来就是超文本标记语言。HTML是一种标签语言,我们可以通过一个简单的例子来直观感受一个什么是HTML,在桌面...
  1. HTML   HTML是用来描述网页的一种语言,其全称叫做作Hyper Text Markup Language,翻译过来就是超文本标记语言。HTML是一种标签语言,我们可以通过一个简单的例子来直观感受一个什么是HTML,在桌面上新建一个文本文件,复制以下内容到文件中,并将文件后缀改为".html"   用浏览器打开可呈现以下页面:   这就是最简单的HTML实例,HTML文档要遵守一定的格式规范,如果想了解更多关于HTML的内容可以访问如下链接:HTML教程|菜鸟教程。   在HTML中,所有标签定义的内容都是节点,它们构成一个HTML DOM树,DOM是W3C(万维网联盟)的标准,英文全称Document Object Model,即文档对象模型。它定义了访问HTML和XML文档的标准。更多关于HTML DOM的内容可以访问如下链接:HTML DOM教程|菜鸟教程.   通过HTML DOM,树中所有节点都可以通过javaScript访问,所有节点都可以被创建、修改或删除。节点树中的节点彼此拥有层级关系,通常用父(parent)、子(child)和兄弟(sibing)等术语描述这些关系。   可以看到网页中不同类型的元素通过不同类型的标签来表示,例如title元素内容显示在标题栏中,body元素内容显示在浏览器中,各种标签通过不同的排列嵌套才形成网页框架。   在Chrome浏览器中打开百度,右击并选择"检查"项打开开发者模式,这时在Elements选项卡中可以看到网页的源代码:这就是HTML,这些标签定义的节点元素相互嵌套组合形成了复杂的层次关系,从而形成了网页的架构。   2. CSS   HTML定义了网页的结构,但是只有HTML页面并不美观,可能只是简单的节点元素的排列,为了让网页看起来更加美观,这里借助了CSS。   CSS英文全称Cascading Style Sheets,即层叠样式表,是一种用来表现HTML或XML(标准通用标记语言的一个子集)等文件样式的计算机语言,可以对网页的文字大小、颜色、元素间距、排列等格式进行样式处理,上图中右侧即为一个CSS,例如:   就是一个CSS样式,大括号前面是一个CSS选择器,大括号内部是一条条样式规则,例如position指定了这个元素的布局方式为绝对布局,bottom指定元素的下边距为40像素,width指定了宽度为100%占满父元素,height指定元素的高度。也就是说,我们将位置、宽度、高度等样式配置统一写成这样的样式,然后用大括号括起来,接着在大括号前加上CSS选择器,就表示选择器选中的这个元素就会根据这个样式来显示了。   3. JavaScript   JavaScript简称js,是一种脚本语言,我们在网页里可能看到一些交互和动画效果,如下载进度条、提示框等,这通常就是JavaScript的功劳。   JavaScript通常也是以单独的文件形式加载的,后缀为.js,在HTML中通过script便签即可引入,例如:   如果我们把互联网比作一张大的蜘蛛网,那一台计算机上的数据便是蜘蛛网上的一个猎物,而爬虫程序就是一只小蜘蛛,沿着蜘蛛网抓取自己想要的猎物/数据,流程如下图:简单来说,爬虫就是获取网页并提取和保存信息的自动化程序,下面来简要介绍一下上图。   1. 发起请求   爬虫首先要做的工作就是获取网页,前一章讲了请求和响应的概念,向网站的服务器发起一个请求,首先要构造的就是网站的URL,其次构造请求方式,如果是GET请求,有时需要在URL中添加参数,如果网站设置了反爬措施,我们需要在请求头中伪造User-Agent,让服务器以为这是由浏览器发起的请求,然后就可以获取响应内容。   2. 获取响应内容   从服务器返回的数据,有时候可能是网页的源代码、也可能是一串json字符串,但它们都是一个完整的响应,即包括请求头、请求体等内容,如果我们需要从服务器获得我们想要的数据,就需要根据服务器返回的内容制定不同的爬取策略和解析方式。   3. 解析内容   获取网页的响应后,接下来就是分析网页源代码,从中获取我们想要的数据。首先,最通用的方法便是通过正则表达式提取,这是一个万能的方法,但是在构造正则表达式时比较复杂且容易出错。   另外,由于网页的结构有一定的规则,所以还要一些根据网页节点属性、CSS选择器或XPath获取网页信息的库。使用这些库,我们可以高效地从中提取网页信息。   4. 保存数据   提取信息后,我们一般会将提取到的数据保存到某处以便后续使用。我们可以简单将数据保存为TXT文本或JSON文本,也可以保存到数据库,如MySOL或MongoDB等。

声明:本文内容由网友自发贡献,本站不承担相应法律责任。对本内容有异议或投诉,请联系2913721942#qq.com核实处理,我们将尽快回复您,谢谢合作!


若转载请注明出处: 最通俗易懂的网页基础教程分享
本文地址: https://pptw.com/jishu/661568.html
怎么用Python生成HTML表格 教你怎么自学python入门到精通整理

游客 回复需填写必要信息